本次对比的两款OCR软件:汉王 PDF OCR(版本8.1.4.16)和尚书七号OCR。原本是想把一些PDF文件转换成文本(该PDF内容是图片,无文字),所以需要找OCR识别软件(我可不是做盗版的,只是想转换后放到手机上阅读)。不过尚书七号不能直接从PDF进行转换,它只识别TIF、JPG、BMP,所以在识别前,需要把PDF先转换成TIF图片格式(转换成其它格式也行):使用PDF中的打印功能,选择打印机“Microsoft Office Document Image Writer”(微软MS office带的),就可以输出成TIF文件,不过所有页面都在一个TIF图片文件中,还需要用ACDSEE另存为单页。而汉王就简单了,因为它可以识别除尚书能识别的三种图片格式外,还能直接识别PDF格式,所以不用那么麻烦的转换。
首先从外观上来看,两个软件其实很象,从桌面快捷方式的图标(也可以看看下面截图左上角的图标,就知道它们用的图标是一样的),到内部菜单、选项、布局,基本是一样的。那么识别汉字的能力呢,看看下面识别同一页PDF内容的对比(前面的是汉王,因为是免费版,所以有广告,同时支持自动更新,后面的是尚书七号,是OEM版):
在这一页的识别率上(识别速度差不多),两个软件各有千秋,不过从更多的识别内容来看(不在以上截图中),尚书的可读性要稍好于汉王。但如果要从PDF直接进行识别,还是汉王方便,不用太多准备工作。另外,如果要识别率更高更准确,待识别版面的清晰、整洁也是有一定要求的,否则就会干扰到OCR的识别率。
>> 除非说明均为原创,如转载请注明来源于http://www.stormcn.cn/post/885.html