PDF文件进行OCR识别的一种方法
现在有一批扫描版的PDF文件,需要进行OCR识别,但很多OCR软件只能对TIF、JPG等格式进行识别,下面介绍一种可以直接对PDF文件进行识别的方法,识别后的PDF文件为图在文上的双层格式。
一、所需软件环境
l TH-OCR 2007文通数据录入工厂
l Adobe Acrobat professional 8.0
二、操作步骤
1,运行“开始”-“程序”-“TH-OCR 2007文通数据录入工厂”-“Tiff2PDF”;
2,选择识别字体为“简体中文”;
3,按确定后出现操作窗口
4,在出现的窗口中选择添加图像页按钮,选择要打开的文件,如果要选择pdf文件,首先将文件类型选为“PDF file”。
5,打开文件后,点击开始识别按钮,就可以对PDF文件进行识别。识别过程很慢,500页大约需要30-50分钟。
6,识别完成后,生成的PDF文件存放在识别结果路径下,文件大小变得很大,我转换了一个22兆的PDF文件,约1060页,识别后的PDF文件有
三、优化识别后的PDF文件
1,打开Acorbat,选择“文档”-“优化扫描的PDF”,弹出优化窗口。
2,在优化窗口中将背景去除选项选择为“关闭”,确定后开始优化。
3,优化完成后,选择“文件”-“保存”,将该文件另存保存一下。文件经过优化后,大小必原始未识别的PDF文件增长约1倍。
