西勾月:阿帕比时代
日历
网志分类
· 所有网志 (593)
· 阿帕比新闻 (62)
· 行业新闻 (134)
· 技术文章 (73)
· 深度分析 (79)
· DLib集锦 (110)
· DESi集锦 (29)
· TASi集锦 (27)
· Maker-writer集锦 (10)
· Reader问答 (24)
· 其他FAQ (21)
· 免费图书 (2)
· 读后感 (20)
· 未分类 (2)
站内搜索
友情链接
· 歪酷博客
· 我的歪酷 非非共享界
· 色影靡丽色阿哥
· 西边的弯月
· 西勾寻她千百度
· 西勾月下搜狐
· 网易色阿哥
· 西勾植物志
· 西勾月个人主页
· 西勾月文集
· 色阿哥之家
· 西勾月的共享界
· 阿帕比读书网
· 阿帕比官方网
· 阿帕比电子书店
· 阿帕比论坛
· 爱读爱看网
· 方正科技图书馆
· Apabi试用数图
· Apabi Reader下载
· 浪子:我不做大哥好多年

订阅 RSS

0278062

歪酷博客

色阿哥 主办 :关注电子图书及数字图书馆方向。
« 上一篇: Apabi Reader1.83和3.1.1的对比 下一篇: 试论数字图书馆建设中的战略整合 »
西勾月 @ 2007-10-25 08:58

PDF文件进行OCR识别的一种方法

 

现在有一批扫描版的PDF文件,需要进行OCR识别,但很多OCR软件只能对TIFJPG等格式进行识别,下面介绍一种可以直接对PDF文件进行识别的方法,识别后的PDF文件为图在文上的双层格式。

 

一、所需软件环境

l       TH-OCR 2007文通数据录入工厂

l       Adobe Acrobat professional 8.0

二、操作步骤

1,运行“开始”-“程序”-TH-OCR 2007文通数据录入工厂”-Tiff2PDF”;

2,选择识别字体为“简体中文”;

3,按确定后出现操作窗口
4,在出现的窗口中选择添加图像页按钮,选择要打开的文件,如果要选择pdf文件,首先将文件类型选为“PDF file”。

5,打开文件后,点击开始识别按钮,就可以对PDF文件进行识别。识别过程很慢,500页大约需要30-50分钟。

 

6,识别完成后,生成的PDF文件存放在识别结果路径下,文件大小变得很大,我转换了一个22兆的PDF文件,约1060页,识别后的PDF文件有1G大小,这样的文件肯定是无法使用和传播的。因此还需要用Acrobat进行优化处理。

 

 

三、优化识别后的PDF文件

1,打开Acorbat,选择“文档”-“优化扫描的PDF”,弹出优化窗口。

2,在优化窗口中将背景去除选项选择为“关闭”,确定后开始优化。

 

3,优化完成后,选择“文件”-“保存”,将该文件另存保存一下。文件经过优化后,大小必原始未识别的PDF文件增长约1倍。

 






评论 / 个人网页 / 扔小纸条
* 昵称

已经注册过? 请登录

新用户请先注册 以便能显示头像及追踪评论回复

Email
网址
* 评论
表情
 


 

分类小组论坛
杂谈 , 娱乐、八卦 , 文学、艺术 , 体育 , 旅游、同城 , 象牙塔 , 情感 , 时尚、生活 , 星座 , 科技

请注意遵守中华人民共和国法律法规, 如威胁到本站生存, 将依法向有关部门报告, 同时本站的相关记录可能成为对您不利的证据.

相关法律法规
全国人大常委会关于维护互联网安全的决定
中华人民共和国计算机信息系统安全保护条例
中华人民共和国计算机信息网络国际联网管理暂行规定
计算机信息网络国际联网安全保护管理办法
计算机信息系统国际联网保密管理规定