格鲁修学社区

 找回密码
 注册社区
搜索
热搜: 活动 交友 discuz
查看: 29957|回复: 58

实战藏文OCR,终于成功。。。

[复制链接]
发表于 2012-7-4 08:42 | 显示全部楼层 |阅读模式


缘起:找宗喀巴大师的《中论·正理海》电子版未果,决定自己OCR。

软件:清华紫光藏文OCR1.0

下载地址:

http://ishare.iask.sina.com.cn/f/15168069.html?from=like

开始安装软件:



版权声明,似乎是清华大学和西北民族大学联合研制的



安装到最后要求重启机器:





运行界面:




下载同文藏文输入法,并安装其字库:


http://dl.pconline.com.cn/html_2/1/77/id=9265&pn=0.html



请将文件"CHANTIBETBT.ttf""Tibetbt.ttf"复制到C:\WINDOWS\Fonts目录下;


终于识别出来了,觉得识别率不错(上面是扫描版的图,下面是Word里面的识别结果):





有的隔点没有了,但大部分识别结果还是可以的。


原图(这图不是中论正理海的,似乎是<密集生起次第悉地海之五次第明灯释>的前言)





识别出来的TXT文本文件:




识别出来的文本文件转为Word文件:




如果已经装了同元字库,这个Word文件打开,就能看到美丽的藏文电子版了。。。


顺便推荐一个藏文内码的转码软件:





http://www.cncrk.com/downinfo/30503.html


这是介绍:


藏文转码软件下载来源: 丹增 &#3926;&#3942;&#4001;&#3923;&#3851;&#3936;&#3931;&#3954;&#3923;的日志
前段时间看到扎彭想成立一个制作藏文字幕小组的小团队的文章,但是他们用于制作视频的软件不支持喜马拉雅输入法的字体,只能用班智达输入法。我想一些人可能不习惯用班智达输入法,毕竟要使用另一种藏文键盘。这个藏文转换软件可以解决这一问题。有兴趣的朋友可以安装这个软件,直接用喜马拉雅输入法输入喜马拉雅字体(Unicode),然后用这个软件转换成班智达字体。它同时也支持17种藏文编码和字体直接的互相转换,极为方便。

下载地址:
或:

如果是doc文件转码,那么先将它另存为rtf文件,然后使用这个软件,选好需要转换的编码,再转码,输出的文件需要选择打开方式才能打开,如果嫌麻烦,可以在输出的文件的文件名重命名,在文件名后面加上“.rtf”的扩展名。如果是txt文件转码,同样在输出的文件的文件名上重命名,在文件名后面加上“.txt”的扩展名即可。

通用藏文转换软件版本:3.0
程序设计:中国藏学研究中心   扎西次仁
研究助力:中国藏学出版社      尼玛卓玛
版权所有 (C)2003-2010       利众基金会

概述
通用藏文转换软件(简称藏文转换软件)是扎西次仁于2003年在美国留学期间在利众基金会的资助下开发完成的。
开发该软件的目的是为广大藏文用户提供一个在不同藏文编码的文件之间进行文件转换的工具。该转换软件同时还提供了藏文本身与藏文的拉丁转写文,以及藏文的拉丁转写文与藏文本身之间的转换功能。
该转换软件有三种语言版本:英文版、藏文版和汉文版。用户可以挑选一个适合自己的版本。藏文版必须在Windows Vista、Windows7,或之后的Windows操作系统上运行。
该转换软件是免费软件。但是,在使用该软件之前,请您仔细阅读并接受该软件的使用许可声明文件license.txt。该文件位于转换软件的安装包中。
通用藏文转换软件覆盖了世界上最主要的17种藏文编码或字体,包括:三种藏文拉丁转写系统、国际标准藏文编码字符集Unicode, 以及其它14种传统的藏文编码或字体。转换软件可以处理四种常见的文件格式:文本文件(txt)、Unicode文本文件(txt)、Rich Text Format (RTF)和HTML网页文件。用户可以随意在上述17种藏文编码或字体中的任意两个之间进行转换。而且可以选取不同的文件格式。

ACIP 拉丁转写文、ALA-LC 拉丁转写文、班智达、北大方正、华光、LTibetan、藏文编码字符集扩充集、桑布扎 1.0 (Sama)、桑布扎 2.0 (Dedris)、TCRC Bod-Yig、THDL 拉丁转写文、Tibetan Machine、Tibetan Machine Web、同元、加央 (Jamyang)、Unicode、Wylie 拉丁转写文


这是转码的优酷视频教学:






本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册社区

x
 楼主| 发表于 2012-7-4 10:59 | 显示全部楼层
fstibet 发表于 2012-7-4 10:45
恭喜师兄踏出胜利的一步,但后面还有校对录入等工作,希望能多人合力完成就好了!

嗯,small2师兄说,他那里有PDF文件,已经求他赐予,我手中暂时还没有中论正理海的实体书。
我估计需要先把PDF文件转为图片文件,然后再插入到OCR软件里,识别出结果(TXT文本),复制到Word文档中,选用同元的字体,才能正确显示出来。
如果转为喜马拉雅字体,可能还需要用藏文转码软件重新进行转换。


然后,还要有人专门校对一遍,上次宝性论大疏的藏文电子版,据说便错字较多。


这恐怕还得麻烦北塔藏文班的各位译师校对,这工作既枯燥又不易见功,藏文班的几位译师,甘做绿叶或无名英雄,很难得。
借机呼吁一下,论坛上要是有懂藏文的师兄肯援手,大家一起干,那么工作量会小得多,也更有意义。
中论正理海的藏汉对照版,如果正式发布,对汉地格鲁学子来说,修学及求上师传授,又多了一个重要的法宝,这是宗大师关于中观见可说是最重要的一部著作了。


扫描、OCR、校对——这是一条道路,如果这条路能走通,那么对ACIP的依赖就小多了,自由度增大,将来再有类似情况,就好办了。


不过,目前OCR识别只能单张插入识别,很慢,没效率,要是能一次插入多张,一齐识别出来就好了,这点还需要继续尝试、探索。。。


回复 支持 1 反对 0

使用道具 举报

发表于 2012-7-4 08:44 | 显示全部楼层
大好了,感謝分享...
发表于 2012-7-4 09:09 | 显示全部楼层
赞叹
发表于 2012-7-4 09:14 | 显示全部楼层
挑战成功,贺!

发表于 2012-7-4 09:19 | 显示全部楼层
好,试试,太好了!
发表于 2012-7-4 09:39 | 显示全部楼层
老笨真牛人呀,赞赏一下!
发表于 2012-7-4 09:58 | 显示全部楼层
祝贺
发表于 2012-7-4 10:25 | 显示全部楼层
很好。
发表于 2012-7-4 10:33 | 显示全部楼层
恭喜
发表于 2012-7-4 10:45 | 显示全部楼层
恭喜师兄踏出胜利的一步,但后面还有校对录入等工作,希望能多人合力完成就好了!
发表于 2012-7-4 11:18 | 显示全部楼层
顶。。。。。。。。
发表于 2012-7-4 11:39 | 显示全部楼层
如果small2提供排版PDF,就比較好辦,從PDF提取圖片,然后識別,其實識別還是一張張分開識別的好,這樣方便校對,還有一個問題是師兄希望以同元還是喜瑪字體,喜瑪字體比較通用,以后做網絡版也容易,所以在校對方面應主要放在喜瑪字體上,同元只是做為過渡,當然有精力兩個都可以做。
发表于 2012-7-4 13:50 | 显示全部楼层
紫光OCR在WIN7裝不上
 楼主| 发表于 2012-7-4 14:17 | 显示全部楼层
monlam 发表于 2012-7-4 13:50
紫光OCR在WIN7裝不上

不可能吧,我下载安装的很正常啊。。。
您需要登录后才可以回帖 登录 | 注册社区

本版积分规则

小黑屋|手机版|Archiver|格鲁教法集成

GMT+8, 2024-11-23 11:54 , Processed in 0.037835 second(s), 20 queries , Gzip On.

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表