中华民族五千年
历史文化积累了大量经验知识,在数字存储技术出现之前,这些知识是记录在石头、纸张、竹简或者绢丝上,不易拷贝,却易因火灾、水灾等原因造成不可逆转的损毁。随着数字技术的发展,为更好传承中国文化,“百万册数字图书馆
项目”(http://www.cadal.cn/)首先把历代优秀的书法作品数字化,作为数字图书馆的重要组成部分。然而,数字化书法作品同时带来了一个前所未有的挑战:数字化打印体作品可采用OCR技术识别成文本,进而为用户提供图书馆最基本的基于文本的检索服务,而数字化书法字却与打印体不同,无法采用OCR技术识别成本,因为书法字出自不同朝代不同人之手,书体
风格多变,到目前为止,仍无法将这些扫描得到的书法图像识别成文本。
针对这个问题,2007年7月,《Journals of Computer Science & Technology》(中文名:计算机科学与技术)第22卷第4期刊登了一篇题为“Hierarchical Approximate Matching for Retrieval of Chinese Historical Calligraphy Character(中文题目:中国书法字图像的分级匹配与近似检索)”的文章,提出了书法字检索方案,通过书法字图像的匹配达到检索目的。但匹配图像的
速度是缓慢,依次匹配数据库中候选图像,其算法所需的时间是用户无法容忍的,因此该论文提出一种快速检索方案:先根据特征从大量数据量中抽取可能相似的少量书法字,而后把用户提交的样本字与这些少量书法字进
行不精确匹配。实验显示,在检索速度上,这种方案与直接的图像匹配方案相比,在速度上提高了近50倍;在检索
效果上,与直接的图像匹配方案相比,该方案并没有降低查全率和查准率,反而有略微的升高。
这种书法检索方案现已经发布到数字图书馆,期望得到更多用户的进一步测试和意见,测试地址如下:http://www.cadal.zju.edu.cn/ CalligraphyWeb/ listBooks.action(正在
测试中) 。目前这个方案有助于书法艺术家及书法爱好者将同一汉字所有不同的历史书法字检索出来,排成一列进行对比,以研究书法艺术的发展演变过程,可用在书法艺术课堂上,向观众展示书法艺术之美。
随着历代书画作品的不断扫描,这一种检索技术的发展,检索速度会越来越快,所能检索到的范围越来越广,将有助于历史学家及其爱好者检索历史人物所记载的内容,因为在数字化技术出现之前,人类的
知识或心得经验是手写的,是书法,并非打印体;有助于图书馆用户查阅、检索打印体之外的原始的书法版的资料。