汉字识别手艺(简称OCR)可以年夜白为是让策画机认字的手艺。它经过过程光电旗子记号转换,即文 雄厚的数据源。
? 首先,从库存档案的情形来看,近几十年来形成的年夜量印刷汉字档案纪录了我们党和国家的 主要历史,对我国现代化事迹的成长,对精神文明和物质文明的培植都有着异常主要的行使 价钱。但这部门档案的内容都没有文数 据,使深条理的拓荒行使成为概略,更好地为现代化培植事迹做事。
? 另一方面,供给了一种新的档 案目录数据的录入体式格局。
? 应用策画机以来,汉字录入只有一种体式格局,即健盘录入。虽然此刻汉字键盘录入的方式有许 多种,而且日趋轻便快捷,已是年青人必备的职业妙技,然则它究竟?结果属于一种妙技,不只需 要回响反映火速,手指天真,而且要熟纪录入的原则、方式和方式。这对于在档案部门据有相当 比例的中老年同志来说,把握起来确有难度。是以,键盘录入体式格局模仿照旧是影响一些档案部门 竖立档案目录信息数据库的成分之一。OCR软件为我们供给了一条新的路子。它经过过程“拖拉 ”的体式格局,将屏幕上文件的目录项如题目、文号、责任者等直接移植到档案目录数据库的相 应字段中去,简单易学,一看就会。遗憾的是手工“拖拉”速度较慢,而且需要即时扫描或 挪用图像数据,所以单一行使这种体式格局录入档案目录,速度不及谙练录入员的键入速度。但它究竟?结果是一种新的录入体式格局,为竖立档案目录信息数据库供给了一条史无前例的路子。而且 ,若是行使OCR软件同时竖立新型的综合档案信息数据库,例如包含档案的文件目录、图像 和文行使为目的经过过程汉字识别竖立文本数据库时,其文本数据具有近似于汇编类档案 编研功效的属性;当以编纂出书纸质的档案编研材料如年夜事记、机关机构沿革、文件汇编等 为目的进行汉字识别时,其文本数据不只具有近似于档案编研功效的属性,而且具有档案原 始性的根底属性,因为它们是印刷品或出书物的本源信息。
? 由此可见,汉字识别后生成的文本数据是一种分歧于传统档案属性的新型档案信息。
? 三、汉字识别手艺的应用体式格局
? 汉字识别手艺在档案治理工作中的应用,凭据其此刻的手艺水平首要合用于近几十年来印刷 汉字档案内容的识别,图像、文本数据的形成、存储和目录数据的录入等项工作。首要的应 用体式格局有:
[1] [2] 下一页