中易中标 首页  
     
    Javascript DHTML Drop Down Menu Powered by dhtml-menu-builder.com Javascript DHTML Drop Down Menu Powered by dhtml-menu-builder.com Javascript DHTML Drop Down Menu Powered by dhtml-menu-builder.com Javascript DHTML Drop Down Menu Powered by dhtml-menu-builder.com  
     
  参考新闻  
 
公司简介
中易起诉微软
参考新闻
· 中易-中标字库
· 超大型汉字平台
·『郑码』输入法
·『数字方志』工程
   首期地方志工程启动
   工程进入新阶段
   地方志二期胜利完成
   应用“中易汉神e”
  《国图八考》
· 光盘大藏经时不我待
· 更多参考新闻...
新闻事记
相关法规标准

  全国『地方志』全文数字化工程全面报道

国家图书馆正式委托北京中易公司完成《地方志》全文数字化工程
      ——中国国家973信息技术与高性能软件规划项目《中易汉神e——超大型中文网络国际应用平台》的重大应用

    2003年9月12日,国家图书馆与北京中易公司正式签署了《地方志》数字化工程委托协议书,确立采用《中易汉神e——超大型中文网络国际应用平台》作为《地方志》全文数字版的支撑系统。

    这是自2002年5月到2003年7月以来,在长达14个月的时间,国家图书馆对几个重点研发中文信息处理软件公司,进行多次调研、考核、试制、专家审议,经过极慎重考虑作出的重大决定。

    其中,国图对中易公司前后就经过两批样品试制(计有100万字),4次派专家到中易公司考察,中易公司有2次到国图进行技术演示和专家答辩,之后又经过多重演示,才确定将此“地方志”的巨大数字化工程交由中易公司。

    “地方志”工程总数约330万页,每页平均500字,共计约16亿5千万字。是当前我国也是国际上中文全文数字化信息处理难度最大、工程量最大的系统工程。

    在协议书第一款的工程内容中强调:全部数据产品建立在中国国家973信息技术与高性能软件规划项目的《超大型中文网络国际应用平台》之上。为实现多文种统一处理;全面支持国际互联网,实现全球浏览和检索服务打下基础。

    然后,在第三款乙方责任(中易方责任)中,又进一步要求:将整体工程系统平台建立在乙方研发的
《超大型中文网络国际应用平台》之上。该应用平台支持ISO/IEC 10646 Super CJK 国际标准化汉字字符集标准,其中:基本集有20902个汉字(与GB13000.1字符集的编码标准一致);EXT-A(扩充A)集,有6582个汉字(基本集加扩充A集的汉字与GB18030-2000字符集一致);EXT-B(扩充B)集,有42711个汉字;总和有70195个汉字,汉字编码符合ISO/IEC 10646 Super CJK(即Unicode)国际标准编码,并支持扩充B集的4字节编码汉字的处理,因而与Windows 2000/XP(Unicode编码)多国语言版的平台系统兼容,从而为多文种的统一处理、为全面支持国际互联网实现全球浏览和检索打下坚实基础。

    该应用平台的汉字字形符合GB13000.1字符集标准(1993年12月国家质量技术监督局颁布),有20902个汉字,字数与国际标准基本集一致,所区别的是:我国已对此标准中的汉字字形做了内扩充与正形。

    上述两条充分说明,今后国际图书馆数字化工程的系统平台全部和国际标准接轨。在执行国家标准的基础上,全国执行国际标准(GB13000.1标准内码也是符合国际标准的),这样才能和多国语言平台统一,为全面支持国际互联网实现全球浏览和检索打下坚实的基础。

    应用系统平台支持 ISO 10646 Super CJK 国际标准编码;也就是说,目前就要支持已有国际标准编码
的70195个汉字是非常重要的。而要支持70195个汉字,就要解决支持4字节的应用平台系统、4字节的搜索引擎和4字节的中文输入法的管理模块。这都是当前国际上中文信息处理的高难度的创新课题。而这些研发工
作,中易公司早在1998年就在他们完成的能全面处理10万汉字信息的《计算机全汉字信息处理系统集成》项目中初步得到解决,因而这个大型项目荣获了《北京科技进步一等奖》、《国际科技进步二等奖》、《世界华人发明大奖》等。之后又经过二年的艰苦开发,现在已全面解决了上述难题。这在国内外,目前是唯一首创的。这个项目在2001年11月,选列为《国际973信息技术与高性能软件规划项目》、国家科技部IT领域首席专家顾钧教授亲任此项目组长。

    在中易公司争取到国际图书馆如此高难度的、巨大的《地方志》数字化工程中,《郑码》检索输入系统也发挥了核心作用。由于《郑码》具有规范性强,对任何汉字都能迅速地见字识码,准确检索和快速输入的特点,所以当国图拿出两批试制样品进行考核时,中易公司用《郑码》都轻易输入所有的汉字。

    由于“地方志”的编写跨越几百年,历经数个朝代,而且全国各地的都有。编写水平不一,版式安排随意性很大,五花八门,因而排版还原版式十分复杂。用字笔形不规范、不统一,且有大量异体字、讹字、避讳字等,涉及字种的字量很大;而且由于年代久远,许多书页纸张泛黄,所以在字形辨别、规范字形、补字、校对、版式还原、信息发布、全文检索等方面,对数字化工程提出很高的要求。正因为如此,《地方志》古籍的全文数字化工程很难用OCR自动识别系统进行。

    试制的第一批18页是《武功县志》,是一批具有眉批、大小字穿插的高难度的试样,中易公司两天就出色的完成任务。令国图领导非常满意的还有:中易公司对这18页“地方志”中,就有5个字是70195个国际标准编码汉字的外字。这说明,必须要有能处理8万个汉字以上的应用系统平台,必须要有《郑码》检索输入系统才能对付这极其复杂的《地方志》数字化工程。

    试制的第二批是《京畿地方志》中的100万字;许多纸页泛黄,字迹不很清晰,版式各式各样更是复杂,不但字数多,且难度也更大。由于中易自行开发了多种软件,仅8个人在短时间内就顺利地完成了工作,令国图领导十分信服和满意。

    今天,中易公司集3代人历经半个世纪地努力,从1998年成功地推出了 《计算机全汉字信息处理系统集成》至2001年完成开发的 《中易汉神e——超大型中文网络国际应用平台》 可以在 Window 2000/XP 和
MS-Office环境下,帮助用户进行7万汉字的输入、编辑排版、打印和照排输出,以及电子出版和进入国际互联网。全部7万汉字符合国际 ISO 10646 Super CJK 字符集标准,Unicode内码。使得古籍、善本、经书、科研及涉及到人名、地名管理等文献,在全文数字化过程中的缺字问题迎刃而解!

    《中易汉神e》配合我们自行开发的古籍数字化加工的系列软件,可以快速的将清晰度低的古籍善本等文献的扫描图形全文数字化。双工录入,计算机自动校对,辅以人工修正,错误率低至万分之三;可以自动还原各种复杂版式,如:古典表格、框外有眉批、一行大字对应二至三行小字等;正文宋体字或楷体字任选,字体清秀美观。遵守 XML 标准,多种格式输出,如 PDF 等。  全文化后的文档,可用于印刷、电子出版、Internet。为古籍、善本、宗教、历史、考古、地理、人名等的研究、写作与编写,提供全球浏览和全文检索的全面技术解决方案。

 

版权所有 © 中易中标电子信息技术有限公司
2005 ZhongYi Electronic Ltd. All Rights Reserved
请使用 IE 5.0 以上版本浏览器
800×600 或更高分辨率浏览本网站
简体中文 繁體中文 English