梅兵代表:完美中文字符集,鞭策传统文化数字化传布
目前,在通用电脑字符集中已编码汉字总数已达9万以上,但有7万多字在数据库中其实不能利用。针对目前中文字符集中古文字缺位、有字不克不及用、有字欠好用等问题,本年的全国两会上,全国人大代表、华东师大党委书记梅兵定见,完美中文字符集,鞭策传统文化数字化传布。
本年2月中共中心、国务院印发《数字中国建立整体规划规划》提出,打造自信富贵的数字文化,深进施行国度文化数字化战术。然而,数字媒体时代,文字信息的传布高度依靠于字符集那一根底支持平台,因为当前中文字符集建立的不敷,做为传统文化根本载体的汗青文献在数字化传布中存在话语障碍,间接影响了弘扬中华优良传统文化和国度文化数字化战术。
梅兵代表指出,次要问题包罗:
字符集中古文字缺位,形成更具汗青厚度的中华文化资本的收集盲区。详细来说,做为中国传统文化次要载体的汗青文献分两类:一类是传世文献(十三经之类),另一类是出土古文献(次要是古文字文献)。而做为中国文化传承系统两翼之一的古文字,却并未被目前国际原则电脑字符集所笼盖。
其次,有字不克不及用,多量已在国际原则中编码的汉字收集和数据库利用受限。以最重要的字书《说文解字》为例,第一卷收字703个,此中属于收集和数据库受限利用的126个。编码字遭到收集排斥,检索查找的对象常被张冠李戴,乱点鸳鸯,传统文献的收集阅读就如被蒙上一头雾水。例如,在网上查找“ ”字(《集韵》“色进切,木茂貌”),而获得的检索成果却是“穑” 等一些毫不相关的字。值得重视的是,已经正式在国际原则字符集中获得合法地位的汉字,竟有70%以上还遭受如斯不公允待遇,那对传统文化数字化传布形成的负面影响是难以估量的。
再次,有字欠好用,做为中文字符集核心的GBK部门大面积存在“一字多码”情况。当前在收集和数据库中利用不受限的汉字只要GBK字符集那个范畴,但是GBK字符集却存在“一字多码”的问题。在文字输进过程中,一字多码的输进源,就可能招致同字却利用差别内码字的成果,由此形成文献搜刮查找的为难:该找到的找不到,该搜齐的搜不齐,传统文化宝躲的数字化传布就如许在不知不觉中被打了折扣。不难揣度,在如许一个字符集撑持下往停止传统文献的数字阅读,会发作很大问题。
对此,她定见高度重视中文字符集建立,加强整体规划和协调治理。例如,处理“一字多码”的问题其实不困难,可开发针对性的输进法,用提醒多码字的体例来搀扶帮助输进者躲避不妥文字输进。在收集检索的环节,则能够通过开发有效的同字多码认同法式来包管检索数据的准确性。另一方面,要实现中国原则的同一编码,加强中文字符集的国际影响力。
做者:储舒婷
编纂:储舒婷
*文汇独家稿件,转载请说明出处。