DOITAPP
DOIT数据智能产业媒体与服务平台
立即打开
DOITAPP
DOIT数据智能产业媒体与服务平台
立即打开

《报告》称搜狗汉字输入加速汉语语言演变

6月14日在北京举行的搜狗输入法五周年庆典上,“清华大学(计算机系)-搜狐搜索技术联合实验室”公布了中国首份《中文汉字输入发展报告》(以下简称“报告”)。报告对近30年汉字输入发展历程做了总结,指出字根输入将会逐渐消亡,而拼音输入发展趋势不可逆转。汉字输入发展已经摆脱桌面限制,互联网输入法可使得输入更容易、更丰富精确。首先是信息存储的扩大,互联网词库的超大信息量,相比于桌面输入法的小而精,互联网已经成为“活”的输入法,词库是大而全;其次是信息输入实时统计和挖掘技术提高,可随时发现和补充新词,并对用户输入的分词统计,随时对词库词频做出合理调整,给出最合理的词条排序;最后是输入智能计算能力的提高,可以统计更长元组频率和更远距离的词语搭配,使得句法更为合理。

报告指出,汉字输入已成为能记录社会变迁和反映网民心情的网络应用。这是由其互联网入口的地位所决定,汉字输入是所有网络工具的文字录入前端,是其连接到互联网上的必经之路,互联网已经成为人们社会交流、表达个人观点和心情的工具,越来越多的人通过搜索引擎、微博、博客、日志、论坛发帖、IM聊天等方式表达心情和观点,这些词汇和句子就会通过文字输入记录下来,从而通过汉字输入法来记录网民个人心情成为现实。据统计2010年,中文网民通过搜狗输入法,每年按键超过27万亿次,输入汉字总量超过10.5万亿个。通过汉字输入法输入,各种新锐热词在网络上频繁出现,各种热门话题和热门人物被网民所热议,它反映出社会流行的潮流,一定程度上记录着整个社会变迁的过程。中国汉字输入的过程,正日益成为记录社会变迁和网民个人心情的过程。

中文汉字输入正对汉语文化发展产生着重要影响,它正在加速汉语语言演变,创生出大量新的汉语词汇,使得汉语词汇进一步衍伸发展,加速了网络新词的产生和传播。据统计,从2006年到2011年5年内,新增 18多万个新的词条 。报告从用户采用全拼输入习惯和网民心理做了分析,并对产生新词的种类做了归类总结。

用户能够准确和完整的输出中国成语、古诗词和人名,得益于汉字输入技术的长足进步,特意在词库中增加了成语词组的数量,还采用了四键长词功能。为使中文人名的输入更加通畅,汉字输入法将中文人名的输入功能作为一项特有功能加入,该功能采用独有技术识别姓和名,在不需要姓名词库支持的情况下即可输入90%以上常用中国人名。成语、古诗文和人名已有几千年历史,是中国传统文化中的宝贵财富,对中国成语和人名的准确输入,将有助于弘扬中国汉语语言文化的发展。

未经允许不得转载:DOIT » 《报告》称搜狗汉字输入加速汉语语言演变