企业信息

    灵玖中科软件(北京)有限公司

  • 9
  • 公司认证: 营业执照已认证
  • 企业性质:外资企业
    成立时间:
  • 公司地址: 北京市 海淀区 北京市海淀区苏州街49-3号盈智大厦5层
  • 姓名: 张宝
  • 认证: 手机未认证 身份证未认证 微信未绑定

    供应分类

文本挖掘:灵玖大数据汉语智能分词技术

时间:2016-11-21点击次数:0

  汉语分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用。其他的比如机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。
  汉语自动分词是目前中文信息处理领域公认的一大难题,也是自然语言理解研究领域中较基本的一个环节。中文自动分词就是将用自然语言书写的文章、句段经计算机处理后,以词为单位逐词输出,为紧随其后的加工处理提供先决条件,如图1所示。可见,中文自动分词是自然语言处理的**个步骤,其重要性勿庸置疑。
  然而,汉语自动分词存在很大的挑战。命名实体识别、新词处理和歧义消解是三个较根本又很棘手的问题。这里所谓的命名实体指的是人名、机构名、地名以及其他所有以名称为标识的实体。例如,“计算技术研究所”,“斯琴高娃”,“石家庄”,要是在训练集中没有包含这些词的先验知识,那么将它们完整从句子中切分出来是很困难的。新词发现也叫做未登录词。这些词的出现是由于数据集范围的局限性以及新词的产生。它们包括了部分的命名实体、网络用语等,如何对这些未能从数据集中获得知识的词切分,依旧值得认真研究。常见的两种汉语分词的歧义有:1)交集型切分歧义。例如,给定一个输入句子——“结合成分子”,由于其中的“结合”、“合成”、“成分”和“分子”都能构成词,因此对切分来说造成了一定的困难;2)组合型歧义。例如“门把手弄坏了”,由于字之间的不同组合,可能存在的分词结果有:“门/把/手/弄坏了”和“门/把手/弄/坏/了”。尽管存在这么多的难以处理的问题,新的分词方法还是在不断被发掘。
  而灵玖大数据汉语智能分词系统是在多年研究基础上,耗时一年研制出了基于条件随机场(Conditional Random Field,简称CRF)模型,该系统的功能有:中文分词;词性标注;未登录词识别。分词准确率接近99%,具备准确率高、速度快、可适应性强等优势;特色功能包括:切分粒度可调整,融合20余部行业专有词典,支持用户自定义词典等。
  大数据汉语智能分词系统充分解决了中文分词里三个主要的问题:
  1、词性标注能对汉语语言进行词性的自动标注,它能够真正理解中文,自动根据语言环境将词语诸如“建设”标注为“名词”或“动词”。
  2、人名地名机构名识别能够自动挖掘出隐含在汉语中的人名、地名、机构名,所提炼出的词语不需要在词典库中事先存在,是对语言规律的深入理解和预测。
  3. 新词发现:从文件集合中挖掘出内涵的新词语列表,可以用于用户专业词典的编撰;还可以进一步编辑标注,导入分词词典中,从而提高分词系统的准确度,并适应新的语言变化。