企业信息

　　汉语分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。中文分词是其他中文信息处理的基础，搜索引擎只是中文分词的一个应用。其他的比如机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等，都需要用到分词。
　　汉语自动分词是目前中文信息处理领域公认的一大难题，也是自然语言理解研究领域中较基本的一个环节。中文自动分词就是将用自然语言书写的文章、句段经计算机处理后，以词为单位逐词输出，为紧随其后的加工处理提供先决条件，如图1所示。可见，中文自动分词是自然语言处理的**个步骤，其重要性勿庸置疑。
　　然而，汉语自动分词存在很大的挑战。命名实体识别、新词处理和歧义消解是三个较根本又很棘手的问题。这里所谓的命名实体指的是人名、机构名、地名以及其他所有以名称为标识的实体。例如，“计算技术研究所”，“斯琴高娃”，“石家庄”，要是在训练集中没有包含这些词的先验知识，那么将它们完整从句子中切分出来是很困难的。新词发现也叫做未登录词。这些词的出现是由于数据集范围的局限性以及新词的产生。它们包括了部分的命名实体、网络用语等，如何对这些未能从数据集中获得知识的词切分，依旧值得认真研究。常见的两种汉语分词的歧义有：1)交集型切分歧义。例如，给定一个输入句子——“结合成分子”，由于其中的“结合”、“合成”、“成分”和“分子”都能构成词，因此对切分来说造成了一定的困难;2)组合型歧义。例如“门把手弄坏了”，由于字之间的不同组合，可能存在的分词结果有：“门/把/手/弄坏了”和“门/把手/弄/坏/了”。尽管存在这么多的难以处理的问题，新的分词方法还是在不断被发掘。
　　而灵玖大数据汉语智能分词系统是在多年研究基础上，耗时一年研制出了基于条件随机场(Conditional Random Field,简称CRF)模型，该系统的功能有：中文分词;词性标注;未登录词识别。分词准确率接近99%，具备准确率高、速度快、可适应性强等优势;特色功能包括：切分粒度可调整，融合20余部行业专有词典，支持用户自定义词典等。
　　大数据汉语智能分词系统充分解决了中文分词里三个主要的问题：
　　1、词性标注能对汉语语言进行词性的自动标注，它能够真正理解中文，自动根据语言环境将词语诸如“建设”标注为“名词”或“动词”。
　　2、人名地名机构名识别能够自动挖掘出隐含在汉语中的人名、地名、机构名，所提炼出的词语不需要在词典库中事先存在，是对语言规律的深入理解和预测。
　　3. 新词发现：从文件集合中挖掘出内涵的新词语列表，可以用于用户专业词典的编撰;还可以进一步编辑标注，导入分词词典中，从而提高分词系统的准确度，并适应新的语言变化。

企业信息

灵玖中科软件（北京）有限公司

供应分类

友情链接

文本挖掘：灵玖大数据汉语智能分词技术

主营产品

灵玖软件(LING-JOIN-微场景宣传片)，专注于大数据语义搜索与挖掘的技术创新与服务，提供大数据搜索、大数据挖掘与大数据应用解决方案，以应对大数据的管理、处..

联系我们

快捷入口