如何来识别新词

gongzuocool · 发表于 2010-9-16 14:23:54

如何识别新词成为最近几年分词技术研究的重点。总结起来，无非分成两种：
基于规则的方法。
基于统计、机器学习。
拿人名识别为例。你不可能把所有的人名都放入词典中，这决定了人名注定会是新词。从人名构造来说，很有规律：姓＋名。张王刘李陈、天下一半人。也就是说可能有一半的人，是这五个姓。名也有一定规律：建华/建国/志强.....等有许多经常用于名字中的汉字；对于地名识别也可以找出很多规则，省/县/村/镇/湾/河等，都是很常用的后缀，如果他们出现，之前出现地名的可能性比较大。如果把这些规律转化成计算机能识别的算法，就是基于规则的算法。这种基于规则的算法简单有效，而且发现规则可很方便加入。
规则总会有例外，规则过多以后，如何去权衡这些规则，会是十分头疼的问题。人们试着告诉计算机目标，让计算机自己去尝试各种方法组合这些规则并得到最优参数，这就机器学习。随着Machine Learning(机器学习)技术的不断进步，其应用范围也越来越广，中文分词算法也从中受益。ANN(人工神经网络), 最大熵模型, HMM(隐马尔可夫模型)等算法都在新词识别中有应用。通过机器学习识别新词的原理并不复杂。一般都是先定义一些特征，然后利用训练语料进行学习，建立模型。还是以人名识别为例，可以定义姓名前面的字、姓、名、姓名后面的字做为特征，通过利用标注好姓名的语料库进行学习训练。
机器学习识别新词的好处在于自动寻找一些识别新词的特征，其准确度和召回率都能达到比较高的水平。但机器学习算法需要有足够多的训练语料，人工准备准确的大规模的训练语料也会十分困难。另外，机器学习算法一般速度会比较慢，优化速度，使之用于海量数据处理，也是使用机器学习的一个关键点。
本文摘自:http://www.hkbanzheng.com

gongzuocool · 发表于 2010-9-16 14:39:27

强烈顶下自己的贴

		自动登录	找回密码
密码			注册