标注问题(Tagging Problem)

发布时间:2015-12-08  栏目:机器翻译, 自然语言处理  评论:0 Comments

Tagging问题,包括:part-of-speech tagging和Named Entity Recognition两种问题。输入句子,输出对应的标注序列(tagged sequence)。

 

词性标注(Part-of-Speech tagging 或 POS tagging)是指对于句子中的每个词都指派一个合适的词性,也就是要确定每个词是名词、动词、形容词或其他词性的过程,又称词类标注或者简称标注。词性标注是自然语言处理中的一项基础任务,在语音识别、信息检索及自然语言处理的许多领域都发挥着重要的作用。

 

实体标注(Name Entity Tagging),将句子中的特殊词标注,例如地址、日期、人物姓名等。

 

粗略看来,这并不是一个简单问题。首先每个词都可能有多个含义(Local),不同情况表达不同含义;其次,一个词的含义或者词性也受到前后多个词的影响(Contextual)。

 

主要的设计思路是,使用机器学习算法(Generative Model, the noisy-channel model, HMM),从已经标注的训练数据中获得统计规律(模型),然后对于新的输入,使用这个模型得到输出(Tagged Sequence)。这样,这个问题就变成了一个有监督的机器学习问题(Supervised Learning Problem)。

算法主要使用HMM及Viterbi Algorithm。

 

主要思路为:把Tagged Sequence看作一个隐藏的马尔科夫过程,使用Generative Model进行推导,带入Trigram HMM,就可以推出HMM的公式,再使用Viterbi Algorithm求解。

留下评论

You must be logged in to post a comment.

相册集

pix pix pix pix pix pix

关于自己

杨文龙,微软Principal Engineering Manager, 曾在各家公司担任影像技术资深总监、数据科学团队资深经理、ADAS算法总监、资深深度学习工程师等职位,热爱创新发明,专注于人工智能、深度学习、图像处理、机器学习、算法、自然语言处理及软件等领域,目前发明有国际专利19篇,中国专利28篇。

联系我

个人技术笔记

welonshen@gmail.com

2015 in Shanghai