标注问题(Tagging Problem)
发布时间:2015-12-08 栏目:机器翻译, 自然语言处理 评论:0 Comments
Tagging问题,包括:part-of-speech tagging和Named Entity Recognition两种问题。输入句子,输出对应的标注序列(tagged sequence)。
词性标注(Part-of-Speech tagging 或 POS tagging)是指对于句子中的每个词都指派一个合适的词性,也就是要确定每个词是名词、动词、形容词或其他词性的过程,又称词类标注或者简称标注。词性标注是自然语言处理中的一项基础任务,在语音识别、信息检索及自然语言处理的许多领域都发挥着重要的作用。
实体标注(Name Entity Tagging),将句子中的特殊词标注,例如地址、日期、人物姓名等。
粗略看来,这并不是一个简单问题。首先每个词都可能有多个含义(Local),不同情况表达不同含义;其次,一个词的含义或者词性也受到前后多个词的影响(Contextual)。
主要的设计思路是,使用机器学习算法(Generative Model, the noisy-channel model, HMM),从已经标注的训练数据中获得统计规律(模型),然后对于新的输入,使用这个模型得到输出(Tagged Sequence)。这样,这个问题就变成了一个有监督的机器学习问题(Supervised Learning Problem)。
算法主要使用HMM及Viterbi Algorithm。
主要思路为:把Tagged Sequence看作一个隐藏的马尔科夫过程,使用Generative Model进行推导,带入Trigram HMM,就可以推出HMM的公式,再使用Viterbi Algorithm求解。
留下评论
You must be logged in to post a comment.
近期评论
- Pika发表在《莫里斯蠕虫(Morris Worm)》
- Pika发表在《多组学科研分析》
- crisy发表在《最近关于专利的一点感想》
- walter发表在《机器学习基础知识回顾-马尔科夫过程(Markov Process)》
文章归档
- 2024年3月
- 2024年2月
- 2023年12月
- 2023年11月
- 2023年10月
- 2023年9月
- 2023年8月
- 2023年7月
- 2023年6月
- 2023年5月
- 2023年4月
- 2023年3月
- 2023年2月
- 2023年1月
- 2022年12月
- 2022年11月
- 2022年9月
- 2022年8月
- 2022年7月
- 2022年6月
- 2022年5月
- 2022年3月
- 2022年2月
- 2022年1月
- 2021年12月
- 2021年11月
- 2021年10月
- 2021年9月
- 2021年8月
- 2021年7月
- 2021年6月
- 2021年5月
- 2021年4月
- 2021年2月
- 2021年1月
- 2020年12月
- 2020年11月
- 2020年10月
- 2020年8月
- 2020年7月
- 2020年6月
- 2020年5月
- 2020年4月
- 2020年3月
- 2020年2月
- 2019年7月
- 2019年5月
- 2019年3月
- 2019年1月
- 2018年6月
- 2018年5月
- 2018年4月
- 2018年3月
- 2018年2月
- 2017年11月
- 2017年7月
- 2017年6月
- 2017年5月
- 2017年3月
- 2016年12月
- 2016年11月
- 2016年10月
- 2016年9月
- 2016年8月
- 2016年7月
- 2016年6月
- 2016年5月
- 2016年4月
- 2016年3月
- 2016年2月
- 2016年1月
- 2015年12月
- 2015年11月