自然语言处理综述

发布时间:2016-01-16  栏目:自然语言处理  评论:0 Comments

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。
自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。

 

其主要流程包括:自然语言理解(NLU,输入)和自然语言生成(NLG,输出)。

 

其主要应用包括:

  • 机器翻译(Machine Translation)
  • 信息提取(Information Extraction)– a Natural Language Understanding problem

目标:把一个文档集合映射到一个结构数据库之中

应用:

(1)实现更加抽象和复杂的查询,比如:Find  me all the jobs in advertising paying at least $50,000 in Boston。

(2)实现基于统计学的查询,比如:How has thenumber of jobs in accounting changed over theyears?

主要应用领域:搜索引擎及数据库等实现更加智能的查询等。目前百度搜索和淘宝的订单评价中都有使用这类技术。

  • 文本摘要(Text Summarization)

从几篇文章中提取出摘要信息。

主要应用领域:方便快速阅读。

  • 对话系统(Dialogue System)。包括NLU和NLG。

比如Siri,智能聊天机器人等等。

 

基本的NLP子问题:

(1)语言模型(Language Model)问题。

(2)Tagging问题,包括:part-of-speech tagging和Named Entity Recognition两种问题。输入句子,输出对应的标注序列(tagged sequence)。

(3)Parsing问题。输入句子,输出对应的语法解析树(Parse Tree)。

 

为什么NLP很难:

  • 歧义(Ambiguity)问题:句子的多义性。

(1)在语音识别中,单词或者短语发音的相似性会导致单词或者短语识别的多种可能(都符合语言模型)。

(2)在Parsing问题中,不同的解析树结构代表不同的语义解释。

(3)单词的多义性(Word Sense Ambiguity)。

(4)多个句子中的回指(anaphora)问题等。

留下评论

You must be logged in to post a comment.

相册集

pix pix pix pix pix pix

关于自己

杨文龙,微软Principal Engineering Manager, 曾在各家公司担任影像技术资深总监、数据科学团队资深经理、ADAS算法总监、资深深度学习工程师等职位,热爱创新发明,专注于人工智能、深度学习、图像处理、机器学习、算法、自然语言处理及软件等领域,目前发明有国际专利19篇,中国专利28篇。

联系我

个人技术笔记

welonshen@gmail.com

2015 in Shanghai