分词(Word Segmentation)

发布时间:2016-01-31  栏目:机器学习, 机器翻译, 自然语言处理  评论:0 Comments

对于中文文本而言,因为词与词之间没有明显的切分标志,所以首先需要对中文文本进行分词.现在的分词方法虽然有多种,但归纳起来不外乎两种:一类是机械式分词法,一般以分词词典为依据,通过文档中的汉字串和词表中的词逐一匹配来完成词的切分.另一类是理解式分词法,即利用汉语的语法知识和语义知识以及心理学知识进行分词,需要建立分词数据库、知识库和推理库.后者可谓是理想的方法,但在语法分析、语义分析乃至篇章理解还没有得到解决之前,其分词系统主要采用机械分词法,或者介于二者之间的某种分词方法。

 

软件工具

留下评论

You must be logged in to post a comment.

相册集

pix pix pix pix pix pix

关于自己

杨文龙,微软Principal Engineering Manager, 曾在各家公司担任影像技术资深总监、数据科学团队资深经理、ADAS算法总监、资深深度学习工程师等职位,热爱创新发明,专注于人工智能、深度学习、图像处理、机器学习、算法、自然语言处理及软件等领域,目前发明有国际专利19篇,中国专利28篇。

联系我

个人技术笔记

welonshen@gmail.com

2015 in Shanghai