Log-linear Model

发布时间:2015-12-31  栏目:自然语言处理  评论:0 Comments

Log-linear model可以用来做tagging和parsing。   Log-Linear Models for Tagging,也叫作Maximum-entropy Markov Models (MEMMs)。 Tagging问题包括两种:Part-of-Speech Tagging和Named Entity Recognition。

General Linear Models (GLM)

发布时间:2015-12-31  栏目:自然语言处理  评论:0 Comments

http://www.statsoft.com/Textbook/General-Linear-Models  

【转】深度学习3: 梯度检验与高级优化

发布时间:2015-12-29  栏目:深度学习  评论:0 Comments

众所周知,反向传播算法很难调试得到正确结果,尤其是当实现程序存在很多难于发现的bug时。举例来说,索引的缺位错误(off-by-one error)会导致只有部分层的权重得到训练,再比如忘记计算偏置项。这些错误会使你得到一个看似十分合理的结果(但...

【转】特征选择

发布时间:2015-12-27  栏目:机器学习  评论:0 Comments

特征选择是特征工程中的重要问题(另一个重要的问题是特征提取),坊间常说:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程尤其是特征选择在机器学习中占有相当重要的地位。 通常而言,特征选择是指...

spark核心概念

发布时间:2015-12-20  栏目:Spark  评论:0 Comments

大数据操作有点类似于针对硬盘或者内存的数据库SQL操作,只是操作的数据是分布在硬盘,甚至是多台机器上面的,而且数据量很大。Spark上面的SQL以及DataFrame编程内置了自动优化,用户只需要关心具体的实现和功能就好了。   为什么Spark更快...

机器学习中如何处理缺失数据

发布时间:2015-12-16  栏目:机器翻译  评论:0 Comments

做监督学习算法,训练数据集中的部分数据缺失,怎么预处理这些数据能够使得训练的结果不受影响,或是影响最小?   目前有三类处理方法: 1. 用平均值、中值、分位数、众数、随机值等替代。效果一般,因为等于人为增加了噪声。 2. 用其他变...

【转】考虑词汇的语法解析(Lexicalized PCFG)

发布时间:2015-12-13  栏目:自然语言处理  评论:0 Comments

语法解析的改进   之前我们讲到了上下文无关语法(PCFG – Probabilistic Context-Free Grammar)的解析方法。PCFG在许多情况下并没有考虑词的顺序关系,例如NN NN(Milk Cup)这样的情况两个名词被等价的对待,因为也可能导致语法解析的二...

【转】语法解析(Parsing, and Context-Free Grammars)

发布时间:2015-12-13  栏目:自然语言处理  评论:0 Comments

什么是语法解析? 在自然语言学习过程中,每个人一定都学过语法,例如句子可以用主语、谓语、宾语来表示。在自然语言的处理过程中,有许多应用场景都需要考虑句子的语法,因此研究语法解析变得非常重要。 语法解析有两个主要的问题,其一是句子...

【转】噪声信道模型(Noisy Channel Model)

发布时间:2015-12-12  栏目:人工智能, 机器学习, 机器翻译, 深度学习, 自然语言处理  评论:0 Comments

Noisy Channel Model即噪声信道模型,或称信源信道模型,这是一个普适性的模型,被用于语音识别、拼写纠错、机器翻译、中文分词、词性标注、音字转换等众多应用领域。其形式很简单,如下图所示: 噪声信道试图通过带噪声的输出信号恢复输入信号...

【转】隐马尔可夫模型(HMM)攻略

发布时间:2015-12-09  栏目:人工智能, 机器学习, 机器翻译, 自然语言处理  评论:0 Comments

隐马尔可夫模型 (Hidden Markov Model,HMM) 最初由 L. E. Baum 和其它一些学者发表在一系列的统计学论文中,随后在语言识别,自然语言处理以及生物信息等领域体现了很大的价值。平时,经常能接触到涉及 HMM 的相关文章,一直没有仔细研究过,都...

标注问题(Tagging Problem)

发布时间:2015-12-08  栏目:机器翻译, 自然语言处理  评论:0 Comments

Tagging问题,包括:part-of-speech tagging和Named Entity Recognition两种问题。输入句子,输出对应的标注序列(tagged sequence)。   词性标注(Part-of-Speech tagging 或 POS tagging)是指对于句子中的每个词都指派一个合适的词性,...

NP完全问题

发布时间:2015-12-07  栏目:软件算法  评论:0 Comments

NP完全问题(NP-C问题), NP的英文全称是Non-deterministic Polynomial的问题,即多项式复杂程度的非确定性问题。简单的写法是 NP=P?,问题就在这个问号上,到底是NP等于P,还是NP不等于P。 这里主要把问题分为三类: 1. P类。P类中包含的是在多...

机器学习优化算法

发布时间:2015-12-05  栏目:机器学习  评论:0 Comments

主要的优化算法有: 梯度下降法 梯度上升法 牛顿法 遗传算法 EM算法 梯度下降法是基于目标函数梯度的,算法的收敛速度是线性的,并且当问题是病态时或者问题规模较大时,收敛速度尤其慢(几乎不适用); 坐标下降法虽然不用计算目标函数的梯度...

相册集

pix pix pix pix pix pix

关于自己

杨文龙,微软Principal Engineering Manager, 曾在各家公司担任影像技术资深总监、数据科学团队资深经理、ADAS算法总监、资深深度学习工程师等职位,热爱创新发明,专注于人工智能、深度学习、图像处理、机器学习、算法、自然语言处理及软件等领域,目前发明有国际专利19篇,中国专利28篇。

联系我

个人技术笔记

290125097@qq.com

2015 in Shanghai