Log-linear Model
发布时间:2015-12-31 栏目:自然语言处理 评论:0 Comments
Log-linear model可以用来做tagging和parsing。 Log-Linear Models for Tagging,也叫作Maximum-entropy Markov Models (MEMMs)。 Tagging问题包括两种:Part-of-Speech Tagging和Named Entity Recognition。
General Linear Models (GLM)
发布时间:2015-12-31 栏目:自然语言处理 评论:0 Comments
http://www.statsoft.com/Textbook/General-Linear-Models
【转】深度学习3: 梯度检验与高级优化
发布时间:2015-12-29 栏目:深度学习 评论:0 Comments
众所周知,反向传播算法很难调试得到正确结果,尤其是当实现程序存在很多难于发现的bug时。举例来说,索引的缺位错误(off-by-one error)会导致只有部分层的权重得到训练,再比如忘记计算偏置项。这些错误会使你得到一个看似十分合理的结果(但...
【转】特征选择
发布时间:2015-12-27 栏目:机器学习 评论:0 Comments
特征选择是特征工程中的重要问题(另一个重要的问题是特征提取),坊间常说:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程尤其是特征选择在机器学习中占有相当重要的地位。 通常而言,特征选择是指...
spark核心概念
发布时间:2015-12-20 栏目:Spark 评论:0 Comments
大数据操作有点类似于针对硬盘或者内存的数据库SQL操作,只是操作的数据是分布在硬盘,甚至是多台机器上面的,而且数据量很大。Spark上面的SQL以及DataFrame编程内置了自动优化,用户只需要关心具体的实现和功能就好了。 为什么Spark更快...
机器学习中如何处理缺失数据
发布时间:2015-12-16 栏目:机器翻译 评论:0 Comments
做监督学习算法,训练数据集中的部分数据缺失,怎么预处理这些数据能够使得训练的结果不受影响,或是影响最小? 目前有三类处理方法: 1. 用平均值、中值、分位数、众数、随机值等替代。效果一般,因为等于人为增加了噪声。 2. 用其他变...
【转】考虑词汇的语法解析(Lexicalized PCFG)
发布时间:2015-12-13 栏目:自然语言处理 评论:0 Comments
语法解析的改进 之前我们讲到了上下文无关语法(PCFG – Probabilistic Context-Free Grammar)的解析方法。PCFG在许多情况下并没有考虑词的顺序关系,例如NN NN(Milk Cup)这样的情况两个名词被等价的对待,因为也可能导致语法解析的二...
【转】语法解析(Parsing, and Context-Free Grammars)
发布时间:2015-12-13 栏目:自然语言处理 评论:0 Comments
什么是语法解析? 在自然语言学习过程中,每个人一定都学过语法,例如句子可以用主语、谓语、宾语来表示。在自然语言的处理过程中,有许多应用场景都需要考虑句子的语法,因此研究语法解析变得非常重要。 语法解析有两个主要的问题,其一是句子...
【转】噪声信道模型(Noisy Channel Model)
发布时间:2015-12-12 栏目:人工智能, 机器学习, 机器翻译, 深度学习, 自然语言处理 评论:0 Comments
Noisy Channel Model即噪声信道模型,或称信源信道模型,这是一个普适性的模型,被用于语音识别、拼写纠错、机器翻译、中文分词、词性标注、音字转换等众多应用领域。其形式很简单,如下图所示: 噪声信道试图通过带噪声的输出信号恢复输入信号...
【转】隐马尔可夫模型(HMM)攻略
发布时间:2015-12-09 栏目:人工智能, 机器学习, 机器翻译, 自然语言处理 评论:0 Comments
隐马尔可夫模型 (Hidden Markov Model,HMM) 最初由 L. E. Baum 和其它一些学者发表在一系列的统计学论文中,随后在语言识别,自然语言处理以及生物信息等领域体现了很大的价值。平时,经常能接触到涉及 HMM 的相关文章,一直没有仔细研究过,都...
标注问题(Tagging Problem)
发布时间:2015-12-08 栏目:机器翻译, 自然语言处理 评论:0 Comments
Tagging问题,包括:part-of-speech tagging和Named Entity Recognition两种问题。输入句子,输出对应的标注序列(tagged sequence)。 词性标注(Part-of-Speech tagging 或 POS tagging)是指对于句子中的每个词都指派一个合适的词性,...
NP完全问题
发布时间:2015-12-07 栏目:软件算法 评论:0 Comments
NP完全问题(NP-C问题), NP的英文全称是Non-deterministic Polynomial的问题,即多项式复杂程度的非确定性问题。简单的写法是 NP=P?,问题就在这个问号上,到底是NP等于P,还是NP不等于P。 这里主要把问题分为三类: 1. P类。P类中包含的是在多...
机器学习优化算法
发布时间:2015-12-05 栏目:机器学习 评论:0 Comments
主要的优化算法有: 梯度下降法 梯度上升法 牛顿法 遗传算法 EM算法 梯度下降法是基于目标函数梯度的,算法的收敛速度是线性的,并且当问题是病态时或者问题规模较大时,收敛速度尤其慢(几乎不适用); 坐标下降法虽然不用计算目标函数的梯度...
近期评论
- Pika发表在《莫里斯蠕虫(Morris Worm)》
- Pika发表在《多组学科研分析》
- crisy发表在《最近关于专利的一点感想》
- walter发表在《机器学习基础知识回顾-马尔科夫过程(Markov Process)》
文章归档
- 2024年3月
- 2024年2月
- 2023年12月
- 2023年11月
- 2023年10月
- 2023年9月
- 2023年8月
- 2023年7月
- 2023年6月
- 2023年5月
- 2023年4月
- 2023年3月
- 2023年2月
- 2023年1月
- 2022年12月
- 2022年11月
- 2022年9月
- 2022年8月
- 2022年7月
- 2022年6月
- 2022年5月
- 2022年3月
- 2022年2月
- 2022年1月
- 2021年12月
- 2021年11月
- 2021年10月
- 2021年9月
- 2021年8月
- 2021年7月
- 2021年6月
- 2021年5月
- 2021年4月
- 2021年2月
- 2021年1月
- 2020年12月
- 2020年11月
- 2020年10月
- 2020年8月
- 2020年7月
- 2020年6月
- 2020年5月
- 2020年4月
- 2020年3月
- 2020年2月
- 2019年7月
- 2019年5月
- 2019年3月
- 2019年1月
- 2018年6月
- 2018年5月
- 2018年4月
- 2018年3月
- 2018年2月
- 2017年11月
- 2017年7月
- 2017年6月
- 2017年5月
- 2017年3月
- 2016年12月
- 2016年11月
- 2016年10月
- 2016年9月
- 2016年8月
- 2016年7月
- 2016年6月
- 2016年5月
- 2016年4月
- 2016年3月
- 2016年2月
- 2016年1月
- 2015年12月
- 2015年11月