Language Drift

发布时间:2023-01-23  栏目:AI应用领域, 智能问答, 机器翻译, 深度学习, 自然语言处理  评论:0 Comments

The phenomenon of language drift has been an observed problem in the language model literature, language model that is pre-trained on a large text corpus and later fine-tuned for a specific task progressively loses syntactic an...

指代消解

发布时间:2021-10-27  栏目:AI应用领域, 人工智能, 智能问答, 机器翻译, 自然语言处理  评论:0 Comments

什么是指代? 一般在语言学及我们日常用语当中,在下文采用简称或代称来代替上文已经出现的某一词语,语言学中把这种情况称为“指代现象”,也即是指代。 指代现象能够避免同一词语重复出现所造成的语句臃肿、赘述等问题;但也因为这种省略造成“指...

时序卷积网络(Temporal convolutional network, TCN)

发布时间:2021-08-18  栏目:人工智能, 图像处理, 机器翻译, 机器视觉, 自然语言处理  评论:0 Comments

时序卷积网络(Temporal convolutional network, TCN)与多种RNN结构相对比,发现在多种任务上TCN都能达到甚至超过RNN模型。 -因果卷积可以用上图直观表示。 即对于上一层t时刻的值,只依赖于下一层t时刻及其之前的值。和传统的卷积神经网络的...

BERT与RoBERTa

发布时间:2021-06-23  栏目:人工智能, 机器翻译, 自然语言处理  评论:0 Comments

BERT(Bidirectional Encoder Representations from Transformers)近期提出之后,作为一个Word2Vec的替代者,其在NLP领域的11个方向大幅刷新了精度,可以说是近年来自残差网络最优突破性的一项技术了。论文的主要特点以下几点: 使用了Transfo...

MDETR(Modulated Detection for End-to-End Multi-Modal Understanding)详解

发布时间:2021-05-16  栏目:人工智能, 图像处理, 机器翻译, 机器视觉, 深度学习, 自然语言处理  评论:0 Comments

MDETR – Modulated Detection for End-to-End Multi-Modal Understanding   介绍MDETR之前需要先介绍DETR(DEtection TRansformer), DETR是一种direct set prediction方法,通过剔除了一些加入先验的方法如spatial anchors和non-ma...

【转】自然语言处理中的Encoder-Decoder模型,基本Sequence to Sequence模型

发布时间:2017-07-07  栏目:机器翻译, 自然语言处理  评论:0 Comments

Encoder-Decoder(编码-解码)是深度学习中非常常见的一个模型框架,比如无监督算法的auto-encoding就是用编码-解码的结构设计并训练的;比如这两年比较热的image caption的应用,就是CNN-RNN的编码-解码框架;再比如神经网络机器翻译NMT模型,...

Machine Learning Algorithms used in NLP (Natural Language Processing)

发布时间:2016-06-01  栏目:机器翻译, 自然语言处理  评论:0 Comments

以下是个人总结,欢迎补充,不好意思写了英文版,懒得翻译了,哈哈:   Natural Language Processing is a very useful domain of using machine learning technologies, and has been developed for many years. Now devices are getting ...

条件随机场(Conditional Random Fields)

发布时间:2016-02-22  栏目:机器学习, 机器翻译, 自然语言处理  评论:0 Comments

Neuro-probabilistic language models

发布时间:2016-02-06  栏目:机器翻译, 深度学习, 自然语言处理  评论:0 Comments

一种更加先进的语言模型,占位,后面补充。

Language Modeling Toolkit: SRILM and IRSTLM

发布时间:2016-02-01  栏目:机器翻译, 自然语言处理, 软件、框架及系统  评论:0 Comments

SRILM is a toolkit for building and applying statistical language models (LMs), primarily for use in speech recognition, statistical tagging and segmentation, and machine translation. http://www.speech.sri.com/projects/srilm/ &...

GIZA++: a free IBM Model Implementation

发布时间:2016-02-01  栏目:机器翻译, 软件、框架及系统  评论:0 Comments

GIZA++ is a freely available implementation of the IBM models. Main and downloading Page: http://www.statmt.org/moses/giza/GIZA++.html   GIZA++ is an extension of the program GIZA (part of the SMT toolkit EGYPT) which was ...

分词(Word Segmentation)

发布时间:2016-01-31  栏目:机器学习, 机器翻译, 自然语言处理  评论:0 Comments

对于中文文本而言,因为词与词之间没有明显的切分标志,所以首先需要对中文文本进行分词.现在的分词方法虽然有多种,但归纳起来不外乎两种:一类是机械式分词法,一般以分词词典为依据,通过文档中的汉字串和词表中的词逐一匹配来完成词的切分...

机器翻译原理

发布时间:2016-01-04  栏目:机器翻译  评论:0 Comments

IBM Model 1                 IBM 1模型引入了一个很重要的东西:Alignments,也就是词汇之间是如何关联的。很明显不同语言中同一个意思的句子词汇之间肯定会联系起来,这是翻译的基础。                 比如说有如下两个句子:               ...

机器学习中如何处理缺失数据

发布时间:2015-12-16  栏目:机器翻译  评论:0 Comments

做监督学习算法,训练数据集中的部分数据缺失,怎么预处理这些数据能够使得训练的结果不受影响,或是影响最小?   目前有三类处理方法: 1. 用平均值、中值、分位数、众数、随机值等替代。效果一般,因为等于人为增加了噪声。 2. 用其他变...

【转】噪声信道模型(Noisy Channel Model)

发布时间:2015-12-12  栏目:人工智能, 机器学习, 机器翻译, 深度学习, 自然语言处理  评论:0 Comments

Noisy Channel Model即噪声信道模型,或称信源信道模型,这是一个普适性的模型,被用于语音识别、拼写纠错、机器翻译、中文分词、词性标注、音字转换等众多应用领域。其形式很简单,如下图所示: 噪声信道试图通过带噪声的输出信号恢复输入信号...

【转】隐马尔可夫模型(HMM)攻略

发布时间:2015-12-09  栏目:人工智能, 机器学习, 机器翻译, 自然语言处理  评论:0 Comments

隐马尔可夫模型 (Hidden Markov Model,HMM) 最初由 L. E. Baum 和其它一些学者发表在一系列的统计学论文中,随后在语言识别,自然语言处理以及生物信息等领域体现了很大的价值。平时,经常能接触到涉及 HMM 的相关文章,一直没有仔细研究过,都...

相册集

pix pix pix pix pix pix

关于自己

杨文龙,微软Principal Engineering Manager, 曾在各家公司担任影像技术资深总监、数据科学团队资深经理、ADAS算法总监、资深深度学习工程师等职位,热爱创新发明,专注于人工智能、深度学习、图像处理、机器学习、算法、自然语言处理及软件等领域,目前发明有国际专利19篇,中国专利28篇。

联系我

个人技术笔记

290125097@qq.com

2015 in Shanghai