杨文龙的博客 » 2017 » 5月 - 个人技术笔记 - 热爱创新发明，专注机器学习、算法、深度学习、自然语言处理及人工智能

Q-learning

发布时间：2017-05-23 栏目：强化学习评论：0 Comments

Q-Learning是off-policy的方法，要balance exploration和exploitation一般用-greedy的方法。迭代时会找下一步的最大Q值迭代，这也是它和Sarsa这种on-policy方法的不同点。 Q为动作效用函数（action-utility function），用于评价在特定状态下采...

Soft Attention

发布时间：2017-05-22 栏目：深度学习, 自然语言处理评论：0 Comments

Soft Attention Model，所谓Soft，意思是在求注意力分配概率分布的时候，对于输入句子X中任意一个单词都给出个概率，是个概率分布。那么相对Soft，就有相应的Hard Attention Model，提出Hard版本就是一种模型创新。既然Soft是给每个单词都赋予一...

相册集

关于自己

杨文龙，微软Principal Engineering Manager, 曾在各家公司担任影像技术资深总监、数据科学团队资深经理、ADAS算法总监、资深深度学习工程师等职位，热爱创新发明，专注于人工智能、深度学习、图像处理、机器学习、算法、自然语言处理及软件等领域，目前发明有国际专利19篇，中国专利28篇。

联系我

个人技术笔记

290125097@qq.com

2015 in Shanghai

个人技术笔记

Q-learning

Soft Attention

近期文章

近期评论

文章归档

分类目录

功能

热情读者

作者其他介绍

友情链接

相册集

关于自己

联系我