Q-learning

发布时间:2017-05-23  栏目:强化学习  评论:0 Comments

Q-Learning是off-policy的方法,要balance exploration和exploitation一般用-greedy的方法。迭代时会找下一步的最大Q值迭代,这也是它和Sarsa这种on-policy方法的不同点。 Q为动作效用函数(action-utility function),用于评价在特定状态下采...

Soft Attention

发布时间:2017-05-22  栏目:深度学习, 自然语言处理  评论:0 Comments

Soft Attention Model,所谓Soft,意思是在求注意力分配概率分布的时候,对于输入句子X中任意一个单词都给出个概率,是个概率分布。那么相对Soft,就有相应的Hard Attention Model,提出Hard版本就是一种模型创新。既然Soft是给每个单词都赋予一...

相册集

pix pix pix pix pix pix

关于自己

杨文龙,微软Principal Engineering Manager, 曾在各家公司担任影像技术资深总监、数据科学团队资深经理、ADAS算法总监、资深深度学习工程师等职位,热爱创新发明,专注于人工智能、深度学习、图像处理、机器学习、算法、自然语言处理及软件等领域,目前发明有国际专利19篇,中国专利28篇。

联系我

个人技术笔记

290125097@qq.com

2015 in Shanghai