自动驾驶之行为决策

发布时间:2020-05-04  栏目:决策控制, 强化学习, 软件算法  评论:0 Comments

在确定全局路径之后,自动驾驶车辆需要根据具体的道路状况、交通规则、其他车辆与行人等情况作出合适的行为决策。 这一过程面临三个主要问题: 首先,真实的驾驶场景千变万化,如何覆盖? 其次,真实的驾驶场景是一个多智能体决策环境,包括主车...

蒙特卡洛树搜索(MCTS)

发布时间:2020-02-26  栏目:人工智能, 强化学习  评论:0 Comments

Black box optimization基础 了解完Game theory,第二个需要了解的是Black box optimization,也就是黑盒优化。我们知道优化就是根据给定的数据集找到更好的选择,例如机器学习就是典型的优化过程,但我们用的机器学习算法如LR、SVM、DNN都不是...

Q-learning

发布时间:2017-05-23  栏目:强化学习  评论:0 Comments

Q-Learning是off-policy的方法,要balance exploration和exploitation一般用-greedy的方法。迭代时会找下一步的最大Q值迭代,这也是它和Sarsa这种on-policy方法的不同点。 Q为动作效用函数(action-utility function),用于评价在特定状态下采...

Guided Policy Search

发布时间:2017-03-14  栏目:人工智能, 强化学习  评论:0 Comments

State Action Reward State Action (SARSA)

发布时间:2017-03-14  栏目:强化学习  评论:0 Comments

State Action Reward State Action (SARSA) 算法其实是状态-动作价值版本的时差学习 (Temporal Difference, TD) 算法。SARSA 利用马尔科夫性质,只利用了下一步信息。SARSA 让系统按照策略指引进行探索,在探索每一步都进行状态价值的更新。 &nb...

[转] 强化学习方法汇总

发布时间:2017-03-14  栏目:人工智能, 强化学习  评论:0 Comments

了解强化学习中常用到的几种方法,以及他们的区别, 对我们根据特定问题选择方法时很有帮助. 强化学习是一个大家族, 发展历史也不短, 具有很多种不同方法. 比如说比较知名的控制方法 Q learning, Policy gradients, 还有基于对环境的理解的 model-...

相册集

pix pix pix pix pix pix

关于自己

杨文龙,微软Principal Engineering Manager, 曾在各家公司担任影像技术资深总监、数据科学团队资深经理、ADAS算法总监、资深深度学习工程师等职位,热爱创新发明,专注于人工智能、深度学习、图像处理、机器学习、算法、自然语言处理及软件等领域,目前发明有国际专利19篇,中国专利28篇。

联系我

个人技术笔记

290125097@qq.com

2015 in Shanghai