自动驾驶之行为决策
发布时间:2020-05-04 栏目:决策控制, 强化学习, 软件算法 评论:0 Comments
在确定全局路径之后,自动驾驶车辆需要根据具体的道路状况、交通规则、其他车辆与行人等情况作出合适的行为决策。 这一过程面临三个主要问题: 首先,真实的驾驶场景千变万化,如何覆盖? 其次,真实的驾驶场景是一个多智能体决策环境,包括主车...
蒙特卡洛树搜索(MCTS)
发布时间:2020-02-26 栏目:人工智能, 强化学习 评论:0 Comments
Black box optimization基础 了解完Game theory,第二个需要了解的是Black box optimization,也就是黑盒优化。我们知道优化就是根据给定的数据集找到更好的选择,例如机器学习就是典型的优化过程,但我们用的机器学习算法如LR、SVM、DNN都不是...
Q-learning
发布时间:2017-05-23 栏目:强化学习 评论:0 Comments
Q-Learning是off-policy的方法,要balance exploration和exploitation一般用-greedy的方法。迭代时会找下一步的最大Q值迭代,这也是它和Sarsa这种on-policy方法的不同点。 Q为动作效用函数(action-utility function),用于评价在特定状态下采...
Guided Policy Search
发布时间:2017-03-14 栏目:人工智能, 强化学习 评论:0 Comments
State Action Reward State Action (SARSA)
发布时间:2017-03-14 栏目:强化学习 评论:0 Comments
State Action Reward State Action (SARSA) 算法其实是状态-动作价值版本的时差学习 (Temporal Difference, TD) 算法。SARSA 利用马尔科夫性质,只利用了下一步信息。SARSA 让系统按照策略指引进行探索,在探索每一步都进行状态价值的更新。 &nb...
[转] 强化学习方法汇总
发布时间:2017-03-14 栏目:人工智能, 强化学习 评论:0 Comments
了解强化学习中常用到的几种方法,以及他们的区别, 对我们根据特定问题选择方法时很有帮助. 强化学习是一个大家族, 发展历史也不短, 具有很多种不同方法. 比如说比较知名的控制方法 Q learning, Policy gradients, 还有基于对环境的理解的 model-...
近期评论
- Pika发表在《莫里斯蠕虫(Morris Worm)》
- Pika发表在《多组学科研分析》
- crisy发表在《最近关于专利的一点感想》
- walter发表在《机器学习基础知识回顾-马尔科夫过程(Markov Process)》
文章归档
- 2024年3月
- 2024年2月
- 2023年12月
- 2023年11月
- 2023年10月
- 2023年9月
- 2023年8月
- 2023年7月
- 2023年6月
- 2023年5月
- 2023年4月
- 2023年3月
- 2023年2月
- 2023年1月
- 2022年12月
- 2022年11月
- 2022年9月
- 2022年8月
- 2022年7月
- 2022年6月
- 2022年5月
- 2022年3月
- 2022年2月
- 2022年1月
- 2021年12月
- 2021年11月
- 2021年10月
- 2021年9月
- 2021年8月
- 2021年7月
- 2021年6月
- 2021年5月
- 2021年4月
- 2021年2月
- 2021年1月
- 2020年12月
- 2020年11月
- 2020年10月
- 2020年8月
- 2020年7月
- 2020年6月
- 2020年5月
- 2020年4月
- 2020年3月
- 2020年2月
- 2019年7月
- 2019年5月
- 2019年3月
- 2019年1月
- 2018年6月
- 2018年5月
- 2018年4月
- 2018年3月
- 2018年2月
- 2017年11月
- 2017年7月
- 2017年6月
- 2017年5月
- 2017年3月
- 2016年12月
- 2016年11月
- 2016年10月
- 2016年9月
- 2016年8月
- 2016年7月
- 2016年6月
- 2016年5月
- 2016年4月
- 2016年3月
- 2016年2月
- 2016年1月
- 2015年12月
- 2015年11月