动态规划 vs 蒙特卡洛 交互式对比演示

全局环境参数

20%
-1.0
3
不会覆盖起点和终点

参数说明

1. 动作随机度:决定每一步有多大概率偏离当前策略动作。数值越大,环境越随机;数值越小,环境越稳定。

2. 每步移动奖励:这是每移动一步都会获得的即时奖励。它的目的,是鼓励智能体尽量用更少的步数到达终点,避免原地绕圈。

3. 障碍数量:控制随机生成的障碍格子数。障碍越多,路径越曲折,问题也越难。

4. 随机障碍物:点击后会重新生成一组新的障碍布局,并且保证起点到终点仍然有通路。

补充:当动作随机度是 0% 时,MC 会退化成完全确定性的轨迹采样。如果首选动作一直把智能体带向墙或障碍,就容易出现原地反复,所以我们现在会自动改选一个合法动作来避免卡住。

动态规划 (DP)

✅ 策略评估:计算固定策略下的状态价值

500ms

准备就绪

贝尔曼方程(策略评估):

V(s) = Σs' P(s'|s,a) · [r(s,a,s') + γV(s')]

特点:直接计算固定策略的精确价值,不需要动作选择

蒙特卡洛 (MC)

❌ 不知道环境模型,通过采样估计同一策略的价值

500

准备就绪

特点:通过多次采样取平均,逐步逼近真实价值

问题说明

  • 5x5 正方形网格世界,左上角是起点,右下角是终点
  • 起点、终点和障碍物都在格子里直接标注出来
  • 障碍物可以随机生成,并保证起点到终点始终有路可走
  • 到达终点固定 +10 奖励,每步移动奖励可调节
  • DP:知道环境规则,直接做策略评估,得到稳定的价值函数
  • MC:不知道环境模型,靠采样估计同一策略的价值
  • DP 和 MC 都支持速度调节,可以同时运行对比收敛过程

访问统计与联系方式

Page PV

Total Page View Loading

联系方式

Email: yuanxiaoyun@sjtu.edu.cn

主页: xiaoyunyuan.net