动态规划 vs 蒙特卡洛交互式对比演示

动作随机度: 20%

每步移动奖励: -1.0

障碍数量: 3

不会覆盖起点和终点

参数说明

1. 动作随机度：决定每一步有多大概率偏离当前策略动作。数值越大，环境越随机；数值越小，环境越稳定。

2. 每步移动奖励：这是每移动一步都会获得的即时奖励。它的目的，是鼓励智能体尽量用更少的步数到达终点，避免原地绕圈。

3. 障碍数量：控制随机生成的障碍格子数。障碍越多，路径越曲折，问题也越难。

4. 随机障碍物：点击后会重新生成一组新的障碍布局，并且保证起点到终点仍然有通路。

补充：当动作随机度是 0% 时，MC 会退化成完全确定性的轨迹采样。如果首选动作一直把智能体带向墙或障碍，就容易出现原地反复，所以我们现在会自动改选一个合法动作来避免卡住。

动态规划 (DP)

✅ 策略评估：计算固定策略下的状态价值

DP速度: 500ms

准备就绪

贝尔曼方程（策略评估）：

V(s) = Σ_s' P(s'|s,a) · [r(s,a,s') + γV(s')]

特点：直接计算固定策略的精确价值，不需要动作选择

❌ 不知道环境模型，通过采样估计同一策略的价值

采样次数: 500

动画速度: 快

准备就绪

特点：通过多次采样取平均，逐步逼近真实价值

Page PV

Total Page View Loading

联系方式