参数说明
1. 动作随机度:决定每一步有多大概率偏离当前策略动作。数值越大,环境越随机;数值越小,环境越稳定。
2. 每步移动奖励:这是每移动一步都会获得的即时奖励。它的目的,是鼓励智能体尽量用更少的步数到达终点,避免原地绕圈。
3. 障碍数量:控制随机生成的障碍格子数。障碍越多,路径越曲折,问题也越难。
4. 随机障碍物:点击后会重新生成一组新的障碍布局,并且保证起点到终点仍然有通路。
补充:当动作随机度是 0% 时,MC 会退化成完全确定性的轨迹采样。如果首选动作一直把智能体带向墙或障碍,就容易出现原地反复,所以我们现在会自动改选一个合法动作来避免卡住。
✅ 策略评估:计算固定策略下的状态价值
准备就绪
贝尔曼方程(策略评估):
V(s) = Σs' P(s'|s,a) · [r(s,a,s') + γV(s')]
特点:直接计算固定策略的精确价值,不需要动作选择
❌ 不知道环境模型,通过采样估计同一策略的价值
准备就绪
特点:通过多次采样取平均,逐步逼近真实价值
Page PV
Total Page View Loading