爬行算法的收敛

Yicheng 于 2024-06-01 发布

娃终于学会爬了。

From Zero to Crawling

观察她的学习过程非常有趣:

  1. Random Exploration: 一开始只是在原地乱动,偶尔四肢协调了,往前挪了一点点。
  2. Reward Feedback: 发现往前挪能拿到离得远的玩具,reward +1。
  3. Policy Optimization: 慢慢地,她发现手膝并用的效率最高,于是逐渐抛弃了匍匐前进的策略。

现在她已经是一个熟练的 Crawler.