爬行算法的收敛

Yicheng 于 2024-06-01 发布

娃终于学会爬了。

From Zero to Crawling

观察她的学习过程非常有趣：

Random Exploration: 一开始只是在原地乱动，偶尔四肢协调了，往前挪了一点点。
Reward Feedback: 发现往前挪能拿到离得远的玩具，reward +1。
Policy Optimization: 慢慢地，她发现手膝并用的效率最高，于是逐渐抛弃了匍匐前进的策略。

现在她已经是一个熟练的 Crawler.