娃终于学会爬了。
From Zero to Crawling
观察她的学习过程非常有趣:
- Random Exploration: 一开始只是在原地乱动,偶尔四肢协调了,往前挪了一点点。
- Reward Feedback: 发现往前挪能拿到离得远的玩具,reward +1。
- Policy Optimization: 慢慢地,她发现手膝并用的效率最高,于是逐渐抛弃了匍匐前进的策略。
现在她已经是一个熟练的 Crawler.
娃终于学会爬了。
观察她的学习过程非常有趣:
现在她已经是一个熟练的 Crawler.