转眼间,那个只会哭的小生物已经一岁了。
Language Model Pre-training Finished?
最近几个月,她的语言能力明显有不少提升。虽然还没开始 speak fluent sentences,但显然已经听懂了很多指令。
这让我想到 LLM 的训练过程:
- Pre-training (0-9个月):大量的听,大量的观察。虽然不输出,但神经网路在疯狂内化语言的统计规律。
- SFT (Supervised Fine-Tuning, 9-12个月):开始模仿特定的词汇。”Mama”, “Dada”, “No”. 这是一个有监督的过程,我们会反复强化正确的发音。
RLHF
现在主要进行的是 RLHF 阶段。
- 当她乱扔东西,我们会说 “No”,并展示不开心的表情(Negative Reward)。
- 当她正确地把积木放进盒子里,我们会疯狂鼓掌(Positive Reward)。
有趣的是,她有时候会为了获得关注(Reward),故意做一些 Forbidden Acts(比如去摸插座),以此来测试 Reward Model 的边界。这不就是 Reward Hacking 吗?
养娃真的是观察人类智能最直观的窗口。生日快乐,我的小 Agent。