一岁了：语言模型的微调-Yichengr

转眼间，那个只会哭的小生物已经一岁了。

Language Model Pre-training Finished?

最近几个月，她的语言能力明显有不少提升。虽然还没开始 speak fluent sentences，但显然已经听懂了很多指令。

这让我想到 LLM 的训练过程：

Pre-training (0-9个月)：大量的听，大量的观察。虽然不输出，但神经网路在疯狂内化语言的统计规律。
SFT (Supervised Fine-Tuning, 9-12个月)：开始模仿特定的词汇。”Mama”, “Dada”, “No”. 这是一个有监督的过程，我们会反复强化正确的发音。

现在主要进行的是 RLHF 阶段。

有趣的是，她有时候会为了获得关注（Reward），故意做一些 Forbidden Acts（比如去摸插座），以此来测试 Reward Model 的边界。这不就是 Reward Hacking 吗？

养娃真的是观察人类智能最直观的窗口。生日快乐，我的小 Agent。