一岁了:语言模型的微调

Yicheng 于 2024-08-12 发布

转眼间,那个只会哭的小生物已经一岁了。

Language Model Pre-training Finished?

最近几个月,她的语言能力明显有不少提升。虽然还没开始 speak fluent sentences,但显然已经听懂了很多指令。

这让我想到 LLM 的训练过程:

  1. Pre-training (0-9个月):大量的听,大量的观察。虽然不输出,但神经网路在疯狂内化语言的统计规律。
  2. SFT (Supervised Fine-Tuning, 9-12个月):开始模仿特定的词汇。”Mama”, “Dada”, “No”. 这是一个有监督的过程,我们会反复强化正确的发音。

RLHF

现在主要进行的是 RLHF 阶段。

有趣的是,她有时候会为了获得关注(Reward),故意做一些 Forbidden Acts(比如去摸插座),以此来测试 Reward Model 的边界。这不就是 Reward Hacking 吗?

养娃真的是观察人类智能最直观的窗口。生日快乐,我的小 Agent。