CuiMao 小模型学的不是知识本身,是大模型的思考方式

几个月前有人找过我,想借萃猫的 IP 一起开中转站。

见面聊了一个多小时。对方很坦诚,把里面的事从头说了一遍,供应链怎么搭,成本怎么算,说一个季度给我分多少多少钱。 这里要解释一下,我会来想了很久,真的很赚钱,只要我宣传的好,最起码一个月十几万的纯进账,但我真的给他委婉的拒绝了,找个人也在推特上,我就不给他点出来了。

是的,现在大模型的训练有一个方向叫知识蒸馏。给不懂的科普下,思路很简单让顶尖的大模型去解题、去推理、去写代码,把它的答题过程记录下来,拿这些记录去训练更小、更便宜的模型。小模型学的不是知识本身,是大模型的思考方式。

这种训练数据最珍贵的不是量,是使用场景。 越真实、越复杂、越有上下文的对话越值钱。一个工程师对着 Claude Code 输出了三小时的完整记录,比一万条「帮我写个自我介绍」有价值得多。里面有报错、有修改、有前因后果,模型从这种对话里学到的东西,是任何人工合成数据替代不了的。

对于那些想追赶头部模型、但又没有足够用户基础来积累真实数据的厂商来说,中转站就是现成的采集器。用户自己走进来,自