AI Insider Extra

大模型的「护城河」从未改变｜AI Insider Extra#008

在全世界都在为英伟达疯狂的时候，数据已经变成了 AI 领域的新护城河。

zhaosaipo

Jun 28, 2024 — 7 min read

Editor’s Note

「AI Insider Extra」源自连续出版近五年（2019——2024）的「AI Insider」。这份新专栏希望在产业事件的梳理与汇总之外提供更多分析与洞察，为读者深入了解 AI、云等技术的产业发展趋势提供一些建议或参考。

6 月，Dailyio 迎来五岁生日，我们为各位读者提供了多项会员福利：

限量 200 份的 100 元 Dailyio Pro 年度订阅优惠；
限量 200 份的 200 元 Dailyio Premium 年度订阅优惠；
8 折成为 Dailyio 终身会员；
低至 600/元的 Dailyio Vanguard 会员；

更多福利详见这里。

本期话题：当数据成为大模型的护城河之后，围绕数据的产业链正在发生哪些变化？

去年的时候，一位来自 OpenAI 的工程师分享了他在训练大模型时的感触:

我越来越清楚地认识到，这些模型在令人难以置信地接近于对其数据集的逼真模拟。这不仅意味着它们学习了什么是狗或猫，还学习了分布之间不重要的互补频率，例如人类可能会拍什么照片或人类经常写下的单词。

这表现为——在相同的数据集上训练足够长的时间后，几乎每个具有足够权重和训练时间的模型都会收敛到同一个点。足够大的扩散卷积-Unet 产生与 ViT 生成器相同的图像。 AR 采样产生与扩散相同的图像。

这是一个令人惊讶的发现！这意味着模型的行为并不由架构、超参数或优化器选择决定。它由你的数据集决定，除此之外别无他物。其他一切都是高效提供计算资源以逼近该数据集的手段。

更进一步，他这样写道，「当你提到“Lambda”、“ChatGPT”、“Bard”或“Claude”时，你提到的不是模型的权重。是数据集」。

这个观点为我们理解大模型竞争的本质提供了一个新视角：在全世界都在为英伟达芯片（股票）疯狂的时候，数据已经变成了 AI 领域的新护城河，或者说，这个护城河一直没有变化。