生物AI模型训练数据瓶颈：为何‘更多数据’不再是万能钥匙？

【引言】 今年人工智能领域的最大趋势之一，是前沿实验室（frontier labs）在向外部合作伙伴购买专属训练数据上投入了巨额资金。虽然这些支出指标几乎从不公开，但通过数据标注公司的公开数据可以估算。早在2025年6月，该领域最大的两家公司——Surge AI和Scale AI的平均年营收已分别达到约10亿美元，而这主要是前沿实验室持续砸钱所致。

顶级数据标注公司的收入。（资料来源：https://www.theinformation.com/articles/little-known-startup-surged-past-scale-ai-without-investors）

推演到更广泛的生物数据市场，据估计，各大顶级实验室每年在采购生物数据集和构建强化学习环境方面的支出高达10亿至100亿美元。这些数据主要应用于编程、金融以及计算机操作等当前最热门的AI应用领域。背后的逻辑很明确：在训练数据里加入更多精选的Python代码示例，大语言模型（LLM）就可能成为更优秀的软件工程师。

同样的趋势也出现在生物基础模型（Biological Foundation Models）上：人们正在讨论如何通过高质量的生物数据集（如抗体亲和力测量数据）来提升模型性能，使它们能更有效地扮演蛋白质工程师的角色。

为应对这一需求，越来越多的研究者开始关注提升收集生物数据集的速度和严谨性。如今，一些自动化生命科学机器人公司正将其定位为“数据代工厂”，试图利用这个不断增长的市场，构建一个从数据收集、模型训练到模型评估的闭环飞轮。

然而，这套在文本数据训练中顺应潮流的做法，却并不能直接平移到生物学领域。数据质量和数量之间的权衡，以及如何筛选高质量数据，成为这一新领域亟待解决的问题。

LLM预训练模式的红与黑

在LLM预训练的早期，行业普遍认为“数据越多越好”。那套‘数据规模至上’的逻辑，是以数据的数量作为模型性能提升的核心撬动点。早期的研究揭示了‘规模定律’（Scaling Laws），即在固定计算预算下，模型的性能受数据量和参数量的影响。

这一时期，研究者们甚至开发了诸如‘重要性重采样’（Data Selection with Importance Resampling）等工具，以在庞大的数据集中过滤出高质量样本，并在模型训练过程中达成性能与成本的最优平衡。

但是，这种依赖已有高质量语料库的方法，并不适用于生物学数据——因为生物数据的源泉远远没有文本数据那样丰富和清晰。例如，PDB（蛋白质数据库）虽然拥有约20万个高质量实验蛋白质结构，但它更像是一个特例，而非刚性范式。

AlphaFold在Protein Data Bank上进行预训练，显著提升了蛋白质结构预测的准确性。

生物学数据的独特挑战

与LLM不同，生物数据的稀缺性显著，且噪声问题更加严重。生物数据本身存在大量的上下文缺失、不一致性和不可重复性，这使它难以直接用于训练高质量模型。

正因如此，生物基础模型的训练往往需要合成新数据。而这些合成数据的真实性和可靠性，取决于是否能够精准捕捉生物学系统的复杂性。许多前沿实验室已经开始探索类似LLM的数据采购策略，以获得更精准、更有效的训练材料。

在这场数据竞赛中，我们需要重新定义‘高质量’的生物数据，这包括四个核心维度：上下文丰富性、干净的可复现性、多样性，以及为特定任务精心设计的针对性。

为何生物学需要新的数据哲学

当我们尝试将LLM的训练模式套用到生物学中时，面临的不仅仅是数据数量的挑战——更是科学范式的差异。生物数据的获取成本高，质量评价复杂，且往往无法由简单的过滤工具补足。

因此，对生物数据的筛选必须更加审慎。我们不能再依赖‘更多的数据就一定更好’的思维模式，而应转变为对数据质量的深入挖掘与优先定位。这不仅关乎模型的效果，更关乎未来我们能否真正实现生物AI技术的突破。

结语

生物基础模型的训练，正在经历与文本模型类似的‘数据至上’阶段，但随着现有数据的枯竭，这一时代或许即将落幕。我们需要一个更加精准、动态且科学的生物数据筛选框架，才能避免陷入‘规模至上’的陷阱，并在更高层次上推动AI在生命科学领域的发展。

（A）利用质量分类器过滤原始数据，构建DCLM训练数据集。（B）基于DCLM-Baseline数据训练的模型，在某些情况下表现优于更大的数据集。（资料来源：https://arxiv.org/abs/2406.11794）

LLM预训练模式的红与黑

生物学数据的独特挑战

为何生物学需要新的数据哲学

结语

评论 (0)