前Google技术专家剖析Gemini 2.5 Pro登顶背后底层逻辑

AI1周前发布 小强
0 0 0

从去年被OpenAI的4o模型“精准狙击”,到今年Gemini 2.5 Pro全面霸榜,Gemini完成了从追赶者到领跑者的逆转。《硅谷101》创始人泓君邀请两位前Google技术专家,深入探讨Gemini 2.5 Pro登顶背后的底层逻辑,解析大语言模型训练策略及各模型能力差异原因。

Gemini 2.5崛起的底层逻辑
《硅谷101》创始人泓君询问Energent.ai联合创始人Kimi Kong,谷歌发布的Gemini 2.5 Pro在各项评测中数据领先的原因。Kimi表示,虽已离开DeepMind近一年,但大语言模型训练基本步骤不变,包括Pre-training(预训练)、SFT (Supervised Fine-tuning,监督微调)和利用RLHF(基于人类反馈的强化学习)技术做的Alignment(对齐)。去年NeurIPS大会后,公开网络数据抓取殆尽,过去一年更多精力投入到对齐阶段,特别是强化学习方向。Google从Gemini 1到2积累了坚实基座模型训练经验,且更加重视强化学习,启动“让AI批判AI”机制。Kimi认为,Gemini 2.5训练中可能引入更多此类强化学习策略,使其在编程、数学等高确定性任务中表现出色。

Anthropic代码生成质量高的原因
泓君提到去年大模型训练趋势,各家在预训练基础上加入后训练,许多模型推理或代码能力提升,Google也强调代码生成质量提升,好奇Anthropic生成代码质量优于其他家的原因。Kimi从大语言模型训练三步骤分析,预训练阶段数据配比无行业共识,猜测Anthropic将代码优先级设得最高,投入大量高质量代码数据,使模型基座编程能力强。在对齐环节,不同团队优先级不同,猜测Anthropic内部将编程设为第一优先级,在各训练环节都倾向引入更多编程训练,导致其Coding能力强,但其他能力稍有欠缺。Kimi还举例,用同一段提示词让Gemini、ChatGPT、Claude等输出市场营销文案,OpenAI的最有调性,Claude的则很枯燥,他认为这是数据配比问题,Anthropic在代码问题上思考更多。

DeepMind此前的重点及当前进展
泓君询问DeepMind之前的重点,Kimi称DeepMind一直追求综合能力,在编程、数学、推理、写作等多维度都有较强表现,为此设定通用评估指标体系。不过,过去DeepMind在写代码方面相对薄弱,所以在编程上投入更多精力和资源,如今在代码能力上已追上Anthropic。对于推理能力,Kimi表示在其离开Google时,Google推理模型优先级不高,当时Google还在追赶OpenAI的写作和问题解决能力。

© 版权声明

相关文章

暂无评论

none
暂无评论...