OpenAI 发布了昂贵的GPT-4.5,而DeepSeek进行着最后一天的代码开源分享。
北京时间2月28日凌晨,OpenAI发布GPT-4.5。“这是我们迄今为止最大、最好的聊天模型,是在扩大预训练和后训练道路上迈出的一步。” OpenAI介绍,这款新模型面向GPT Pro用户,下周起将向Plus用户和Team用户推出。
OpenAI CEO山姆·奥尔特曼(Sam Altman)因为“在医院照顾孩子”并没有出现在发布现场,但他在X上发布了帖子造势,强调GPT-4.5是一个“高情商”更像人的模型,不会超越基准测试,是一种“不同类型的智能”。
从目前业界的反应来看,这一代模型的能力提升并不算大,但令人惊讶的是GPT-4.5的价格,每百万Tokens输入为75美元,相比GPT-4o的2.5美元上涨30倍,同时,OpenAI表示,GPT-4.5无法完全替代GPT-4o。
与此同时,DeepSeek 26日刚在海内外宣布了API 错峰时间段的降价,V3模型和 R1模型的每百万Tokens输入只要0.035美元,相比原价分别下调50%和75%,GPT-4.5是这个价格的2000多倍。就在28日,DeepSeek还放出了“开源周”最后一个代码库,将开源进行到底,这一搅动AI圈的“鲶鱼”,正在改写AI竞争格局。
好消息和坏消息
GPT-4.5是奥尔特曼此前预告将“在几周内”发布的模型。奥尔特曼彼时称,除了发布GPT-4.5,几个月时间内OpenAI还将发布下一代基座模型GPT-5。如此看,GPT-4.5很可能是GPT-5面世前的最后一个过渡模型。
与OpenAI此前发布新模型时的惯常做法不同,此前OpenAI通常会强调新模型在各领域的基准测试分数,此次OpenAI则表示,学术基准并不总是反映现实世界的有用性,OpenAI转而强调了GPT-4.5的“情商”。
奥尔特曼在发帖中提到了“好消息”和“坏消息”,前者是,“这是第一个让人感觉像是在跟一个有思想的人说话的模型。”他表示,曾多次惊讶地发现能从人工智能那里得到很好的建议。
坏消息则是,“这是一个庞大而昂贵的模型”,甚至没办法同时推到plus用户那里,奥尔特曼表示,“GPU已经不够了”,下周将添加数万个GPU,然后将其推广到plus。
奥尔特曼还特别提到,GPT-4.5不是一个推理模型,也不会在基准测试中取得压倒性优势。它是一种“不同类型的智能”。在新模型发布前不久,OpenAI首席研究官Mark Chen接受播客采访称,新模型并未被命名为GPT-5,这是因为OpenAI内部对这款模型的评估还没有到达整整一代的性能提升。
OpenAI表示,早期测试表明,用户与GPT-4.5交互更自然,该模型有更广泛的知识基础、理解用户意图的更强能力和更强大的“情商”,这使得GPT-4.5在写作、编程、解决实际问题等任务上很有用。在训练过程中,OpenAI则使用了扩大(Scaling)无监督学习和推理的方法。
OpenAI特别强调了GPT-4.5幻觉率降低、与人类协作表现更佳。OpenAI通过用简单但具有挑战性的知识问题测试模型,结果显示,GPT-4.5的幻觉率为37.1%,低于GPT-4o的61.8%、o1的44%、o3-mini的80.3%。在与人类协作的能力方面,OpenAI称,GPT-4.5在日常查询、专业查询、创造性智能这3个方面表现都比GPT-4o更强,GPT-4.5能更好地理解人类微妙的暗示或隐含的期望。
为了展示GPT-4.5的能力,OpenAI举了个例子。问GPT-4.5“世界上第一种语言是什么”,GPT4.5的回答是“我们不知道确切的第一种语言是什么,科学家认为我们可能永远不知道确切的答案,因为口语的出现远早于书面记录”,并解释了没有单一的第一种语言、口语可能最早在非洲出现。
同样的问题问GPT-4的4T版本,回答则是“确定人类使用的第一种语言极具挑战性”,并解释称,语言学家假设有许多语言的共同祖先,但这种祖先不是第一种语言。直观感受上,GPT-4.5的表达更接近人类,GPT-4T的语言表达显得有些机械。
此外,OpenAI还强调了GPT-4.5与o1这类长思维链推理模型不同。例如,GPT-4.5在做出反应前不需要经过思考,因此更通用,也更智能。不过,OpenAI也说明,推理仍将是未来模型的核心能力,更强的推理能力即将出现。
在附录部分,OpenAI才放出GPT-4.5的基准测试分数。在反映科学、数学、多语言、编码的GPQA、AIME’24、MMMLU、SWE-Lancer基准测试上,GPT-4.5得分分别为71.4%、36.7%、85.1%、32.6%,超过GPT-4o的53.6%、9.3%、81.5%、23.3%,但部分得分低于o3-mini。
这一代的能力提升并不明显,而与此相对的是,能力定价上,GPT-4.5预览版的API调用价格为每百万Tokens输入(input)75美元,输出(output)150美元,分别是GPT-4o价格的30倍、15倍。
即便相比自家模型,这个价格也过于昂贵,而进一步与 DeepSeek 进行对比,差距更大。近期非波峰时间段,V3 模型和 R1 模型的每百万Tokens输入为0.035美元(原价分别是0.07美元/0.14美元),每百万 token Tokens输出只需要 0.55 美元(原价分别是1.1美元/2.19美元),GPT-4.5分别是上述价格的2000多倍和270多倍。
OpenAI说明,由于GPT-4.5是一个非常大且计算密集的模型,所以价格比GPT-4o更贵。同时,OpenAI提到GPT-4.5 还无法完全替代 GPT-4o。考虑到要在支持现有功能和开发未来的模型之间取得平衡,OpenAI还在评估是否长期在API(接口)使用该模型。
“鲶鱼”搅动AI圈
除了拼性价比,DeepSeek另一个方向是坚定开源路线。
就在OpenAI新品发布的这一天,DeepSeek正进行着本周第五项代码开源——Fire-Flyer文件系统(3FS)。它是“所有 DeepSeek 数据访问的动力引擎”,一个高性能的并行文件系统,专门优化AI数据访问,为 AI 工作负载提供卓越的存储基础设施。
据DeepSeek,3FS是专为AI场景设计的高性能存储解决方案,通过架构创新和硬件适配显著提升了数据处理效率,与传统的云存储挂载工具(如s3fs)在目标场景和技术实现上存在显著差异。
除了3FS,DeepSeek本周陆续开源了让大模型在GPU上跑得更快的MLA解码核FlashMLA,用于MoE模型训练和推理的DeepEP通信库,可支持MoE的FP8 GEMM代码库DeepGEMM,一系列优化并行策略等底层代码,在GitHub上,DeepSeek详细展开了DeepSeek-V3和R1模型背后的优化技术,教社区如何最大限度利用GPU能力。
“相当于以前DeepSeek是直接给一辆车,告诉大家这辆车续航900公里,但是现在DeepSeek在深挖,用什么方式能够开到900公里。”大模型生态社区OpenCSG(开放传神)创始人陈冉此前对第一财经举例表示。
陈冉认为,DeepSeek现在发布的算法某种意义上属于“脚手架”, 这些“脚手架”的开源有利于之后的生态搭建。社区和开发者可以基于DeepSeek的技术路线继续往前走,最终行业能基于此将生态做起来。
长期来看,DeepSeek这一开源动作的意义在于,有模型标准,也有工具标准,也有生态基石,生态就能长起来。也有从业者认为,如果把大模型比作更底层的操作系统,那OpenAI可能是相对封闭的IOS生态,而DeepSeek就是开放的安卓。
DeepSeek或许改写了AI圈的竞争格局和方向。奥尔特曼在2月o3-mini发布当天表示,OpenAI的开源政策站在了“历史错误的一边”,需要想出一个不同的开源策略。
在国内,一贯坚持闭源路线的百度也“倒戈”向开源。去年,百度董事长李彦宏还表示,大模型开源的意义不大,闭源模型在能力上会持续领先。今年2月14日,百度就宣布将在未来几个月陆续推出文心大模型4.5系列,并于6月30日正式开源。
从开源的冲击看,能力不如开源模型的闭源模型面临尴尬境地。既然开源模型可以被开发者自行下载、微调乃至私有化部署,就不需要为了使用闭源大模型付费了。
DeepSeek将算力用到极致,在低成本的基础上进行模型的训练和推理,此前也一度带崩芯片股,将压力给到海外大厂,规模越来越大的数据中心相关资本支出是否合理?这成为投资人对大厂的疑虑。
1月以来,海外AI巨头近期新品发布密集,谷歌发布了Gemini2.0系列,xAI发布了马斯克口中“地球上最聪明的人工智能”Grok 3,OpenAI紧接着拿出了GPT-4.5。
从全球知名AI模型评测平台Chatbot Arena(大模型竞技场)的最新榜单来看,最新发布的Gemini2.0系列旗舰模型与Grok 3确实排在前列,但与排在第5位的DeepSeek-R1并没有拉开实质性的差距,以大模型竞技场的评分来看,差距在15分-40分之间。
在2025年达沃斯论坛上,AI科技初创公司Scale AI创始人亚历山大·王(Alexandr Wang)公开表示, DeepSeek的AI大模型性能大致与美国最好的模型相当。他认为,过去十年来,美国可能一直在人工智能竞赛中领先于中国,但DeepSeek的AI大模型发布可能会“改变一切”。
在国内,DeepSeek同样给大模型厂商不小的压力。去年C端大模型应用做得声量最大的国内厂商中,一定有豆包和Kimi。但如果最近再看苹果中国区免费版APP排行,会发现,第一名是DeepSeek,腾讯元宝搭载DeepSeek并大方投流后,也冲到了榜单第二名。
AI业内人士表示,DeepSeek的技术实力过硬且选择开源,这对一些闭源公司造成了冲击,一些大模型团队需要反思自身的做法。
DeepSeek-R1不是大模型竞争的终局,有消息称,DeepSeek正寻求巩固自身优势,尽早推出R2模型,消息提到DeepSeek原本计划在5月初发布R2模型,目前会加快这一速度。DeepSeek目前并未对此回应。
此前DeepSeek在R1论文中提到,R1的性能将在下一个版本得到改善,因为相关的RL(强化学习)训练数据还很少。随着RL数据的增加,模型解决复杂推理任务的能力持续稳定提升,且会自然涌现出一些复杂行为能力。
同时,OpenAI的下一代推理模型o3计划融入GPT-5并在几个月内推出。虽然OpenAI还在持续推出GPT-4o、GPT-4.5这类带有过渡色彩的模型,但目前距离GPT-4推出已有近两年时间。发布GPT-4.5之后,OpenAI还需尽快证明自己仍是全球最先进的大模型公司,接下来推出GPT-5将是重要一步。
DeepSeek能否赢得下一局对弈仍存变数,但可以确定的是,它为行业竞争带来了更深远的影响,在2025年初以压倒性的声势冒头,打乱了AI圈的格局,竞争对手或许需要思考,如何走赢下一步棋。
有话要说...