奥特曼还在忙家里的事儿,GPT-4.5 就已经被网友骂惨了
3月2日,自打 DeepSeek 全球爆火以后,AI 圈里就跟按了快进键一样,一路狂飙。这一周,简直就是 AI 界的 “诸神之战”,马斯克的 Grok 3、Anthropic 的 Claude 3.7 Sonnet、阿里的通义 QwQ-Max-Preview、腾讯的 Turbo S、月之暗面的 Kimi-1.6-IoI-High、谷歌的 Gemini Code Assist 等纷纷登场,再加上 DeepSeek 开源周,整个 AI 圈那叫一个 “仙之人兮列如麻”。
就在大家被各种新模型弄得眼花缭乱的时候,昨晚,那个每次都自称在憋大招,却总被拿出来 “鞭尸” 的 OpenAI,终于憋出了个新东西 ——GPT 系列的船新版本 GPT-4.5。
按奥特曼的说法,这回的 GPT-4.5 是一种截然不同的智能,有着他从未感受过的奇妙之处,还称这将是第一个让你感觉在和一个有思想的人说话的模型。然而,两个月前,连着十几天追他们无聊发布会的经历,着实伤了不少人的心,我也不例外,所以对这个 GPT-4.5,起初真没抱多大期望。更让人无语的是,发布会上奥特曼人都没来,说是回家带孩子去了,没错,就是他跟他老公俩男的生的那个娃。
整体看下来,只能说 GPT-4.5 这波算是 “唐唐” 亮相了。这可不是我尬黑,其他网友大多也这么认为。外网上甚至掀起了一场关于 GPT-4.5 是不是垃圾的热烈讨论,连向来支持传统科技的红脖子们,这次都把票投给了马斯克的 xAI。
那么,这玩意到底拉胯在哪呢?不卖关子,直接说结论:性能不行,价格还高得离谱。同样是昨晚发布,它和 su7u 简直是两个极端。
先看性能,在 OpenAI 官方给出的基准测试里,GPT-4.5 在科学、数学、编码能力上,居然比不上自家去年发布的 o3-mini,基准测试结果仅比 4o 好 5%。也就是说,在 AIME 和 GPQA 等困难的学术基准测试中,GPT-4.5 相较于自家的 o3-mini 都显得力不从心,更别提和 DeepSeek-R1、Claude 3.7 Sonnet 这些 “怪物” 同场竞技了。
抛开官网数据,看看网友们的实测。GPT-4.5 和这周发布的 Claude 3.7 相比,差距十分明显。比如在思维理解和导图生成方面,Claude 生成的图几乎可以直接搬到 ppt 上做插图,而 GPT-4.5 画的图,却像极了小学微机课上的作业,简直没法看。更让人崩溃的是,这玩意运行速度还特别慢,等它给出结果,黄花菜都凉了。
但这还不是最让人诟病的,真正让它被喷惨的,是价格。按官方数据,GPT-4.5 每百万 Tokens 价格高达 75 美元,和 4o 相比,整整涨了 30 倍。要是跟 DeepSeek 比,那差距更是夸张,直接能达到 280 倍。要是再算上 DeepSeek 的折扣,两者价格相差甚至能超过 1000 倍!然而,搞笑的是,OpenAI 官网文章还称 GPT-4.5 “无法完全替代 GPT-4o”。
不过,OpenAI 官方似乎并不在意这些批评,他们觉得 GPT-4.5 真正的厉害之处,在于其语言能力。官网博客里提到,GPT-4.5 能够在对话中精准分析人类情感需求,提供情绪价值,这方面堪称当前最牛。他们宣称:“它将对世界的深刻理解与更佳的协作相结合,可以形成一种模型,该模型能够在更适合人类协作的热情而直观的对话中自然地整合想法。GPT-4.5 能够更好地理解人类的意思,并以更细致入微的‘情商’来解读微妙的暗示或隐含的期望。” 举个例子,当你跟它说自己没考好,它会先暖心安慰你,而 4o 则会很直男地直接给出一堆方案。
可是,这真的就能证明它比别家强吗?不见得。就拿字节的豆包来说,你发同样的内容,它回答得也很人性化,甚至还能打电话。外网网友也纷纷发推,拿它跟 DeepSeek r1 和 Grok 作比较,言语中满是嘲讽。毕竟,花着市场上最贵的钱,得到的却是一个要算法有情商,要推理有情商,要应用还是有情商的模型,换谁都得吐槽几句。
前 OpenAI 员工、国外知名 AI 分析师 Andrej Karpathy 发文指出,GPT-4.5 相比前代,训练成本提高了整整十倍,但其智商却不如推理模型,重点反而是放在了 AI 的情商上。虽然 Andrej 对 GPT-4.5 的情商表现挺满意,认为这是从 GPT-3.5 到 4.0 的一大进步,但他也明确指出,GPT-4.5 并非推理模型,而且很可能是 OpenAI 最后一代非推理模型了。这么看来,等到 OpenAI 在 4.5 的基础上再推出下一代推理模型时,或许才会有更出色的表现。
从这一点来看,未来大部分 AI 的发展方向,或许将彻底转向推理。一方面,GPT-4.5 的这次亮相,在某种意义上标志着传统的只靠大力出奇迹、狂堆算力的 Scaling Law(规模法则)开始减速了。另一方面,开源模型阵营在推理方向上已经取得了显著进展。
就说 DeepSeek 开源周这几天,每天都把自家 V3 和 R1 训练推理过程中的核心技术免费分享出来,供大家使用。第一天推出的 FlashMLA 架构,就像是把调教英伟达 GPU 的独家秘诀传授给大家,手把手教你如何榨干 H800 的算力资源。后面几天,又陆续开放了 DeepEP、DeepGEMM、DualPipe、EPLB 等一堆数据库和算法,最后还给出了用来压榨固态硬盘性能的 3FS 和 Smallpond 数据处理框架。
在类似 GitHub 的社区里,AI 领域的开发者们这几天可高兴坏了。DeepSeek 这些开源数据几乎每天都霸占着 GitHub 热榜,妥妥的新 “源神”。一边是 GPT-4.5 表现平平,备受争议;另一边是 DeepSeek 搞得热火朝天,让人人都有机会接触到先进技术。如此一来,未来的 AI 训练,恐怕很难再看到以往那种单纯比拼算力的竞赛了,更低成本、更高效的训练方式或许会成为主流。
今日中国·版权声明
本网站所收集的部分公开资料来源于互联网,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。
本网站所提供的信息,只供参考之用。本网站不保证信息的准确性、有效性、及时性和完整性。本网站及其雇员一概毋须以任何方式就任何信息传递或传送的失误、不准确或错误,对用户或任何其他人士负任何直接或间接责任。在法律允许的范围内,本网站在此声明,不承担用户或任何人士就使用或未能使用本网站所提供的信息或任何链接所引致的任何直接、间接、附带、从属、特殊、惩罚性或惩戒性的损害赔偿。
【特别提醒】:如您不希望作品出现在本站,可联系我们要求撤下您的作品。邮箱 sunny@chinatodayclub.com





