开云(中国)官网 OpenAI新模子Day0就被嫌弃！排名拉垮，不如一月底发布的国产模子 - 开云体育(中国)官方网站

xiaopuee

20 2026-03
开云(中国)官网 OpenAI新模子Day0就被嫌弃！排名拉垮，不如一月底发布的国产模子

发布日期：2026-03-20 02:25 点击次数：137
OpenAI 刚推出的 GPT-5.4 mini，Day0 就依然被嫌弃了。
把柄公开的大说话模子评测基准 Vals，今天新出的 GPT-5.4 mini 仅名循序 13 名，优于 OpenAI半年前发布的 GPT-5。
值得一提的是，名循序 12 的是一月底出的的 Kimi 2.5，而 Kimi 2.5 比新出的 5.4mini 低廉一倍多，蔓延还更低。
在同步的拓扑讲明中，新出的 mini 和 nano 模子在天下限制内证明也仅仅中规中矩，分笔名循序九第十，不如早前发布的 Kimi、Qwen、DeepSeek 等模子。
（OpenAI 自后居下这一块）
还有东谈主指出，此次 GPT ‑ 5.4 mini 的 baseline 对比的是老 GPT ‑ 5 mini（起程点速率快两倍），也即是泰半年前的版块，而不是其他厂家的新模子。
不少网友以致直言，换新 GPT ‑ 5.4 mini "还真没必要"。
天然 OpenAI 的博客默示，在输出 tokens 上，性能类似的 mini 版块比 GPT ‑ 5.4 低廉三倍，nano 版块则险些低廉十二倍。
但如果你拿 GPT ‑ 5.4 mini 与旧版 GPT ‑ 5 mini 对比，会发现同为 mini 档的模子，价钱却高潮了大要三倍。
可以说，在龙虾热中，天下扫数模子厂家都在加价，奥特曼这样精的小子天然也没放过。
是以，这是拿着专诚优化过编程和 agent 的小模子就来了？
新版 mini 和 nano 模子
今天，OpenAI 推出主打快速和经济的GPT-5.4 mini和nano模子，专诚针对编程、诡计机操作、多模态相识以及子代理（subagent）作念了优化。
比较前代 GPT ‑ 5mini，新版 mini 和 nano 在性能上有可以的晋升，同期起程点速率晋升逾越两倍。
值得提神的是，在多个评测中，mini/nano 模子与满血版 GPT ‑ 5.4 的差距依然不大，性能上也基本与谷歌，Anthropic 的轻量模子握平。
把柄 OpenAI 官方博客，新模子主打编程和子代理。
其中，GPT ‑ 5.4 mini在编程、推理、多模态相识和器用使用方面进行了优化，起程点速率晋升逾越两倍，在 SWE-Bench Pro 和 OSWorld-Verified 等评测中证明接近满血版 GPT ‑ 5.4。
GPT ‑ 5.4 nano则是 GPT ‑ 5.4 系列中最小、最经济的版块，相宜速率和本钱敏锐的任务，举例分类、数据索要、排序，以及料理较肤浅的缓助编程任务。
总的来说，这俩新模子相宜蔓延径直影响居品体验的责任负载，比如编码助手、子代理、屏幕截图融会、多模态行使。
说白了即是龙虾这类依然综合出 skill 的 agent，部署在 mini/nano 这类响应快速，才偶然用的小模子就更实惠。
在具体的使用上，GPT ‑ 5.4 mini 可在 API、Codex 和 ChatGPT 中调用，而 nano 仅能通过 API 使用。
价钱方面，mini 版块每百万输入 tokens0.75 好意思元，每百万输出 tokens4.5 好意思元。Nano 版块在 API 顶用度更低，每百万输入 0.2 好意思元，每百万输出 1.25 好意思元。
不外，横向对比来看，有网友指出，Gemini Flash 3 lite 则更智能，而况总体要低廉六倍多。
评测成果
在骨子评测中，mini 和 nano 主如果针对编程和 Agent 任务作念了优化。
在编程任务中，它们偶然低蔓延完成代码修改、调试轮回和库导航，快速迭代，高效料理需要速率和本钱兼顾的责任进程。
Mini 的通过率接近 GPT ‑ 5.4，同期速率更快。
在子代理场景中，劝诱者可以让大模子肃肃方案和预备，开云体育(中国)官方网站同期将较小的任务并行交付给 mini 子代理，比如搜索代码库、料理文档或缓助操作。
跟着微型模子越来越快，这种形式的价值愈发突显。
在诡计机操作和多模态任务中，mini 证明相通出色，偶然快速融会复杂费户界面截图，高效完成操作任务。
在 OSWorld-Verified 测试中，它的证明险些接近满血版 GPT ‑ 5.4，同期领悟优于 GPT ‑ 5 mini。
有些网友的骨子测试也佐证了这些亮点。
reddit 网友 Rent_South 系统地测试新版 mini 在分类、总结、翻译等任务上的证明，并给出了高度评价：
我在它们身上跑了些基准测试，成果发现——在一些果真场景任务中，它们更低廉、更快，也更好用。
自从大要一年前，我在构建一个 RAG 活水线时，gpt ‑ 4.1-mini 在某些代理任务要领上击败了 GPT ‑ 4 原版之后，我对 mini/nano 版块的关怀就比对原版还高。
在分类任务中，nano 准确率达 70%，本钱比 GPT ‑ 5.4 裁汰十二倍。
当调用逾越逾越一万次时，GPT-5.4 大要消费 20.30 好意思元，GPT-5.4-nano 则唯有 1.64 好意思元，从简幅度约 91.9%。
在翻译任务上，nano 得分略低，为 55 分，但与 GPT ‑ 5.4 的 63 分差距不大，仍可手脚替代遴荐。在超万次调用后，从简幅度仍达到了 91.3%！
在写稿任务中，mini 版块反倒得分最高，本钱比满血版低约六成。在逾越 1 万次调用时，mini 消费 29.61 好意思金，nano 仅消费 10.30 好意思金。
此外，还有网友测试了模子刻绘制片的才能，nano 在刻画博物馆相蓦地，输出驻防准确，使用 token 极少，总本钱以致不到一分钱。
比如，这位网友让 nano 模子刻画我方顺手拍的博物馆的相片：
nano 模子输出了以下刻画：
图片深刻了一间博物馆展厅的里面，有一面长长的展墙。白色砖墙上整都摆设着好多装框肖像画。肖像画下方是多个玻璃展示柜，木框深色，顶部 / 前线为玻璃，展示柜内摆放着各式历史文物和建树。房间铺设了抛光木地板，吊顶上有吊挂灯具及电线，墙顶隔邻可见一丝管谈。出路中，沿房间长度摆设的玻璃柜映出了其他展区的物品。
生成这样一段刻画此次操作用了 2751 个输入 tokens 和 112 个输出 tokens，用度为 0.069 好意思分（不到一分钱的相配之一）。
即便在创意任务上，如生成鹈鹕骑自行车的 SVG 图，nano 和 mini 与满血版 GPT ‑ 5.4 仍有一定差距，但它们完成基础创作任务十足可行。
起码跟着推理强度的晋升，咱们能看到画面可以保握相对的正确性。
举座看下来，此次模子跟 OpenAI 自家的居品来比，果真是可圈可点。
但关于这是否即是市面上最佳的、最经济的小模子，还有待商量。
one more thing
敬爱敬爱的是，在 OpenAI 总裁 Greg Brockman 发布新模子的研究区，最火热的商量尽然不是新模子的才能，也不是价钱，以致险些和新模子自身没相关系。
研究区里刷屏的，险些全是带 keep4o 标签的："让 4o 转头！"
参考流通
[ 1 ] https://x.com/gdb/status/2034003374627049909
[ 2 ] https://simonwillison.net/2026/Mar/17/mini-and-nano/
[ 3 ] https://www.reddit.com/r/OpenAI/comments/1rwd9hd/breaking_openai_just_dropped_gpt54_mini_and_nano/
[ 4 ] https://x.com/scaling01/status/2033958931874099560
一键三连「点赞」「转发」「注重心」
接待在研究区留住你的念念法！
— 完 —
� � 今天，你养虾了吗？
接待加入【龙虾养成商量组】，一谈换取养虾告诫！扫码添加小助手加入社群，谨记备注【OPENCLAW】哦～
一键关注 � � 点亮星标
科技前沿进展逐日见开云(中国)官网
金佰利国际娱乐官网入口
- 模子
- 新模子
- 开云(中国)官网
- OpenAI
- Day0

友情链接：

Copyright © 1998-2026 开云体育(中国)官方网站™版权所有

hebeixinjinghua.com 备案号备案号: 冀ICP备18030846号-1

技术支持:®开云体育 RSS地图 HTML地图