如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
- 发表时间:2025-06-21 11:20:17
- 来源:
当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
推荐资讯
- 2025-06-20 00:05:17最讨厌和哪种人打羽毛球?
- 2025-06-19 23:20:17年纪轻轻为什么会得腰肌劳损?
- 2025-06-20 00:05:17做好的flask项目怎么部署到服务器,使用公网ip可访问?
- 2025-06-19 23:05:15不管黑客用了多少跳板,最终是不是可以通过网络运营商找出真实 IP?
- 2025-06-20 00:10:16安徽一银行两名客户经理因吃客户一碗面每人被罚 3000 元,这个处罚力度合理吗?
- 2025-06-19 23:30:16为什么 Mac 对游戏支持这么差?
- 2025-06-19 23:15:15express + mongodb (mongoose) 中 mvc的model层如何使用?
- 2025-06-19 22:55:16为什么在中国,一间「看起来没什么用」的房间最终都会被装修成书房?
- 2025-06-19 23:45:17如何评价高圆圆的身材算是美女类型的吗?
- 2025-06-19 22:55:16郑大一附院原院长阚全程被查,对河南医疗系统会带来哪些影响?
推荐产品
-
为什么开发一个 AI Agent 看似容易,但真正让它「好用」却如此困难?技术瓶颈主要在哪里?
先写一个短的结论。 那就是AI Agent = 多个AI大 -
Caddy 和 Nginx 比有哪些优点和缺点?
本内容是对知名性能评测博主 Anton Putra Ngin -
伊朗这次会崩溃灭亡吗?
各国都在撤侨 美国也发出伊朗可能使用核武的警告 只有知乎认为 -
中国军队有多强,在世界能排第几?
说实话,按照现在这个趋势,我严重怀疑现在我们就已经开始登顶世
新闻动态
最新资讯