OpenAI 最新 O1 大模型杀死了 AMC 和 AIME 数学竞赛了吗？

ChatGPT代充2024-09-13 22:16:29850

温馨提示：在 ChatGPT 官网（www.chatgpt.com）使用 GPT-5.5、ChatGPT-Image-2 等模型时，需要 ChatGPT Plus 或更高等级的会员权限。如需购买帐号或代充值会员，请扫码添加我们客服咨询。

In my mind and in my car

We can't rewind we've gone too far

Pictures came and broke your heart

Put the blame on VCR

You are a radio star

Video killed the radio star

Video Killed the Radio Star（Song by The Buggles ，MTV 频道上播放的第一支 MV） OpenAI 杀死数学竞赛了吗？

AIME 是 AMC 的进阶版的，超高难度竞赛考试，绝大部分 AMC 选手都无缘晋级 AIME ，更别提在 AIME 中获得好成绩。

但 OpenAI 说，现在它家的新版大模型可以轻松晋级 AIME 并获得佳绩。

没有任何铺垫，Open AI 在今天凌晨正式对外发布了新一代 AI 模型——O1（注：我们目前能用到的只是 O1 的 preview 版）。

在宣传中，OpenAI 说 O1 最终正式版的逻辑和推理能力，已经到了新的高度。

它拿出了 O1 做 2024 年 AIME 题目的成绩说话，top 500 学生的水平，达到了晋级 USAMO 的水准。

（当然要做到答对 93% 的 AIME 题的程度，是需要先喂给 O1 1000 个样本的情况下）

虽然 OpenAI 官方在自己的 Youtube 频道给出了其做题的视频进行辅证。但是，我们现在并不知道 O1 的解题原理（OpenAI 也没义务告诉我们）。

也就是说，我们目前没有办法知道答案是通过 O1 自主生成的还是 O1 通过检索大数据而生成的答案。如果是通过检索生成的答案，我们还是没法证明 O1 本身的数学能力。

其实像标准化考试的数学，本身还是以计算为主。且思路固定，无论我们是教人还是教机器，都可以用一样的举一反三的方法达到我们想要的结果。主要的挑战还是在于，AI 如何在数学上发挥出它的创造性。去做一些证明和理论上的突破。

目前看来，还没有坚实的证据链表明 AI 可以办到这一点。当然，我们可以像陶哲轩教授前段时间的分享里说到的那样，保持对这样一种未来的信心。

只是目前，从现有的证据来看，AI 更像是个一个类似题海战术的产物，或者是一台刷题机器，比我们记得更多定理，记得更多的求解方法。

温馨提示：在 ChatGPT 官网（www.chatgpt.com）使用 GPT-5.5、ChatGPT-Image-2 等模型时，需要 ChatGPT Plus 或更高等级的会员权限。如需购买帐号或代充值会员，请扫码添加我们客服咨询。

这个问题需要从几个层面来看，不能简单地用有必要或没必要回答。核心在于你指的是哪个国内GPT，以及你的具体需求是什么