温馨提示:在 ChatGPT 官网(www.chatgpt.com)使用 GPT-5.5、ChatGPT-Image-2 等模型时,需要 ChatGPT Plus 或更高等级的会员权限。如需购买帐号或代充值会员,请扫码添加我们客服咨询。
In my mind and in my car
We can't rewind we've gone too far
Pictures came and broke your heart
Put the blame on VCR
You are a radio star
You are a radio star
Video killed the radio star
Video killed the radio star
Video Killed the Radio Star(Song by The Buggles ,MTV 频道上播放的第一支 MV) OpenAI 杀死数学竞赛了吗?
AIME 是 AMC 的进阶版的,超高难度竞赛考试,绝大部分 AMC 选手都无缘晋级 AIME ,更别提在 AIME 中获得好成绩。
但 OpenAI 说,现在它家的新版大模型可以轻松晋级 AIME 并获得佳绩。
没有任何铺垫,Open AI 在今天凌晨正式对外发布了新一代 AI 模型——O1(注:我们目前能用到的只是 O1 的 preview 版)。
在宣传中,OpenAI 说 O1 最终正式版的逻辑和推理能力,已经到了新的高度。
它拿出了 O1 做 2024 年 AIME 题目的成绩说话,top 500 学生的水平,达到了晋级 USAMO 的水准。
(当然要做到答对 93% 的 AIME 题的程度,是需要先喂给 O1 1000 个样本的情况下)
虽然 OpenAI 官方在自己的 Youtube 频道给出了其做题的视频进行辅证。但是,我们现在并不知道 O1 的解题原理(OpenAI 也没义务告诉我们)。
也就是说,我们目前没有办法知道答案是通过 O1 自主生成的还是 O1 通过检索大数据而生成的答案。如果是通过检索生成的答案,我们还是没法证明 O1 本身的数学能力。
其实像标准化考试的数学,本身还是以计算为主。且思路固定,无论我们是教人还是教机器,都可以用一样的举一反三的方法达到我们想要的结果。主要的挑战还是在于,AI 如何在数学上发挥出它的创造性。去做一些证明和理论上的突破。
目前看来,还没有坚实的证据链表明 AI 可以办到这一点。当然,我们可以像陶哲轩教授前段时间的分享里说到的那样,保持对这样一种未来的信心。
只是目前,从现有的证据来看,AI 更像是个一个类似题海战术的产物,或者是一台刷题机器,比我们记得更多定理,记得更多的求解方法。
温馨提示:在 ChatGPT 官网(www.chatgpt.com)使用 GPT-5.5、ChatGPT-Image-2 等模型时,需要 ChatGPT Plus 或更高等级的会员权限。如需购买帐号或代充值会员,请扫码添加我们客服咨询。





