OpenAI 最新 O1 大模型杀死了 AMC 和 AIME 数学竞赛了吗?

ChatGPT代充2024-09-13 22:16:29850

温馨提示:在 ChatGPT 官网(www.chatgpt.com)使用 GPT-5.5、ChatGPT-Image-2 等模型时,需要 ChatGPT Plus 或更高等级的会员权限。如需购买帐号或代充值会员,请扫码添加我们客服咨询。

In my mind and in my car

We can't rewind we've gone too far

Pictures came and broke your heart

Put the blame on VCR

You are a radio star

You are a radio star

Video killed the radio star

Video killed the radio star

Video Killed the Radio Star(Song by The Buggles ,MTV 频道上播放的第一支 MV)  OpenAI 杀死数学竞赛了吗?

AIME 是 AMC 的进阶版的,超高难度竞赛考试,绝大部分 AMC 选手都无缘晋级 AIME ,更别提在 AIME 中获得好成绩。

但 OpenAI 说,现在它家的新版大模型可以轻松晋级 AIME 并获得佳绩。

没有任何铺垫,Open AI 在今天凌晨正式对外发布了新一代 AI 模型——O1(注:我们目前能用到的只是 O1 的 preview 版)。

在宣传中,OpenAI 说 O1 最终正式版的逻辑和推理能力,已经到了新的高度。

它拿出了 O1 做 2024 年 AIME 题目的成绩说话,top 500 学生的水平,达到了晋级 USAMO 的水准。

(当然要做到答对 93% 的 AIME 题的程度,是需要先喂给 O1 1000 个样本的情况下)

虽然 OpenAI 官方在自己的 Youtube 频道给出了其做题的视频进行辅证。但是,我们现在并不知道 O1 的解题原理(OpenAI 也没义务告诉我们)。

也就是说,我们目前没有办法知道答案是通过 O1 自主生成的还是 O1 通过检索大数据而生成的答案。如果是通过检索生成的答案,我们还是没法证明 O1 本身的数学能力。

其实像标准化考试的数学,本身还是以计算为主。且思路固定,无论我们是教人还是教机器,都可以用一样的举一反三的方法达到我们想要的结果。主要的挑战还是在于,AI 如何在数学上发挥出它的创造性。去做一些证明和理论上的突破。

目前看来,还没有坚实的证据链表明 AI 可以办到这一点。当然,我们可以像陶哲轩教授前段时间的分享里说到的那样,保持对这样一种未来的信心。

只是目前,从现有的证据来看,AI 更像是个一个类似题海战术的产物,或者是一台刷题机器,比我们记得更多定理,记得更多的求解方法。

温馨提示:在 ChatGPT 官网(www.chatgpt.com)使用 GPT-5.5、ChatGPT-Image-2 等模型时,需要 ChatGPT Plus 或更高等级的会员权限。如需购买帐号或代充值会员,请扫码添加我们客服咨询。

本文链接:https://www.daichong.cc/gpt4_gpt5_127.html

相关文章