2026年7月2日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

实测OpenAI的o1:真没吹牛,奥数题高考题都能信手拈来了?

发布日期:2024-09-15 05:11:01 浏览次数: 3617
作者:硅星GenAI

微信搜一搜,关注“硅星GenAI”

好家伙,OpenAI 终于上新了!
9月13日凌晨,OpenAI 发布了最新系列模型 OpenAI o1,也就是吹了很久的“Strawberry 模型?”,OpenAI 的 o1 是一系列新的 AI 模型,专门为解决复杂问题而生。在多种平台上超越了所有之前的版本,甚至超过了许多人类,比如美国数学奥林匹克(AIME)、GPQA 评估和 Codeforces,目前已上线 o1-Preview、o1-mini
首个版本是预览版,不仅推理、科学、编程和数学能力强了一大截;更重要的它不是直接回答,而是主动先思考后再回答。就相当于在生成回应之前,投入更多时间进行思考,再做答。
目前,ChatGPT Plus 和 Team 用户已经可以在 ChatGPT 网页版中访问 o1 模型,Enterprise 和 Edu 用户下周也能用上。没有会员的朋友们可以期待一下,OpenAI 官方会继续研发计划向所有 ChatGPT 免费用户提供 o1-mini 访问权限。
收到消息后,第一时间就打开 ChatGPT, 能直接使用 o1-Preview、o1-mini,还不错。
要知道一直以来,大模型都是文科生,在数学问题上都显得很智障。除非有非常非常清晰的提示,否则很难答对。
很多模型都栽在了最简单的比大小问题上,看官方介绍 o1 更新着重在推理(科学、数学、编码)上下了不少功夫,那咱们拭目以待。

#01

先做道 AIME 2024年竞赛题

根据官方报告,在许多需要推理的测试中,o1 的表现已经达到了人类专家的水平,推理准确性超过博士生。
由于目前处于模型训练的早期阶段,常见功能基本都还没上,也没有多模态能力,无法上传图片,暂时就选择文字题目进行提问。
下面是一道 AIME 2024年竞赛的题目,一项专门为美国顶尖高中数学学生设立的挑战性考试,看看 o1 怎么答。
这么高难度的题,o1 思考了15秒,就解出来了。
对照答案,完全正确,分别是0.4h 和 204min。
要知道之前除了 Deepmind 的专业大模型有可能答对以外,其他的基本全军覆没。

o1 思考到生成

这道题有两种解法,感兴趣的朋友可参考详细解题步骤及视频:

https://artofproblemsolving.com/wiki/index.php/2024_AIME_I_Problems/Problem_1

既然 o1 能做顶尖数学竞赛,也能做高考理科真题。以前每每做高考真题,答案往往只有孤零零的数字一个,想研究吧,没参考。
那我们不如让 o1 解高考真题,给广大学子提供下新的解题思路

2024年高考物理真题(北京卷)真题及答案

o1-preview 用了26秒得出答案,而且整个过程非常详细,推理也很到位。

详细解答:

再来看一道化学题
o1-preview 9秒就答出来了,而且有详细的分析思路,不太友好的时候发现是英文。在提问的时候,发现它的输出不太稳定,有时英文,有时中文,如果真用的话还是要谨慎参考。

o1-preview

反观 GPT-4o,回答则错误,对于这道化学题,一本正经地胡说八道。

GPT-4o

#02

退休年龄计算

最近关于渐进式延迟法定退休年龄的办法引起大家广泛讨论,退休规则比较复杂。
咱用 o1 试试,算一下具体的退休时间。假设阿琴是1978年6月出生的,她将会在哪年哪月退休?
o1 在一分钟内计算出了,阿琴将在2030年6月,也就是51周岁10个月时正式退休。
对比退休年龄对照表,确实准确无误!
其他更有趣的例子放在了视频里:

#03

其实 o1-preview 的可玩性还是很高的

很多人不喜欢理科是因为枯燥的概念,干巴巴的数字,做实验有难度,根本学也学不明白。现在的通过引导AI一步步把实验可视化,想要实现需要逻辑推理、数学计算和大量编码。在 o1 出来之前,很多大模型同时不具备这些能力。今天我们来尝试一下。

实验一:蛋白质构建模拟器

记得以前上学,生物学里生命的核心是蛋白质,它能进行多种组合,但想要每个蛋白质不太现实,这时候AI可就能发挥大作用,我们做一个蛋白质构建模拟器。(提示词放在文末,可自取)
o1 整个思考只用了6秒,理解了生物和编程结合的需求之后,开始梳理步骤,整个思路非常的清晰明了。
第一次提问后,我让它帮我输出完整完整可运行的代码,方便省事。
o1思考9秒后,直接生成了完整的代码,我挺惊讶的,很难想象这是2次对话,几分钟就实现的效果。
要知道,这个效果涉及到编程的前端和后端,对于编程小白可真的太友好了!
在模拟器中,我们可以把不同的氨基酸添加组合形成新的氨基酸,效果初见雏形。可见,它一次性生成的代码还是有点东西的,瞬间减轻不少蛋白质名字记忆的难度,对于识别蛋白质和创造新的蛋白质真的很有用。

实验二:太阳系运转

先快速复习一下我们的太阳系:由 8 颗行星组成:水星、金星、地球、火星、木星、天王星、土星和海王星。太阳位于我们太阳系的中心,行星围绕它旋转。如果想要实现一个动画,通过改变行星的半径或太阳的质量,来可视化行星速度的变化。(提示词放在文末,可自取)
它思考花了26秒,意识到需要使用与物理、数学和编码相关的概念来生成输出。
在几轮对话明确想法后,o1 结合了提示词每一步背后的逻辑,将物理和数学合并,把几个视觉元素翻译成合适的代码。初步看来,运行代码后效果还不错,八大行星和和恒星都有,行星轨迹若隐若现。
拨动不同的滑块,能看到不同的效果,对于做实验来说,妥妥够用了。
乍一看以为是静态的,过了几分钟后发现是动态的,下面是几分钟运行加速后的效果,可以看到八大行星都在正常运转,每个的速度也不同,并且大小也不同。
略显不足的是,离太阳比较近的几颗行星,运行范围太小了,以至于都太阳挡住看不清。
本想再优化一下上面两个实验,看来只能能到一周后了。30分钟得到这样的效果,已经非常满意了。

最后

可能你也发现了,之前我们要一步步把一个问题拆分成很多步骤,精确到一步步引导,GPT才能理解并精准回答。
现在不用,o1 出生自己就会。在编程、数学等领域,开始展现出接近人类的思维过程。
要我看,o1 学会思考后,越来越像人了,说不定,明年这个时候,我就被它完全打败了,毕竟谁还不想有个会说能写、思路清晰的 AI 脑子呢?
在这些测试中,o1 展现出了强大的推理能力,但仍然存在输出不稳定的问题。
尽管不稳定、功能尚未全面上线,但o1 系列模型已经为我们提供了强大的工具来解决复杂问题。未来,随着进一步的模型训练和功能完善,我们可以期待 AI 在更多领域实现突破。

提示词参考

实验一  蛋白质构建模拟器

Create an interactive Protein Builder Simulation with the following features:
  1. User Interaction:

    1. Provide a dropdown menu containing the 20 standard amino acids, displaying their full names, three-letter codes, and one-letter symbols.

    2. Include buttons to Add Amino Acid to the chain, Remove Last Amino Acid, and Reset Chain.

  2. Visual Representation:

    1. Start with the most basic amino acid, Glycine, displayed by default.

    2. Represent each amino acid as a uniquely colored helix and display their one-letter symbols below.

    3. Visually connect amino acids with lines or bonds to represent peptide bonds as the chain grows horizontally.

  3. Information Display:

    1. As amino acids are added, display their names and basic information (properties, uses) below the simulation.

    2. If the amino acid sequence matches a known protein or peptide, display detailed information including its name, description, and popular uses.

    3. For sequences not matching known proteins, display the amino acid sequence and general information about peptides, indicating it may represent a novel or synthetic peptide.

实验二 太阳系运转

I want to create a scientifically accurate simulation of our solar system with all 8 planets revolving around the Sun at their unique speeds. The simulation should include the following features:
  1. Adjustable Parameters:
    • Include sliders (drag bars) below the simulation to adjust the following for each planet and the Sun:
    • Mass
    • Radius
    • Adjusting the mass of the Sun should affect the orbital speeds of the planets.
    • Adjusting a planet’s mass and radius should change its representation in the simulation (size and possibly color), but its own mass doesn’t significantly affect its orbit due to the Sun’s dominant mass.
  1. Visual Enhancements:
    • All planets and the Sun must be clearly labeled in the simulation with white text for visibility against the space background.
    • The orbits of the planets should be displayed as paths around the Sun.
    • When a parameter is adjusted, the corresponding planet (or Sun) should be highlighted in the simulation for a brief period (e.g., with a red rectangle) to indicate which celestial body was changed.
  1. User Interface:
    • The text in front of each slider should be in black for readability.
    • The controls should be organized in clear rows in a table, following the order of the planets in the solar system
    • For each celestial body, the format should be:
    • Name of the planet or Sun
    • Mass slider
    • Radius slider

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅