月出版,支持编写可靠的代码行,远远超过了 Fr. 的行数。如下图所示,自 11 月份发布 ChatGPT 以来,OpenAI 的流量增长几乎陷入停滞。 (ChatGPT流量趋势,来源:测试工具) 相应地,一二级市场的AI热潮持续降温。一级市场上,投资AI水龙头的VC基金占比持续增长,占比接近%,但金额已恢复至2017年的水平,且出现明显下降。 (VC投资AI龙头金额及占比,来源:硅谷科技评论)二级市场上,追赶市场的AI人群开始出现分化迹象。代表英伟达等公司的美股指数AGIX已经从高点
开始回落,几乎回到了半
年前的水平。 (AGI指数,来源:海外独角兽 WhatsApp 号码数据 在此背景下,OpenAI通过新的大模型o为投资者“翻蛋糕”成为了绝佳选择。 。现象:超强的模型推理能力。 OpenAI 模型迭代历史 作为 GPT 发布以来 OpenAI 模型最重要的更新。 2010年,o在数学、代码等方面的推理能力显着提高。 (OpenAI主要大模型及其发布时间,来源:测试工具)。数据: o 在 STEM 领域表现出色,尤其是数学和编程。至于数学,在AIME的评价中。(一项旨在挑战美国最聪明的高中生的考试),GPT-o 只解决了 % 的问题,o 的得分为 8%。 。在编码方面,GPT-o 在竞争性编程问题(Codeforces)上得分为 %,o 得分为 89%。 。在博士级别的科学题(GPKA Diamond)中,GPTo为56.%,o比人类医生高出了69.7%,达到了恐怖的78%。 (o与gpto对比,来源:OpenAI官网)。当启用视觉
感知功能时
多模态 o 在 MMMU 上达到 78.%,成为第一个与人类专家竞 2021 年你可以玩的 10 款最佳游戏 争的模型。在博士级别的科学问题上,尤其是物理和化学领域,o明显领先于人类博士。 .5 获得9%/。 IOI(国际信息学奥林匹克竞赛)的成绩,每个问题有 5 份提交。和 。在所提交的问题中,该模型获得了 6 分,超过了金牌门槛。 (o和gpto的比较,来源. OpenAI官网) .6 安全性 衡量安全性的一种方法是测试当用户试图绕过安全规则(所谓的“越狱”)时,模型是否继续遵守安全规则。在最难的越狱测试中,GPT-o 得分为 /,而 o-previev 模型得分为 8/。 .7 缺点通用人工智能的核心是通用性和泛化性,但o在一些简单的自然语言处理任务如写作、编辑文本等方面并没有明显的提升,这意味着o的应用范围有一定的局限性。 。创新:自我对弈 RL + 内化 COT 作为第一个使用,o 能够在回
答问题之前深入思考问题。 o 不再要求用户输入 zbn 目录 复杂的COT提示,而是利用强化学习将思维链内化,然后进行持续训练。通过以思路链的方式分解问题,可以不断地验证、修正模型并尝试新的方法。这个过程显着提高了模型的推理能力。通过更多的强化学习(在训练期间计算)和更多的思考时间,性能不断提高突破了金牌门槛。 (o和gpto的比较,来源:OpenAI官网) .6 安全性 衡量安全性的一种方法是测试当用户试图绕过安全规则(所谓