标签：科技

预训练的 Scaling Law 正在走入死胡同，o1 让更多创业公司重新复活

admin 2024年9月23日评论

北京时间 9 月 13 日凌晨，OpenAI 在官网发布了其最新一代模型，没有延续过去 GPT 系列的名称，新模型起名为 o1，当前可以获取 o1-Preview 和 o1-mini 这两个版本。

当天，Sam Altman 在社交平台上兴奋地称，「『o1』系列代表新范式的开始」。

但这可能是第一次，外界比 OpenAI 的掌舵人 Sam Altman 本人，更加兴奋地期待 OpenAI 的新品发布。这份期待里，无关对赛道第一名的艳羡，更多是同呼吸、共命运的决定性瞬间。下一代模型是否有惊人的进展？能否为 AGI 的浪潮和梦想完成信仰充值？

今年，你可能也对 AI 这个字眼麻木了，去年有多狂热，今年就有多麻木。原因无他，在 AI 的落地应用上，看不到信心二字。截止目前，仍未出现颠覆性的 AI 应用；Inflection.ai、Adept.ai、Character.AI 等最头部的明星公司接连被大厂纳入麾下；科技巨头们在财报周被反复拷问 AI 的巨额资本支出何时看到回报……

这些情绪背后，都指向同一个问题，那个所谓的第一性原理「Scaling Law」可以通向 AGI 吗？以今年十万卡、百亿美金投入，换取模型性能线性增长、乃至对数级增长的门槛来看，这注定是一场玩不起的游戏。不少人开始质疑它的合理性，这波 AI 不会就这样了吧？

这是「o1」诞生的时代性。

在 OpenAI 交出答卷后，AI 创业者表示「又行了」。不同于预训练的 Scaling Law，一条在推理阶段注入强化学习的路径成为明确的技术新方向，徐徐展开。

极客公园「今夜科技谈」直播间也在第一时间邀请极客公园创始人 & 总裁张鹏，和创新工场联合首席执行官/管理合伙人汪华、昆仑万维首席科学家&2050 全球研究院院长颜水成，一起聊了聊 o1 所代表的新范式及创业者脚下的路。

以下是直播沉淀文字，由极客公园整理。

01「o1」释放了明确的技术信号，但更期待下一个里程碑

张鹏：从去年传出「Q*项目」到现在，OpenAI的强推理模型「o1 系列」终于发布了。实际用下来，「o1」的发布符合你们的预期效果吗？

颜水成：我用 o1 做的第一件事情是，把我女儿做的数学题输进去看结果，o1 的表现令人惊喜。它解题的逻辑顺序、总结的 CoT（Chain of Thoughts，思维链）信息，让人觉得很不一般。

如果是用 GPT-4 或 GPT-4o，只是做下一个 token（词元）的预测，其实我们心里会打鼓、会怀疑：只是做下一个词元的预测，是不是就能实现复杂推理过程。

但 o1 相当于在回答问题之前，先引入用 CoT（思维链）表示的思考过程，把复杂问题先用 planning（规划）的方式将任务拆解，再根据规划的结果一步步细化，最后把所有结果做总结，才得到最终结果。

一个模型的好与不好，关键在于它是不是直觉上能解决问题。GPT-4 和 GPT-4o 还是一种快思考，这种快思考不太适合解决复杂推理问题；但是 o1 是一种慢思考的过程，像人一样思考，更可能解决一个问题，尤其是跟数学、编程或者逻辑有关的问题。o1 所代表的技术路径未来会走得非常远，带来非常大的想象空间。

汪华：我觉得 o1 是一个非常好的工作，水到渠成，符合预期。符合预期是说这个时间点该有成果了，为更高的未来预期打开了通路，但并不 surprise，没有超出预期。

因为这个工作其实从去年就已经有一系列的线索，包括 OpenAI、DeepMind 出的一系列的论文像 Let』s Verify Step by Step (OpenAI, 2023)，以及其他像 Quiet-STaR 和 in-contest reinforce learning 中都有迹可循。

大家用强化学习、包括用合成数据去串 Reward Model（奖励模型）或 Critic Model（评判模型），或者后来用各种各样结构化的推理来提高模型正确率。事实上，无论是 OpenAI、Meta，还是其他大厂，大家现在都已经在做类似的工作，这个方向其实是大家的一个共识。

不光 OpenAI，很多其他模型在数学、编程、推理上都已经有了很大进步，就是因为或多或少用了一部分这方面的技术，但 OpenAI 发布的 o1 是集大成，并且工作做得非常好，而且里面应该有它独特的工程探索。

图片来源：OpenAI 官网

张鹏：预期之内，但还不够惊喜。

汪华：对，整个框架还是在预期范围之内，没有像 GPT-4 或者 GPT-3.5 发布一样带来很大的惊喜。

你会发现 o1 针对推理等各方面性能的增强，还是在一些有明确对与错和封闭结果的领域。比如 o1 展现的代码、学术解题，包括数据分析能力其实都属于有明确信号的领域。

哪怕是在明确领域，比如数学编程的问题，它在做得好的问题上表现非常好，但在一些问题上也做得不太好。也就是说，可能它在训练 Critic Model（评判模型）或者 Reward Model（奖励模型）的时候，对于下游任务的泛化，可能还是遵循物理规律。如果对下游任务覆盖得好，它就做得好；如果覆盖得不好、下游任务没见过这些数据，或者 reward model 没法很好地给予 reward 的时候，它泛化也不一定真的能泛化过去，所以从这个角度来讲，o1 没有特别的超出常识的部分。

我还测了一些更加通用推理的场景，在这些领域，o1 增强得还不太多，很多也没有带来增强的效果。

实际上对 OpenAI 抱持更高的期待是，希望它下一步能做到，把推理泛化到通用领域。

当然现在端出这么一个非常完善的工作，把这件事给做出来，OpenAI 这点还是非常厉害的。而且在跟 OpenAI 的同学聊天时，能感觉到他们在做更难的事情，朝着通用推理的方向在做，只是可能现在还不成熟，所以先放出来对于 signal（技术信号）更明显的阶段性成果，在代码、数学方面的工作。所以我也非常期待，什么时候 OpenAI 能把下一个里程碑也克服了。

02 强化学习不新鲜，「o1」在用强化学习上有创新

张鹏：o1 已经能在一些领域展现出复杂推理的能力，其中很重要的原因是，强化学习在 o1 系列模型里扮演了非常重要的作用。怎么理解强化学习在新一代模型里起的作用？

颜水成：强化学习是一个存在时间蛮长的方向，把这个技术用得最好的团队应该是谷歌 DeepMind，他们一开始就是从这个角度出发，去解决真实世界的实际问题。

我个人觉得强化学习在 o1 里最核心的点，不在于使用强化学习，因为强化学习在 GPT-3.5 里就已经用了PPO（一种强化学习算法），用一个奖励函数去指导 PPO，进而优化模型参数。

强化学习优化一个描述长期累计 rewards 的目标函数，而原先传统算法只是求解损失函数。相当于，在优化 policy action（策略动作）的时候，需要考虑未来所有奖励的总和。

具体来说，像在围棋博弈中，它会用 self-play（自我博弈）的形式去收集 action-status 序列，这个过程自动生成一个奖励值，而不是说去学一个奖励函数。它是直接自动产生出奖励，或者说人工可以定义奖励，用这些奖励就可以把策略学出来，然后逐步提升策略。它最大的特点是整个过程不需要人类干预，不是像 RLHF（根据人类反馈的强化学习），有很多的步骤需要人去反馈。

我觉得其实 o1 跟原来的强化学习有一个最本质的差别。有人认为，o1 的原理可能与斯坦福大学团队 (E Zelikman et al, 2024) 发表的 Quiet-STaR 研究成果最相关。Quiet- STaR 的一个特点是从 CoT（思维链）的角度出发，但是 CoT 并不是一开始就存在。

要做推理问题，原本有最初的文本存在，如果在文本里面再插入一些 CoT 的信息，它就能提升推理效果。

但当我们希望去解决通用的、复杂的推理问题时，大部分的情况下 CoT 是不存在的。那么在强化学习的 pipeline（流程管道）里面，如何把这些 CoT 的信息一步一步生成出来是非常困难的。

这就要问 o1 的模型架构是什么？是一个模型它既可以去做规划，又可以根据规划去生成 CoT，又可以做自我反思（self-reflection），又可以做验证，最后做一个总结，这些所有的事情。还是说其实是好几个模型，一个模型根据信息生成 CoT，另外一个模型做反馈，两个模型相互交互，逐步把结果生成。目前 o1 还不是特别清楚，两种可能都能做，单一模型可能会让整个过程更优雅。第二种可能实现起来会更容易一些。

如何用合适的方式把 CoT（思维链）生成，我觉得这是 o1，跟其他的强化学习区别最大的地方。这里的细节还不是很清楚，如果清楚的话，o1 的黑盒问题可能就解决了。

张鹏：怎么把强化学习运用到这一代推理模型里？是一个单体的超级智能、还是一个集体决策，这些还没有被公开。

颜水成：上一代的强化学习，可能更像下围棋，通过别人已有的棋局，先学了一些东西以后再接着往前走。我觉得要做通用、复杂推理的话，它就会碰到很多从零开始（zero start），可能一开始根本没有 CoT 的数据，这种情况大概怎么去做学习，有待探索。

2015 年，DeepMind 推出了 AlphaGo，这是第一个击败围棋世界冠军的计算机程序，通过强化学习，其后继者 AlphaZero 和 MuZero 基于自我对弈与强化学习的方式，变得越来越通用，能够解决许多不同的游戏以及复杂的现实世界问题，从压缩视频到发现新的更高效的计算机算法。｜图片来源：DeepMind

张鹏：为什么把强化学习放到模型里，成为接下来发展的共识？这个共识是怎么达成的？核心都是要解决什么样的问题？

汪华：技术上有颜老师在。从商业角度，大家还是在讨论模型的智能上限这样一个问题。

举个例子，哪怕是一个员工的应用场景，小学生能干的工种，跟中学生、大学生能干的工种，差别还是非常大的。所以模型的幻觉，或者说模型的复杂指令遵循能力、模型的长链路规划和推理能力，已经制约了模型的进一步商业化，哪怕我不是为了实现 AGI（通用人工智能）。

所以大家早就已经有这个说法了，一开始就有「系统-1」「系统-2」的说法（快思考和慢思考）。基本上预训练相当于知识的压缩，它本身就跟人的直觉一样，没法进行复杂的推理，所以必然要找到一个方法来实现「系统-2」。

在实现「系统-2」的时候，用各种各样的结构化推理，包括用各种各样的强化学习，有一个正好的规划，更稳定的模型输出，更好的指令遵循，包括让模型不光是学会知识本身，包括按什么样的 pipeline（流程管道）去使用知识。比如人类在解决问题 A 时会用思维框架一，解决问题 B 时会用思维框架二。像这些问题怎么来做？大家手里的武器库，其实除了 LLM，就是强化学习。

而且我特别同意颜老师刚刚的说法，具体实现上用了一个模型还是两个模型，只是一个工程问题，但 CoT 的数据从哪里来？包括怎么来实现一些真实世界的模拟和对抗，这个反而是大家一直在试图攻克的难点。代码和数学之所以能被很快地解决，是因为它的信号非常明确，对就是对，错就是错，而且它的步骤合成，合成它的推理 CoT 数据其实是相对比较容易的，奖励或者 Critics（评判）也是相对比较明晰。

颜水成：就相当于说奖励能直接获得。

汪华：更难的就是代码和数学之外，世界上那种复杂的、复合的，甚至开放结果的，没有明确的、绝对对错的，甚至没有唯一执行路径的这些问题怎么办。我觉得把这个问题给解了，难度要比一个模型和两个模型其实要难得多。

颜水成：o1 这个框架里面我觉得应该还是有一个奖励函数存在的，不然就没办法推演到通用的复杂推理。

03「o1」发展下去，更接近一个「超级智能体」张鹏：o1 跟跟此前的 GPT 系列相比，是两个技术方向，可以这么理解吗？

颜水成：对，o1 表现出来的行为不再是下一个 token 的预测了，而更像是一个超级智能体的样子，未来可以处理多模态、可以处理工具，可以处理存储记忆，包括短期和长期的语义记忆。

《思考，快与慢》，诺贝尔经济学奖得主丹尼尔·卡尼曼经典之作，介绍了大脑的两种思维系统：系统 1 快速直觉、系统 2 缓慢理性｜图片来源：视觉中国

我个人是认为 o1 这个技术方向肯定是对的，从 GPT-4 到 o1 的话，其实就是从「系统-1」到「系统-2」的一个转变。今年 5 月我做过一个演讲，AGI 的终局可能是什么东西，当时提到了两个概念，一个概念叫做 Global Workspace（全局工作空间），一个叫超级智能体。

Global Workspace（全局工作空间）在心理学和神经科学领域里的一个理论，是说大脑里除了专用的子系统，比如视觉、语音，触觉等子系统之外，可能还存在一个区域叫做 Global Workspace。

如果「系统-2」，就是多步和多模型的形式一起来完成的话，现在 CoT（思维链）产生的结果，它非常像 Global Workspace 的工作原理。用一个注意力的模型，把文本的、未来多模态的、工具等信息都拉到这个空间，同时也把你的目标和存储的记忆（memory）都拿到这个空间里进行推理，尝试新的策略、再做验证、尝试新的可能性……不停的往前推理，演绎的结果就是最终得到分析的结果。推理时间越长，就相当于在 Global Workspace 里的推演过程越长，最终得到的结果也会越好。

对于复杂的任务无法用「系统-1」（快思考）一竿子到底，就用「系统-2」（慢思考）的 Global Workspace，把信息逐步分解、推演，同时又动态地去获取工具，动态地去获取存储记忆，最后做总结，得到最后的结果。

所以我觉得 o1 发展下去，可能就是「系统-2」（慢思考）的 Global Workspace 的 AI 实现方式，如果用 AI 的语言来描述的话，其实它就像是一个超级智能体。也就是说，o1 发展下去，可能就是一个超级智能体。

04 LLM+RL 的模式，是否可以通向泛化推理？

汪华：强化学习相关的共识其实很早就有，但大家一直也没解决好问题。当年强化学习也很火，还被视作 AGI 的一个通路，包括机器人领域也都是用强化学习，但当时就遇到了这个难题：对于非常明确的任务，奖励函数很好建、任务的模拟器也很好建；但一旦扩展到真实世界的泛化任务时，就没法泛化，或者没法建立能完整模拟真实世界各种各样、复杂奇怪的任务模拟器，也没法去建立对它很好的奖励函数。

您觉得按现在这条 LLM（大语言模型）加上 Reinforcement Learning（强化学习）的模式，不止是在有明确信号的领域比如代码、数学，如果要往泛化推理走的话，要怎么走？

颜水成：一个最大的差别就是，原来的强化学习，它的泛化性能不好。每次可能是专门针对一个游戏、或者一组类似的游戏去学一个策略。但是现在它要做通用的复杂推理，面对所有问题都要有能产生 CoT 的能力，这就会变成是一个巨大数据的问题和工程的问题。

我非常认同汪华的观点，在数学、编程、科学这些问题上，可能比较容易去造一些新的 CoT 数据，但是有一些领域，想要无中生有地生成这些 CoT 数据，难度非常高，或者说还解决得不好。

要解决泛化的问题，数据就要足够多样，但在通用场景的推理泛化问题上，这种 CoT 的数据到底怎么生成？

或者也有可能根本就没有必要，因为那个问题可能已经解决得很好了，你再加 CoT 可能也没有意义，比如说在有一些问题上，可能感觉 o1 没有带来本质的效果提升，可能因为那种问题本来就已经解决得非常不错了。

张鹏：强化学习在下一代的模型里要扮演更重要的作用，会带来什么影响？

汪华：如果大规模采纳这个方案，算力会更短缺，推理会变得更重要。

因为之前说推理成本将来会降 100 倍，现在如果往强化学习的方向发展，推理成本就更需要降了，因为解决问题要消耗更多的推理 token。降低推理价格其实等效于推理速度提升，需要把推理所需的时间压缩下来，很多应用才会变得可用。

第二，模型大小也要变得非常精干，因为如果无限的扩张基模尺寸的话，推理速度会变得更慢、也更昂贵，从商业上来讲就更加不可行了，因为采纳结构化推理，可能要消耗 100 倍的 token 来解决同一个问题。

张鹏：你怎么看 LLM+RL 的前景，推理泛化的路径是清晰的吗？

汪华：o1 之后 AI 的未来怎么发展，其实我相对比较保守，什么事情都做两种打算。

第一种是，我们在很长段时间内没有找到泛化的方法。但即使是这样，我个人认为依然是一个巨大的进步。因为这虽然意味着很多开放的、复合的、非常复杂、模糊的问题上，我们没办法用这个方式来提升，但是商业场景下有大量的问题，比如法律、金融领域，很多问题是封闭的、明确的。在这些问题上可以通过这条路径，去合成数据、去做奖励模型、判别模型（critic model），极大地提高垂直领域的性能，甚至把性能提升从 Copilot（辅助驾驶）提升到 Autopilot（自动驾驶）的地步，这就是一个飞跃性的改变。

无人驾驶汽车｜图片来源：视觉中国

这个场景有点像回到 AI 1.0，但比 AI 1.0 好，因为会针对垂直领域会做出一个个垂直的模型或者一套体系，从商业角度上来说已经是个巨大进步了。现在大家天天忙着做 copilot，没法做 autopilot，就是因为模型不擅长做长推理，一做复杂问题就出错，产生幻觉等问题。

第二种，如果能实现通用模型的话，影响就比较大了。哪怕不一定带来 AGI，它的泛用性、泛化性差、解决问题依然比人差，正确率没有高的，但只要高过普通人的平均水平，那也可以给世界上 70% ~ 80% 的事情带来自动化。你要知道我们很多成年人也做不对奥数题，而且我们自己也有「幻觉」。

05 建立真实世界模拟器：能读万卷书，也能行万里路

张鹏：在今天这个节点看得见希望，但是可能一颗红心两种准备。哪怕不能够完全泛化，今天也能解决很多问题了，比如在专用领域里可以做到通用能力达标。

汪华：对，能不能实现推理泛化，我个人觉得关键在于能否构造一套泛化的「真实世界模拟器」。构建这个真实世界模拟器，可能难点在于数据加上算法等一系列的因素。

因为模型跟人互动，解决这些开放问题的时候，本质上是在跟真实世界互动，真实世界就是那个奖励函数或者判别函数（Critic Model），能不能建立一套新的方法论，能真实地模拟这个真实世界的反馈，而且能脱离人类反馈。

之前的 SFT（精调），包括之前的强化学习本质上是基于人类的反馈（RLHF），这就像 AlphaGo 只是跟着人类棋谱学习，而不能左右互搏，效果肯定是有限的。

构建这个「真实世界模拟器」，可能难点在于数据加上算法等一系列的因素。这个模拟器一旦建立了，模型会产生无限的数据，就像 AlphaGo 互相下棋，它可以下 100 万盘、 1000 万盘、1 亿盘，而且它来判阵输赢，通过输赢的判断去模拟棋道真谛。

张鹏：有点像它是要创造一个真正有效的世界，AI 在里面能「解万道题」，甚至「行万里路」，而不只像原来那样「读万卷书」，这个东西其实最终才能通向更广泛化的意义，而不受限于人类的反馈、等着人类师傅带，成本很高、泛化也很难。

汪华：而且这里面其实在我看来分两个阶段。第一阶段就是 LLM（大语言模型）的阶段，预训练的阶段就是压缩知识，学习人类的知识，而 RL（强化学习）的阶段是练习和摸索思维方式。两个阶段培养两种能力，最后都压缩到这个 LLM 里面的 Latent Space（潜在空间，深度学习中一种数据的低维表示形式）里面。

Sam Altman 在 X 平台称，OpenAI o1 是新范式的开始｜截图来源：X.com

06 Sam Altman 所谓「新范式的开始」，有几分可信

张鹏：作为这次 OpenAI 发的新模型，「o1」不再延续过去 GPT 系列的叫法，比如 GPT 四点几，而是开启了 o 系列新模型代号。同时 Sam Altman 称这是一次新范式的开始。我们怎么理解这个所谓的新范式？

颜水成：如果按照 Global Workspace 这套理论去对照「系统-2」（慢思考）和「系统-2」（快思考），o1 和 GPT-4 是有本质差别的，其中最大的差别在于，它会在解决问题的过程中产生 CoT（思维链）。

一年前有人说 Ilya Sutskever (OpenAI 联合创始人) 在「草莓模型」（o1 之前的代号叫草莓）里发现了一些让人震惊的、可怕的事情。今天可以大概推测，他当时到底在草莓模型里面发现了什么东西。我觉得他发现的就是 AI 的学习过程，RL（强化学习）和 CoT（思维链）相结合，他发现系统具备自己挖掘 CoT（思维链）的能力。

我个人认为，CoT 的过程，不是纯粹从已有的知识里去提取知识。CoT 的过程跟人类的思考过程一样，会展开不同的分析组合，包括验证、自我反思等。CoT 过程结束之后，其实一个新的知识就产生了，因为你其实会对以前的知识进行再加工，可以认为这是一个新知识。

当模型具备自动产生 CoT 的能力，意味着它有知识发现和知识增长的能力，新的知识可以重新完善（refine）模型，也会注入（inject）到模型自我的知识里，AI 就可以实现自我提升（self-improving）的能力。

从这个角度看，o1 如果能够自动地去做挖掘 CoT，它真的就是一个新范式的开始。它不只是提取已有的知识，而是不断地产生新的知识，是一个知识增长的过程，是一个用算力去挖矿的过程，挖掘出新的知识。知识就会越来越多，AI 就能做研究者能做到的很多事情。

张鹏：要这么说的话，人类的科学发展进程也是人类不断产生 CoT 的过程，现在发现模型具备了 CoT 能力，自己能够获得更多知识，也能基于这个知识再优化自己，有了「自我进化」的能力。这可能是新范式代表的含义，当我们要需要模型更有效地解决问题，有赖于它自主产生 CoT 的能力，并能够自我进化。

颜水成：所以有可能，OpenAI 把所有大家问的问题、信息全部都存下来，然后再拿这部分东西训练模型，就可以把模型的能力进一步提升。相当于全世界的人用自己的钱、用他的算力去进行了知识的扩展，然后扩展出来的 CoT 结果，又可以使模型变得越来越强。如果从这个角度来说的话，确实是一种新的范式的开始。

擅长布道和公关的「融资大师」Sam Altman｜图片来源：视觉中国

张鹏：直播间里有观众说得很直接，说 Sam Altman 口中的「新范式」就等于「OpenAI 融资难了，需要有一些新的话术」。你觉得他说的新范式，是一个给大家提高预期、一个信仰充值的东西，还是说会再开启一个所谓的新范式？

汪华：从投资人的角度来讲，现在中美投资人，已经初步过了「为了科学突破而感到激动」要投钱的时间点了，都在忙着看商业化，会看这个东西到底解决什么问题。虽然投资人可能比较俗气，但是过去一年多毕竟也是砸了那么多钱进去，千亿美金的算力、Infra 等都投进去了。

对创业公司或者大语言模型的发展来讲，我个人认为是一个新范式，而且是大家已经期待的新范式。过去的 Scaling Law 每次都要 100 倍的算力（扩张），指数级别的算力增长，然后只得到线性的模型性能提升。这会带来两个问题，第一，怎么再继续扩张（scaling）下去。第二，对于创业公司、研究机构，包括新的 idea 的出现，是一个绝对的扼杀，因为最后只有少数的帝王级企业，才有资格去做这件事。

但「o1」代表的范式，把很多东西拉回来了，世界可以更多元化了。不是说不要 Scaling Law 了，可能新范式下依然是模型越大效果越好。但有了「o1」所代表的新范式，Scaling Law 可以从更小的模型做，而可能这个模型算力提升 10 倍就能看到原先百倍的效果，而不是要指数级别的提升才能看到很多进步，包括对于各种各样的商业化也更友好了。

所以从商业角度来讲，我个人觉得「新范式」是有潜力发生的，而且是必须的。按原来那条 Scaling Law 是一条死路，都不说再 Scaling Law 下去全世界的数据够不够用这个问题，在 Scaling Law 下，全世界还有多少人能做这件事都是问题。

07「o1」打破了预训练的 Scaling Law 瓶颈，商业上解锁了新的可能

颜水成：所以其实最近有不少公司，也基本上觉得纯粹的基础模型的预训练意义已经不大了，因为基本上是 10 亿美金级了。

汪华：而且你就算训练得起，你用得起吗？AI 如果真的要给整个世界带来广泛的进步，本身就需要范式改变，光靠推理成本的下降是撑不住的。

另外从学术的角度来说，我觉得这个范式有的地方变了，有的地方还是没变。现在 o1 模型里的很多问题，包括规划、推理，其实它在产生 CoT 的过程依然还是在做下一个 token 的预测。

生成式 AI 的创业门槛，算力是绕不开的巨额成本｜图片来源：视觉中国

颜水成：因为有很多过程，比如有的在做规划，有的是一小节一小节在做 CoT，有的是在做自我反思（self reflection）。这个过程到底是怎么实现，现在还不是特别清楚。如果就是说按照一个固定的流程，都按照下一个 token 的预测来做，那么 CoT 就是一个 new data 的问题了，但是我是觉得可能不只是一个 new data 的问题。

汪华：对，因为没有细节不知道，但是我在测试模型的时候，还是发现它的推理步骤会有幻觉，中间会有奇怪的推理步骤，但错误的推理步骤却得到了正确的结果，正确的推理步骤下的推理，又飞到天上去了。

我个人觉得新范式是从学术上、科学角度来讲，范式是改变了，但说不定还需要改变更多。

我认同颜老师的观点，知识是 data，推理过程和思维方式其实也是 data。下一个 token 的预测，这个方法也不一定是错的，也不是说一定要摆脱，但是学习关于推理过程和思维方式的 data，是不是有更进一步的一些范式的改变。

张鹏：受限于之前的模型技术，一度觉得很多事都干不了了，现在 o1 之后，又感觉未来有很多事可干，作为一个技术研究者，你觉得有哪些下一步值得探索的方向？

颜水成：以前用 GPT-4 或者 GPT-4o，虽然说能产生出不错的结果、能做不少事情，但是其实在直觉上会感觉，下一个 token 的预测，这个东西好像没有这个能力，或者应该不具备这种能力。所以这个条件下，我们会在 GPT-4o 的基础上，再搭一个 agent，用 agent 去调用大模型、调用现成工具的形式。

虽然 Agent 有潜在可能性去解决这个问题，但是进展不是特别好，因为它还是没有一个比较完美的框架来解决问题，不像刚才提的 Global Workspace 的过程。后者是把信息全合在一起，在这个过程中去做演绎、去做推理、去做验证、去做自我反思。

但是现在有了 o1 就合理了，要得到最后结果，其中有一个思考过程，这个思考过程其实并不是原来常规的大模型，就直接能生成出来。有了这一套范式之后，你给我任何一个问题，我直觉上应该是能用这种方式解决的，无论是复杂推理还是其他，所以会有很多事情可以做。

另外，有了这套范式，那种超级大的模型有可能变得不是那么重要，模型可以做得比较小，但它就能做成一个，模型参数并不是特别大的一个网络架构，但它在推理的时候，能够做得更加复杂。

这种情况下，就不会像以前的 Scaling Law 一样，到了只有 10 万张 H100，才能够真真正正的进入到第一梯队。你可能有几千张卡，就能在一些维度能做到非常好的效果。

原来的 Scaling Law，可能在摧毁很多的创业公司，那么现在可能又会让一波的创业公司要重新的复活，去做各种各样的事情。所以无论是从可行性，还是创业的角度，我觉得机会都比以前要更好，没有进入到一个死胡同。

08 当「o1」通向 autopilot，AI 应用该怎么做？

张鹏：从「o1」模型里看到新的可能性，会对接下来的创业、产品、解决真实世界的问题，带来什么样新的挑战或者机遇？比如一个问题是，「o1」推理的进程肯定比原来拉长了，原来像 GPT-4o 以快为美。

汪华：我觉得这不会成为问题。因为「系统-1」和「系统-2」是共存的关系，并不是说 o1 出来了，GPT-4o 就没有用了。人类在大部分时间其实也是处于「系统-1」（快思考）而不是「系统-2」（慢思考）。

具体还是要看应用类型。比如像 AI 搜索、Character.ai、写作辅助这些应用，大部分场景其实用原来的模型、速度够快就行。产品上也好解决，可以通过意图识别的分类模型，把不同任务分给不同模型。

长期看，如果「o1」更加完满了之后，GPT-4o 所代表的「系统一」和「o1」代表的「系统二」实际上是在两个不同的流水线上。

举个例子，为什么要追求推理速度快？因为我们现在大部分应用是 Copilot。Copilot 的应用当然要快，人就在旁边等着呢。但是如果「o1」未来做得足够好，能带来更高准确度、能解决复杂问题、能很好地实现 agent，它执行的任务可能是 autopilot（自动驾驶）级别的任务的话，你管它多久完成呢。我给同事分派一个任务，也是这个礼拜布置任务，下个礼拜看结果，不会要他立即交。所以如果是 autopilot 的场景，重要的实际上是模型、是这个模式做出来的性能，而不是低时延，更何况推理速度正在进一步提升。

第二，这是一个自适应的问题，如果将来「o1」模型训练得更完满，它的强化学习做得足够充分时，它会根据问题的复杂度和类型，有合适的延迟（latency）和推理时间、和 token 的消耗的。

张鹏：之前 GPT 系列在 Copilot 场景继续发挥优势，反应更快、交互自然，但同时 o1 带来了通向 autopilot 的可能性，以前觉得很难做到的场景，随着强化学习、模型能力的继续优化，有更大概率实现。

图片来源：视觉中国

汪华：对，再具体一点说，「o1」首先能解锁的就是大量企业级应用。

现在哪怕在 SaaS 生态和 AI 进展更成熟的美国，很多企业级应用增长得很快，但目前摘的也都是低垂的果实，应用类型依然跟中国差不多，比如员工的写作辅助、智能搜索，企业知识库、销售支持客服等智能助手类应用。更关键的生产性任务和更复杂的任务，不是企业不想用 AI 来完成，是之前的模型做不到。

第二，也会给 C 端交互类应用带来影响。

在 C 端的交互革命里面，80% ~ 90% 可能都是原来的快速的模型，可能只有 10% 的任务需要调 CoT 模型。所以这个是会有很明确的分野。比如，Meta 的雷朋眼镜如果将来加了多模态，其实大部分的任务也都不是深思熟虑的，而是我看到什么东西它直接给我辅助，执行我的命令。

ToB、ToC，生产力任务、娱乐任务、交互任务其实都是会有 copilot 和 autopilot 明确的分野的，而且会协同。

举个例子，比如说让 C 端应用帮我订张机票，在我和它的交互对话、它向我展示漂亮景点的过程，后台已经帮我比价、调用各种资源做旅行计划了，后台可能就在用新一代推理模型。有时延也没关系，前台多模态的模型跟我聊天、糊弄我、延长我的等待时间，后面的模型在那里勤勤恳恳做 CoT，调用 agents 做推理演绎。收集你的信息，还能给你情绪反馈、提供情绪价值。

张鹏：产品设计的空间，可创新的东西打开了，这其实是让人真正兴奋的。

09「o1」模型可以提升机器人大脑，但具身智能还有自己的卡点

张鹏：o1 的模型对于机器人的能力未来会不会有很大提升？比如像这种 CoT 的能力，未来会对具身智能产生什么样的影响？

颜水成：我觉得会，因为具身智能需要有比较强的推理能力，一次推理，或者一次 CoT 出来的结果可能并不能满足条件，所以它能自我反思或者自我验证非常重要。

例如行走的机器人去完成某些任务，如果它有「系统-2」的过程，输出会更加准确、更加可靠。同时在一些场景，其实让他先想一想，再去做交互，用户也是能接受的。

未来当「o1」拥有多模态能力，它用在具身智能场景会变得更好。

图片来源：视觉中国

汪华：具身智能，现在有三件事都是它的瓶颈。

第一是硬件，硬件本身，包括传感器，依然有很多的瓶颈。

第二是可泛化的运动控制。现在机器人都是基于物理计算，或者是基于单项任务的模拟仿真、强化学习。而人的动作是非常复杂的，可以抓、拧、掏、抠，我们现在其实没有一个在运动控制上的 GPT。

第三，也是现在「o1」能解决的，大脑的问题，运动控制相当于小脑的问题，机器人「大脑」现在也能做，但是「o1」会极大地提高大脑对于运动规划的准确性、可控性、可靠性。

这三个问题要都解决，具身智能才能实现。如果只突破「o1」，没有可泛化的运动控制，依然会受很多限制，因为机器人能进行的动作会非常有限。

另外，我个人觉得这两件事说不定都有同样的瓶颈被卡着，可泛化的运动控制大家也试图用强化学习、模拟学习（Imitation Learning）来做，也缺少大量的数据，就像缺少 CoT 数据一样，缺少大量的真实世界各种各样的运动控制数据，只是：一个是要解决可泛化的运动控制，一个是要解决可泛化的推理。

因为没有一个人在手上带着传感器、脑袋上顶着摄像头，也没有几千万人天天做这些动作，贡献一个互联网级别的一个数据集，所以大家在用模拟器、用强化学习在做。但说不定在一件事情上找到了一些解决方法，另外一件事可以用类似的方法来解决同一个问题。

颜水成：感觉还是不一样，这种数据产生的流程和「o1」产生 CoT 的流程还是有很大差别，可能要当做一个垂域的问题去思考。

汪华：我特别期待强化学习本身的方法论发生一次超进化，把现在强化学习，对于奖励模型泛化的限制取消。

颜水成：因为强化学习本身的算法就比 GPT-4 的优化更难一些。比如强化学习的曲线的损失（loss），基本上一直在剧烈的震荡，但是像 GPT 模型，或者 AI 1.0 时代的判别式模型，曲线基本上非常稳定，所以强化学习做起来的难度或者说要求的领域 know-how 更多。

中国本身做这块的人就蛮少，现在慢慢好一些，但是相比国外做的时间和积累还是要少一些。

张鹏：为什么中国的强化学习这条线会弱一些？上一代 AI，其实就看到了强化学习这个路线。

汪华：强化学习其实各种各样的 paper 都在外面，中国聪明的人也很多，之前之所以做得不好，不是学术上做不出来，而是工程上和累积上，我们投入太低的问题。客观地讲，会有点功利化。之前强化学习（RL）在各个领域里的效果都不是特别明显。

即使是在大模型时代，OpenAI 做了 PPO（一种强化学习算法、由 OpenAI 在 2017 年提出），做了 RL（强化学习），但实际上对于大部分国内的大模型公司来讲，做好 SFT，做好 DPO，其实效果已经跟 RL 非常接近了，提供的增益也不大。

而 RL 做起来很难，非常耗工程，对于算力消耗也是非常明确的，所以在这种对于收益不明确的地方，国内大家的投入还是相对比较保守和谨慎。

保守和谨慎就导致资源的投入，没有足够多的卡，没有足够多的实验，没有足够多的算力让大家去浪费，那这方面的人才就没法积累经验。因为有些东西不写在 paper 里，而是你在训练时一次次训崩的 knowhow。

中国在顶尖科研上的确存在系统性问题——别人探出路来了之后，我们会很有信心去投入资源去趟，但当初不明确的时候，我们不愿意投入。

10 如果 Scaling Law 玩不起，「o1」又是谁要下注的比赛

张鹏：「o1」其实让大家看到一个明确的方向，这是不是意味着大家要在这个方向上更深入地探索？

颜水成：我个人稍微悲观一点，主要原因是有一些细节不像 Sora 出来的时候，从它的技术文档上你就能看得很清楚，它的路线是什么东西。

第二，还是类比 Sora，当时 Transformer，以及后面的 DIT（一种文生视频架构）、扩散模型，是在开源的生态上往前走，创业公司只要去思考数据和工程的问题就可以。

但是这次强化学习，客观上来说，我觉得中国公司里，在大规模场景下，自己有代码库（code base）跑通的就很少，而且没有足够开源社区的支持。吸引人才其实也没有真正有一手经验的人。

所以这两个因素，一是没有大规模 RL 场景和好的 code base 做支撑，二是很多 know-how 的细节不清楚，可能会让追赶的速度比较慢，会比我们追上 GPT-4 所需要的时间更长一些，我觉得哪怕是在美国，优秀的公司要追上的话，也可能是以年为单位。

图片来源：视觉中国

张鹏：你正好提醒我，从 ChatGPT 出来，到国内出现类似 ChatGPT 的应用，大概经历了四五个月的时间，追 GPT-4 可能大概是半年左右，Sora 可能也是经过了大概半年，大概的追赶周期是半年。但追上 o1 这样的能力，可能是要以年为计的难度。汪华怎么看？

汪华：我倒没有那么悲观。

之前那种往上 scaling（扩展）模型尺寸的方法，国内真的追不起，哪怕几家拿到很多投资的创业公司，追到一定程度也就追不动了。哪怕是大厂，我觉得追到一定程度也不见得往下追了，因为国内的目前经济和资本环境也没有那么好。

而且实际上，GPT-4o 其实不好追。虽然 GPT-4o 的模型尺寸比 GPT-4（1.8 万参数）要小很多，但多模态的数据和训练是非常消耗资源的，很吃算力。所以训练 GPT-4o 只会比 GPT 4 更贵。我倒不觉得国内是因为工程原因和学术原因做不出 GPT-4o。

那「o1」会有什么样的一个特点呢？就是它其实「吃」（大量消耗）很多的研究，也「吃」很多的实验，也「吃」很多的探索和 idea 的东西，包括数据的一些构造的技巧等，但「o1」其实不太吃算力。并且它可是可以通过比较小的模型，去实验和模拟的。

我个人觉得，中国公司玩得起，而且 o1 出来了之后，开源社区也玩得起，开源社区不太玩得起 GPT-4o。我觉得，不光是中国公司，开源社区和学术界也会试图在小尺寸的模型上，用各种各样的方法去实现类似的效果，包括一些开源框架。所以中国公司也并不是只是孤单地说我对抗全世界，相当于是中国公司和开源社区一起追赶 OpenAI 的这件事。

张鹏：听起来中国的大模型的创业公司真的辛苦，过去一段时间已经连续铺开好几条阵线，很多东西还在 pipeline 里打磨中，但现在「o1」出来之后要去再去做，资源可能会如何分配？

汪华：客观地讲，不会所有的公司都去追的。有些大模公司会坚持方向，有些大模型公司会转型成产品公司，有些大模型公司可能会选择某个方向做突破口，但首先大厂应该都会去追。

张鹏：也许像 DeepSeek，这种比较「神」的公司也有可能。

汪华：大厂都会去追。创业模型公司里有一部分会去追。

而且，大家在实验的角度应该都会追，因为你要说做出一个特别大的产品模型，那不会做，但在相当于 mini 级别的尺寸里面去夯实强化学习能力，去做这方面的实验，是必然要做的事，只是不一定大家都能做到生产级别。

颜水成：其实有一点，比如说像 GPT-3.5 的时候，PPO 就基本上有很大的收益。其实开源社区也在想办法去复现一些东西，但是并没有谁开源出一个真正意义的 code base（代码库）能被中国公司直接使用。所以我觉得在 RL 上，门槛还是会比想象的要大一点。

汪华：我觉得有两方面原因。

第一，我个人觉得 PPO 的确是工程门槛要高很多。跑 PPO，同时多个模型跑，对算力的要求也消耗也很大，学术界也跑不太动。

还有一部分原因，开源社区当时很大的精力都放在「青春平替版」，发明了 DPO 等一系列东西去做开源平替。开源平替基本上 online PPO，Offline PPO 的确也做到了基本上 90% 的效果。

颜水成：这里面奖励函数非常关键，当年 GPT-3.5 的时候，其实他们是拿 GPT-4 的模型去训练奖励模型，才能保证 PPO 做得比较好。所以如果说模型在强化学习这里，如果要用奖励模型，这个东西本身也是一个瓶颈，不是小模型出来的东西就可以用。

汪华：是的，但开源社区并不仅只有创业公司。

张鹏：有 Meta、阿里，看起来开源领域还是有一些巨头的，如果他们有坚定的目标要给群众发枪，我觉得也 make sense。

汪华：可能的确不会那么快，但是技术扩散是必然的。随着更多的公司，包括国内的大厂，海外的开源社区，学术界去花更多的精力去做 RL（强化学习），其实过去几年在大模型之前，RL 已经非常冷了，无论是 PhD 还是工业界、学术界，其实选择做 RL 方向的人已经很少了，这也是一部分的原因。

如果大家突然觉得这个事靠谱的话，很快大家都用算力，各方面人才就会逐渐地多起来。包括技术扩散也会慢慢地发生，但的确这个门槛要高得多。

颜水成：我原先做 RL 研究的时候，当时一个最大的问题，就是最前沿的算法，code base 都是基于 DeepMind 的 TPU 代码，基于 GPU 的实现当时比较缺乏。现在稍微好一些，很多东西基于 GPU 的东西已经多起来了。

汪华：我甚至觉得 Nvidia、微软都会试图去做这件事，然后甚至是开源他们的框架运营或者投认去做这方面的框架，因为对他们来说最重要的是把算力卖出去。

11「o1」之后，创业者的选择

张鹏：现在创业者经常在谈的一个话题是：技术发展太快，怎么能够随着技术水涨船高，而不是被水漫金山？换句话说，技术涨对我有利，而不要技术一涨我就变得没价值。「o1」出来之后，你会怎么回答这个问题？

颜水成：昆仑万维做大模型的方式还是以产品先行，目前大概有五六个产品，比如说像 AI 搜索、AI 音乐、AI 陪伴、AI 短剧创作和 AI 游戏，有这些具体的产品在前面做牵引，带动我们做基础模型的研发。有一些模型是通用的，有一些模型其实是垂域的，比如说音乐大模型就是垂域的。

我个人觉得，这一波「o1」出来之后，通用模型在原有的模型基础上，增加 RL + CoT 的方式，应该能把性能提升得更好，这肯定要做。

另外，可能更聚焦一些场景，比如精度优先会变得非常重要。举个例子，我们有一个产品是做 AI for research，在天工 APP 里面。有了 CoT 技术，它就能够帮助研究者去思考，在他的研究方向上指明哪一些课题可以探索，而是不是像以前只是给论文做总结、修改语法错误。

最近有人做了一个工作叫「AI scientist」，有了「o1」的这种范式，这种功能就有可能提炼出来了。因为以前是直接一次性生成的，结果是否具有创新性和可行性，不知道，它不能够做任何的分析，现在，在「o1」范式下，有可能把这件事情能做得更好。

图片来源：视觉中国

汪华：因为 o1 也刚刚出来，我也还在测试它的能力。对做模型的同学来说，看到「o1」心里可能会打鼓，但对做应用的同学来说，出了「o1」之后，只可能有增益，不可能有损失，因为又多了一个东西可以用。

另外，我觉得不被「水漫金山」的话，核心还是一点：我们是做 AI 应用的创业者，应用本身、场景本身是主语，AI 只是定语，「水漫金山」往往是把 AI 当主语，没有花很多时间深耕场景、需求和自身的禀赋、优势。

做应用还是场景优先，同时随时观测技术进展，可能没法像 Google 一样自己去开发技术栈，但实际上很多的事情是有迹可循的。哪怕是「o1」的发布，其实之前在 DeepMind 的研究里这条路径是有迹可循的。

在跟技术前沿保持沟通的同时，做重大的工程决策要特别谨慎，因为这跟当年做移动互联网应用不一样，移动互联网时代做应用时，所有的技术栈都是成熟的，关键是能不能找到一个场景的问题。只要找到场景，拉一个产品经理、拉一个工程师，几个大学生也能做出一个爆款应用出来。

坚持快速 PMF 的原则，尽量使用市场上现有的模型来快速完成 PMF，而不是用复杂的工程。如果一个简单的模型要加复杂工程才能做 PMF 的话，那还不如一开始用最贵的、最好的模型去做 PMF，因为 PMF 消耗不了多少 token。在一开始阶段能用 prompt 解决的，就不要用 SFT，能用 SFT 解决的就不要用后训练。不到万不得已，千万不要用针对模型的缺陷去做一个非常复杂的工程 pipeline（流程管道）的补丁去弥补当前的模型缺陷。

张鹏：要穿就穿新衣服，尽量少打补丁，如果真要打补丁，也不要打复杂的补丁，要打简洁的补丁，这可能在早期阶段就变得很重要。而且很重要一点，其实是你要解决的问题才是你的竞争力。只是围着技术非要找个场景落地，可能就本末倒置，思路一定要回到要解决的场景和问题上，这样「水涨船高」的可能性就更大。

科技

卖出68亿，「黑神话」成 Steam 最畅销游戏；魅族产「红旗手机」曝光；「AI Siri」明年 1 月到来；欧盟或对谷歌开出史上最大反垄断罚单，最高达 307 亿美元｜极客早知道

admin 2024年9月23日评论

古尔曼：Apple Intelligence 加持的全新苹果 Siri 有望明年 1 月到来

9 月 22 日，据彭博社记者马克・古尔曼最新发布的 Power On 时事通讯，经过彻底重构、具备 Apple Intelligence 的 Siri 有望比预期更早推出。虽然可能不是完整的体验，但一些功能可能会提前推出。

古尔曼提供了有关 Apple Intelligence 功能发布时间表的一些额外细节，其中包括一个有趣的新细节：一些新的 Siri 功能可能会在 iOS 18.3 中推出，而不是之前预期的 iOS 18.4。

古尔曼称：「iOS 18.4 将是 iOS 18.1 之后的最大更新，其中将包括许多新的 Siri 功能（我听说其中一些功能正考虑在 iOS 18.3 中推出）。」这意味着我们可能会在明年 1 月就能够体验到经过重新设计后的 Siri，因为 iOS x.3 版本的发布通常在 1 月，而 iOS x.4 版本的发布通常在 3 月。

iOS 18.1 将带来第一波 Apple Intelligence 功能，包括轻量级的 Siri 更新（新界面、更快的响应）、写作工具、照片清理和通知摘要。之后，iOS 18.2 预计将带来 Image Playground、Genmoji 以及 ChatGPT 集成。（来源：IT之家）

OpenAI 首款具备「推理」能力模型 o1 现已向企业 / 教育用户开放，每周最多使用 50 次

9 月 22 日，OpenAI 公司旗下首款具备「推理」能力的模型 o1 和 o1-mini 现已向企业版（Enterprise）和教育版（Edu）用户开放访问权限，用户每周最多可输入 50 条消息。

据介绍，OpenAI o1 系列模型具有更高的理解能力，与传统模型不同，o1 系列模型在回答问题之前会进行深度思考，生成内在的思维链后再给出答案，因此系列模型能够处理比之前模型更复杂的任务，特别擅长解决科学、编程和数学领域的难题。

OpenAI 指出，尽管目前 GPT-4o 仍是大多数任务的最佳选择，但 o1 系列在处理复杂、问题解决导向的任务（如研究、策略、编程、数学和科学）方面表现更为优异。

然而，由于 o1 模型「会消耗更多的计算资源」，OpenAI 声称系列模型初期仅向 Plus / Team / Enterprise / Edu 用户限量开放，其中 o1 模型每周最多可使用 50 次，而 o1-mini 模型每天最多可使用 50 次。

而在 API 方面，相关模型访问权限价格较高，其中 o1 的输入词元（tokens）费用为每百万个成本 15 美元（当前约 107 元人民币），输出词元费用为每百万个 60 美元（当前约 427 元人民币），通过 API 调用时，o1 模型每分钟最多可调用 500 次，o1-mini 模型每分钟可调用 1000 次。（来源：IT之家）

欧盟或对谷歌开出史上最大反垄断罚单

9 月 22 日，据最新报道，谷歌的搜索业务可能再次面临欧盟的起诉。欧盟官员正在根据《数字市场法》（DMA）准备对谷歌进行起诉，原因是谷歌未能在搜索服务中突出显示竞争对手的产品，以解决欧盟对其垄断市场的担忧。如果谷歌未能满足欧盟委员会的要求，那么它可能会面临高达全球年收入 10% 的罚款。

此前，欧洲法院宣布维持下级法院作出的 24 亿欧元罚款裁决，该案件始于 2017 年，当时欧盟委员会认定谷歌违反了欧盟反垄断法，并对其处以高额罚款。这次罚款创下了反垄断罚款纪录。

谷歌的律师与欧盟委员会官员本周进行了闭门会谈，讨论可能的解决方案，包括在谷歌搜索标签中引入新设计，使用户可以选择其他搜索平台。然而，如果谷歌未能在规定的时间内满足欧盟的要求，那么它可能会在 10 月底之前公布初步调查结果，并预计在明年 3 月底之前迎来最终裁定。

这已经是谷歌在欧盟面临的第四起反垄断诉讼了，之前的三起案件已经导致谷歌被罚款总计高达 82.5 亿欧元。（来源：中关村在线）

消息称微软每年支付 10 亿美元为 XGP 阵容引入第三方游戏

9 月 22 日，彭博社昨日发布了一份关于微软与 Xbox 现状的综合性报告，其中透露微软每年投入 10 亿美元（当前约 70.51 亿元人民币）将第三方游戏引入 Xbox Game Pass 服务。

据悉，微软为了吸引更多发行商加入 Game Pass 据称「每年为发行商提供数百万美元的预付款」，并分享部分订阅收入，同时承诺「为这些游戏带来难得的曝光机会」，每年微软在引入第三方游戏到 Game Pass 上的投入总和据称高达 10 亿美元。

彭博社同时提到，Xbox Game Pass 现在已经成为了微软沉重的财政负担，但微软依然在不遗余力地推行相关服务。虽然来 Game Pass 订阅价格有所上涨。不过该服务依然在全球玩家中的影响力持续提升，下月的《使命召唤：黑色行动 6》也将为服务订阅量增光添彩。（来源：IT之家）

号称「全民仅退款」电商平台京淘淘被曝「跑路卷走 20 亿」，客服否认称「正排查恶意刷单套现」

9 月 22 日，据「南方都市报」报道，有用户在社交平台发帖称，一款号称「全民仅退款」的电商软件京淘淘疑似「卷款跑路」，仅退款模式或为「庞氏骗局」，引发外界关注。

据网友「梁湘」9 月 18 日发帖，京淘淘购物 App 上线喊出了「全民仅退款」的口号，众多「羊毛党」们就冲进去尝试着购入再申请仅退款，「平台真的退了，而且还给补偿」。平台支持介绍新用户进来，还要给佣金的模式瞬间在羊毛党圈里传开。「然而，等主力人群进入下单收货申请仅退款后，系统显示 30 天后到账，也就是这两天，平台突然跑路了，据称卷走了 20 个亿」。

对于「庞氏骗局」、「卷款跑路」等说法，南方都市报记者 9 月 20 日询问京淘淘平台客服，对方回复没有跑路，「平台发现有用户利用平台活动恶意刷单套现，目前风控部门正在逐单排查」。

对于普通用户的订单是否会受到影响？「仅退款」功能能否正常使用？该客服称，目前风控正在排查风险账户，排查完毕后没有问题的订单会逐步安排退款。但客服并未回应具体退款时间。App 首页则显示，「如全民仅退款订单超 15 天仍未处理，请联系平台客服协助。」（来源：IT之家）

微软亚洲研究院牵手「600 号」，用人工智能干预阿尔茨海默症治疗

9 月 22 日据媒体报道，微软研究院与上海市精神卫生中心（俗称「600 号」）携手展开联合研究，基于微软 Azure OpenAI 服务中的多模态大模型，开发了个性化认知训练框架「忆我」（ReMe），扩展了自动化认知训练的训练范围，为数字化认知训练提供了新方法，有望帮助延缓认知下降。

当前，临床认知训练主要依赖人工或软件驱动的数字疗法，但这些方法存在成本高、缺乏个性化和互动性等问题。

微软亚洲研究院开发的「忆我」框架则通过文字、图像、语音等多种模态的输入输出，提供更全面的认知训练方法，使训练更贴近患者的日常生活。

「忆我」框架通过手机或可穿戴设备上传个人记忆内容，然后进行个性化的情景记忆或世界知识训练。

此外，该工具还包括交互式评估，以追踪患者认知水平，并根据需要调整训练任务。

微软亚洲研究院副院长邱锂力表示，该研究计划针对早期阿尔茨海默病患者，并期望能尽快进入临床应用。同时，微软亚洲研究院也在尝试基于可穿戴设备和无线感知技术记录日常生活中的重要节点和事件，促进更便捷的个性化个人记忆训练。（来源：第一财经）

超越《幻兽帕鲁》：机构数据显示《黑神话：悟空》已成今年最畅销 Steam 游戏

9 月 22 日，国产 3A 大作《黑神话：悟空》发售后受到了广大玩家的高度评价，销量也随之节节攀升，仅在 Steam 平台上的销量就已突破 2000 万份，成绩斐然。

国外数据分析公司 VG Insights 在 X 平台上发布消息称，《黑神话：悟空》已经超越了今年年初大热的《幻兽帕鲁》，成为今年 Steam 平台上最畅销的游戏。

VG Insights 给出的数据显示，当前《黑神话：悟空》在 Steam 平台的预估销量已超过 2030 万份，总收入突破了 9.722 亿美元（当前约 68.55 亿元人民币）。（来源：IT之家）

长安启源 E07 开启预售：SUV 和皮卡相结合，24.99 万元起

9 月 22 日，长安启源 E07 正式开启预售，预售价区间为 24.99 万元至 31.99 万元，并为前 10000 名用户提供价值 6.6 万元的预售权益。启源 E07 基于 SDA 架构打造，新车将 SUV 和皮卡设计结合在一起，提供纯电及增程两种动力形式。

外观设计方面，长安启源 E07 官方称之为「可变形数数智新汽车」，车头配备 C 字形 LED 灯组和全封闭式面板，车顶行李架、半封闭式轮辋和隐藏式门把手等设计元素增添了整车的现代感，尾灯在点亮后呈现环形贯穿式效果。

E07 的车身尺寸为 5045/1996/1695 毫米，轴距为 3120 毫米，采用 5 座设计，提供 20 英寸和 21 英寸轮辋。后备厢设计为封闭式空间，但可电动开启至开放式，并配备电动平翻式尾门。

智能驾驶方面，E07 配备 L2 + 级智驾辅助功能，新车还拥有智慧陪伴功能，是全球首款搭载车载卫星通讯的新车。该车可以选装 200 个主动交互场景，可以升级或者加装 1000 + 项的服务化接口。

悬架系统方面，E07 提供智能魔毯悬架技术，由空气弹簧和 CDC 智算电控系统动态调整，根据路况和驾驶模式自动调节悬架刚度和高度。

高配车型提供 NAPPA 真皮双「零重力」座椅，支持语音控制座椅调节，配备 9 个安全气囊、18 个立体环绕式扬声器、256 色柔光氛围灯、无级调节混合香氛系统、电吸门以及后排车载 3D-PAD 等。（来源：IT之家）

红旗手机真机上手来了：定制 UI 机身标志性红线别具一格

9 月 22 日，今年 8 月，一款型号为 M481R 的 5G 数字移动电话机入网，申请单位和生产企业均为珠海市魅族科技有限公司，彼时，多方消息称该机为红旗手机。

日前，红旗手机真机首次曝光，从上手视频来看，该机采用超大镜头 Deco，后盖加入红旗汽车标志性的红色线条设计，十分吸睛。另外，新机系统 UI 也进行了深度定制，提供红旗智联等应用。

值得一提的是，机身上的标签显示型号为 M481R，且生产企业也为珠海市魅族科技有限公司，与 8 月入网的机型一致。（来源：快科技）

全新 GoPro HERO 入门运动相机国行开售：86 克重量、4K 30FPS 视频，1698 元

9 月 22 日，GoPro 在 9 月 4 日推出了一款定位入门级的「全新 GoPro HERO」运动相机，这款运动相机重量仅为 86 克（包含安装接头），同时具备 5 米防水功能，国行售价 1698 元，将于今晚 8 点现货开售。

Hero 配备了 LCD 触摸屏，内置 12MP 传感器，至高能够拍摄 4K@30FPS 视频或 2.7K@60FPS 慢动作视频以及 12MP 像素的照片。此外，用户还可以通过 Quik 应用从 4K 视频中提取 8MP 的静态图像。

GoPro 表示，全新 HERO 运动相机的视频画面比例为 16:9，非常适合上传到在线视频平台。Quik 应用内置的 HyperSmooth 视频稳定功能能够自动消除抖动，让视频画面更加平稳流畅。在最高视频质量设置下，HERO 一次充电可持续录制长达 100 分钟。（来源：IT之家）

自然指数：AI 研究产出增长最多的 10 家机构有 6 家来自中国

9 月 22 日，据新近发表的英国《自然》增刊「自然指数 2024 人工智能（AI）」显示，2019 年至 2023 年，自然指数中 AI 研究产出增长最多的 10 家机构有 6 家来自中国。” 自然指数 2024AI” 显示了近年该领域令人惊叹的增长速度，以及 AI 研究的主要贡献者。

数据显示，发表在自然指数期刊上的 AI 研究快速增长。2019 年到 2023 年，美国 AI 研究的份额几乎翻了一番，同期中国 AI 研究的份额则增长了五倍多。到 2023 年，美国在 AI 研究上仍居于首位，其他位列前五的国家为中国、德国、英国和法国，但中国和美国之间的差距正在迅速缩小。（来源：新华社）

科技

前苹果设计师 Jony Ive 证实为 OpenAI 开发硬件；长城汽车加入华为鸿蒙生态；X 平台推原创剧

admin 2024年9月22日评论

前苹果设计总监 Jony Ive 确认正与 OpenAI 开发一款新设备，iPhone 元老级人物加盟

9 月 22 日消息，今年 4 月曾有消息称，OpenAI 首席执行官山姆・阿尔特曼（Sam Altman）携手前苹果设计总监乔纳森・伊夫（Jony Ive），联合设计面向个人的 AI 硬件，目前正寻求外部投资。

对此，伊夫本人在纽约时报 9 月 21 日的一篇文章中证实了这一点。

报道称，伊夫是通过 Airbnb 的首席执行官 Brian Chesky 认识阿尔特曼的，该项目则由伊夫和劳伦娜・鲍威尔・乔布斯（乔布斯遗孀）的公司 Emerson Collective 资助。

报道提到，到今年年底，该新公司可能会筹集 10 亿美元（当前约 70.55 亿元人民币）的资金，但报道没有提到软银首席执行官孙正义，去年曾有传言称孙正义向该项目投资 10 亿美元。

该项目目前只有 10 名员工，但其中包括 Tang Tan 和 Evans Hankey，他们是与伊夫一起开发 iPhone 的两个关键人物。至于产品本身是什么，去年有传言说它的灵感来自触摸屏技术和初代 iPhone，不过这一消息暂未证实。（来源：IT 之家）

SpaceX 预告「星际飞船」第五次试验将尝试实现塔架接力

太空探索技术公司（SpaceX）正在德克萨斯州继续为「星际飞船 5 号」飞行做准备，同时等待美国联邦航空局（FAA）的批准，最早应在 11 月下旬获得批准。

在测试了发射塔接力臂后，该公司不久前分享说，它在发射塔上抬起了 232 英尺高的超重型助推器，以模拟塔架接力尝试。

塔架接力是星际飞船快速重复使用的关键，而这次助推器提升是 SpaceX 首次在测试中将巨大的火箭提升到接力所需的全部高度。（来源：cnBeta）

高通公司将根据「多元化战略」裁员数百人

芯片制造商高通公司（Qualcomm）预计将在今年晚些时候裁员，因为该公司正在进行业务和资源的”战略转移”。这使得高通公司成为裁员潮中的新「巨头」，仅今年就解雇了 1000 多名员工。

科技行业正经历着财务业绩方面的困难时期，特别是由于全球市场目前的定位以及消费者的兴趣并不在最佳状态。根据本周发布的一份加州 WARN 通知，高通公司将解雇圣地亚哥的 226 名员工，其中也包括公司总部的人员。

据悉，此次裁员将影响圣地亚哥的 16 个不同设施，但该公司尚未透露受影响的具体部门。

以下是该公司代表发布的对裁员决定的回应，「我们领先的技术和产品组合为我们实施多元化战略奠定了基础。作为正常业务流程的一部分，我们对投资、资源和人才进行优先排序和调整，以确保我们处于最佳位置，能够利用我们面前前所未有的多元化机遇。」（来源：cnBeta）

OpenAI 朝 AI 第 3 阶段迈进，正招募人才组建「多智能体」团队

9 月 21 日消息，OpenAI 在发布 o1 AI 模型之后，下一步会怎么走？该公司研究员诺姆・布朗（Noam Brown）在 X 平台给出了答案，组建「多智能体」multi-agent 研究团队。

根据 OpenAI 公布五级量表，最新推出的 o1 模型处于第二阶段，即所谓的「推理者」（reasoners），而开发 multi-agent 符合第三阶段的目标要求。

OpenAI 和布朗认为 multi-agent 系统是提高人工智能能力的必经之路。布朗在 X 上表示：「我们认为 multi-agent 是通往更好的人工智能推理的道路」。（来源：IT 之家）

长城汽车与华为在营销数智化领域达成全面合作，首批拥抱鸿蒙生态

9 月 22 日消息，据长城汽车消息，2024 年 9 月 20 日，在上海举办的 2024 华为全连接大会上，长城汽车与华为签署营销数智化全面合作协议。

双方的此次合作，旨在围绕长城汽车用户营销域全场景体验旅程，借助华为在云服务、AI、智能联接与交互等方面的技术，在「营销市场洞察、广告公域投放、用户互动交流、售后服务、用车服务、市场生态服务」等重点领域展开深度合作，推进长城汽车营销数智化转型，支撑长城汽车全球业务增长。

与此同时，聚合长城汽车旗下哈弗、魏牌、坦克、欧拉、长城皮卡五品牌车型、服务、用户业务的全新「长城汽车 App」上架鸿蒙应用市场，标志着长城汽车成为首批拥抱鸿蒙生态的主机厂之一。（来源：IT 之家）

TikTok 改组领导层，全球营销主管凯特・贾维里将离职

根据 TikTok 发给员工的内部备忘录，该短视频应用进行了领导层改组，全球营销主管凯特・贾维里 (Kate Jhaveri) 将于本月离开公司。

备忘录显示，TikTok 正在逐步取消贾维里的职位。从下周一开始，TikTok 全球品牌和传播部门的所有员工将只向泽尼娅・穆查 (Zenia Mucha) 汇报工作。

穆查在备忘录中称：「我和贾维里一直在讨论我们的营销策略以及如何最好地构建营销职能，以打造一个更具凝聚力的组织，从而更好地满足业务需求以及跨职能合作伙伴的需求。我们共同决定，实现这一愿景的最佳方式是取消全球营销主管的职位，并将全球品牌与传播部门的所有员工置于一个领导者之下。」（来源：IT 之家）

马斯克 X 平台打造类 TikTok 滚动体验，10 月开播原创节目《The Offseason》

科技媒体 The Verge 昨日发布博文，披露了一份来自 X 平台的电子邮件，其中该公司首席执行官琳达・雅卡里诺（Linda Yaccarino）推出新的「视频标签」（video tab）功能。

援引消息源透露，该功能类似于 TikTok 风格的无尽滚动，并含有 X 原创节目。

首个原创真人秀节目名为《The Offseason》，由足球明星米奇・珀斯（Midge Purce）主持，投资人亚历克西斯・奥哈尼安（Alexis Ohanian）担任制片人。

消息称《The Offseason》将于 10 月 18 日上线首播。

X 一直在与像 MrBeast 这样的创作者和 Don Lemon 这样的名人达成内容协议，旨在加强其在视频领域的支点地位，并挑战 YouTube 作为视频托管平台的地位。（来源：IT 之家）

「前华人首富」、币安创始人赵长鹏确认即将出狱

美国联邦监狱局（Bureauof Prisons）官网消息，赵长鹏当前的位置更新为位于加利福尼亚州中部的长滩居住地重返社会管理局（ResidentialReentry Management，RRM）。这意味着他正接受重返社会前的准备和评估。如果一切正常，他将在 9 月 29 日重返社会。（来源：证券时报）

零刻 SER9 迷你主机海外发布：搭载 AMD 锐龙 AI 9 HX 370 处理器，性能释放达 65W

零刻 SER9 迷你主机已经率先在海外发布，32GB 内存 + 1TB 固态硬盘版本定价 999 美元（当前约 7048 元人民币）。

这款迷你主机搭载了 AMD 新一代 Strix Point 系列 Ryzen AI 9 HX 370 APU，性能释放高达 65W（官方 TDP 范围 15W 至 54W），板载 LPDDR5x-7500 内存，提供两个 PCIe 4.0×4 的 M.2 2280 插槽。

它采用了 MSC 2.0 热处理技术，零刻承诺这款主机在 65W 的模式下可提供「近乎静音」的体验，噪音水平不超过 32 dB。

其他方面，这款机型内置双扬声器，配备 AI 阵列麦克风，提供 RJ45、HDMI 2.1、DP1.4 和 USB4（DP1.3 / 雷电 3）等接口，没有 OCuLink。（来源：IT 之家）

夏普发布 AI Smart Link 可穿戴设备：挂在脖子上的 AI 助手，支持自然语言沟通

在 9 月 17~18 日举行的夏普科技日活动上，夏普宣布与日本京都艺术大学合作，共同开发了一款可实现与生成式 AI 自然沟通的可穿戴设备—— AI Smart Link。

使用者只需将设备挂在脖子上就能通过语音与 AI 自然沟通的产品。对于使用者的询问，该设备会通过内置麦克风和摄像头了解周围环境，然后以语音进行回应。

例如，用户在骑自行车时，AI 就能以语音帮助用户导航到目的地；该设备还可用于烹饪指导或通过语音操作智能家电设备等。

AI Smart Link 搭载了夏普正在开发的边缘 AI 技术「CE- LLM（Communication Edge- LLM）」。该技术能够即时判断并处理使用者的询问，支持快速回应的端侧 AI，以及能获得丰富信息的云端 AI（如 ChatGPT）。此外，该设备采用约 100 克的轻量化颈挂式设计，使用者可以长时间佩戴使用。（来源：IT 之家）

全球首个，我国发布百亿级遥感解译基础模型「空天・灵眸」3.0 版

据综合新华社、《中国科学报》消息，在昨日举行的第一节空天信息技术大会上，中国科学院空天信息创新研究院（下文简称「空天院」）宣布，该院付琨研究员团队联合鹏城实验室自主研制的、全球首个百亿参数级空天一体遥感解译基础模型 ——「空天・灵眸」3.0 版正式发布。

「空天・灵眸」3.0 版可为天临空地一体化应用提供一套行之有效的解决方案。据报道，今年 3 月起，研究团队与鹏城实验室深度合作，基于中国算力网「鹏城云脑 II」枢纽节点，采用 512 张昇腾 910 显卡，历时数月攻关完成了在 4 亿张国产化多模态空天遥感数据样本上的预训练，基础模型参数规模首超百亿。

据空天院研究员孙显介绍，若将基础模型看作机器人，参数就相当于它的「记忆细胞」和「知识细胞」。参数规模越大，就能捕捉、记忆和处理更复杂的信息，从而更加准确、精细地完成更困难、更复杂的任务。

「空天・灵眸」3.0 版采用基于热传导的工作架构，可大幅提升学习及推理速度，计算速度较传统模型提升幅度超过 2.4 倍。

该模型目前已表现出极为优秀的泛化解译性能，在可见光、合成孔径雷达、热红外、多光谱等多传感器卫星数据基础上，拓展至航空遥感飞机、无人机等不同航空平台观测数据的自动化、高精度解译处理。（来源：IT 之家）