标签：科技

从这场智能客服魔法对抗赛上，我看到了AGI落地的正确姿势

admin 2024年9月27日评论

刚刚落幕的云栖大会百炼杯「智能好客服」PK 赛现场，上演了一场智能客服领域的「魔法对抗」。

比赛规则很简单，8 支参赛企业赛前卷算法，现场看效果，主办方阿里云提供模型开发平台百炼，选手用各自的解题思路去构建「智能好客服」而好的标准便是把个色人格的消费者都接待满意。

不过，主办方派出的聊天客户，却并非真人。而是同样通过百炼刻意为了「刁难」参赛队伍打造的不同人设 agent：其中，既有讲话错别字连篇还不会网购的阿姨；也有正在气头上的暴躁都市丽人。

只有魔法，才能打败魔法。参赛企业的应对，也堪称教科书级别。

比如冠军云梦科技，靠着一群技术宅团队做出了能应对暴躁都市丽人的 agent。面对买家沟通时的情绪波动，不仅能连续妥善识别应对，甚至还能分清「黄二白」「混油皮」这样的专业美妆术语，并根据买家对产品的特定需求，迅速推荐适合的产品，最后，还能在眼花缭乱的促销活动中，给出用户精准无误的解释。

获得了此次比赛亚军的合力亿捷，则派出了刚进入公司的职场新人，培训了两天不到，就直接通过阿里云百炼平台，让 Agent 就完成了三版迭代，回答的有效性从 80% 提升至 96%。

更「激进」的，是最佳创意奖得主企业云蝠智能，干脆放弃程序员参与，直接派来了公司的财务迎战「退休老大妈」agent，全程负责这次比赛的应用开发。而在此之前，这位财务，仅仅接受了 20 分钟的大模型与提示词培训。

当然，智能客服只是大模型发挥作用的经典场景之一；以此为切口，大赛主办方阿里云试图传达的更深层次意图在于：

大模型，已经真正进入卷应用的时代。

01 为什么是智能客服

关于这场挑战赛，很多人的都有一个疑问，大模型明明有很多炫酷的应用，比如自动驾驶，比如生物制药，为什么要选择智能客服这么一个看起来一点也不性感的方向？

一个基础的行业共识是，大模型应用爆发时代已经来临，每种生意都值得在大模型时代重做一遍。但每种生意的门槛与成本收益比却不尽相同。

图片来源：阿里云

毫无疑问，智能客服会是大模型落地持久战中，一个成本低、收益高的重要赛道，而它的落地场景，也渗透到了日常生活的方方面面。

一方面，智能客服是大模型长文本、多轮对话能力最直接的应用。

另一方面，智能客服背后潜藏的，是一个商业化潜力巨大蓝海市场。IDC 报告《中国智能客服市场份额，2023 ：新旧交替，增长可期》中显示，2023 年中国智能客服市场规模已达到 30.8 亿人民币，较上一年增长近 37%。

更重要的是，智能客服场景往往非常垂直，想要进入这个行业，只需要开源模型微调；但想要做好这个行业，在各行各业累积起的独家数据优势则是必不可少的一环。

也是因此，在现实中，面对智能客服机械式的问答，80% 的用户都会选择转接人工。

就以常见的买衣服来说，客服进行推荐时，往往需要用户的身高体重数据，但大部分用户并不能给出一个精准回答，而且有人习惯用公斤有人习惯用斤，有人统计身高数据用厘米，有人用米，三围数据上，更是有人有厘米，有人用尺……

这就需要模型不仅能精准理解用户需求，对用户给出的数据进行统一的单位转化，也需要能够根据判断出的用户需求，做出精准的款式与尺码推荐。

而一旦涉及到更复杂情况，比如用户讲话方言、用户情绪波动、多轮对话，以及用户随时的打断，那么，如何正确理解用户的讲话内容、保证用户的体验，就成了摆在眼前的拦路虎。这中间不仅比拼模型的技术能力，更考验对场景的理解以及对用户需求的精准洞察。

未来的市场很大，眼前的问题也不小，那如何弥合这种技术到落地之间的鸿沟？

这届百炼杯企业级 AI 应用开发挑战赛，百炼平台与浩鲸科技、亚信科技、合力亿捷、贝斯平、云梦智能、汇智智能、煜象科技、云蝠智能在内的 8 家行业知名独立开发商一同，为智能客服落地打了个样。

02 HR 也能做大模型应用，百炼凭什么？

与移动互联网时代，技术成熟与行业爆发之间需要漫长的等待期不同；大模型产业自 OpenAI 正式推出 ChatGPT 的那一天起，商业化就被按下了加速键。

短短两年时间，AI 绘画，AI 陪伴，AI 文案，就以摧枯拉朽之势将无数行业的格局与工作流颠覆，下游应用的爆发，更远远超出了所有人的预期：

数据显示，2030 年中国 AGI 应用市场规模将达到 4543.6 亿元人民币，更为重要的是，AGI 的应用市场还处在加速增长阶段：截至 2024 年 6 月 15 日，中国大模型市场共计发布中标公告 230 个，远超 2023 年全年的 190 个。

在一片蓬勃爆发的广阔蓝海，谁抓住了最多的开发者，谁就拿到了通往未来的门票。

图片来源：视觉中国

而如何培养更多的开发者，则需要一个门槛足够低，低到公司财务与HR也能动手开发的大模型应用开发平台。

2023 年 10 月，阿里云发布了大模型应用服务平台——百炼。通过集成通义以及上百款三方和垂直领域模型 API，并配套相应的开发工具，百炼可以让即使没有模型自研能力的中小企业开发者，也能以「拖拉拽」式的开发方式，在 5 分钟内创建自己的专属 AI 应用。

其中，底层算力上，百炼依托阿里云，可以支持千亿级模型的万级并发推理需求；让开发者把精力更多放在数据、业务、场景创新上。

而在生态侧，上百款大模型 API 接入之外，百炼同时还提供全链路模型服务和丰富的工具箱，并针对不同客户需求，推出了三种不同的大模型应用方式：

针对定制化需求较低，主打「开箱即用」的企业，百炼可以提供通义、Llama、ChatGLM 等在内上百款大模型 API，同时提供百川等系列三方模型的托管服务。

针对有一定定制化需求的微调型用户，百炼则提供从数据管理、模型调优、评测到部署的全链路模型服务。不仅让用户找到最合适的模型，同时让用户的算力支出，实现弹性调用，整个训练过程可视化。

而针对那些想要打造自身 RAG 应用的企业，百炼则提供 Assistant API，用户可在百炼上轻松创建知识库，并一键开启 RAG 应用，通过 Assistant API 联合输出。

不仅是针对不同开发水平的客户给出不同的开发模式；针对特定场景，百炼也推出了不同的落地扶持思路。

就比如针对此次比赛选定的客服场景，往往单一的大模型并不能很好的解决用户意图识别等问题。百炼平台通过提供完整的全链路模型工具，开源、闭源等多种模型选择，参赛者可以自由的选择不同的模型与工具进行组合搭配，以及大模型与小模型的联动，从而集多模型之所长，来更好的回答用户产生的问题。

再比如，应答客服场景中经常出现的专业知识，仅仅依靠模型以及开源数据，无法对做出精准回答，百炼则提供了集成 prompt 优化工具、流程管理工作流、插件等能力，开发者可以通过借助 RAG 搭建专属领域的知识库，来很好解决大模型的「专业知识短板」。

此外，通过高性能的模型调用服务、完整的应用创建流程、支持使用开放架构创建智能体应用，百炼更是做到了零门槛上手，财务也能开发大模型应用。

门槛降下来了，用户规模自然也就涨上去了。

根据云栖大会的最新消息，当前百炼平台服务客户数已达 30 万，其中，付费客户数较上一个季度增长超过 200%。大批开发者放弃私有化部署，直接在百炼上使用与微调各类 AI 大模型，构建自己的大模型应用。迄今为止，百炼已经成为当前市场排名第一的大模型应用服务平台。

03 技术到落地，仍需千锤百炼

不难看出，相比单纯讲述参数堆砌，打榜卷模型，本次比赛更多聚焦到了那些国内最早真正尝试 AI 应用到各行各业的人，以及为企业提供软件定制开发的 ISV 在各行各业深耕探索的开发者，甚至是对技术一无所知的行业一线员工。解决他们大模型落地过程中的开发上手难，产品用户体验等细节问题。

而这也是阿里云今年对外传达出的重要信号：深入产业，才是现下大模型产业最重要的关键词。

事实上，在大模型落地中，类似智能客服的尺码不统一、用户说方言、产品专业壁垒高深这样的问题并非孤例。

如何从上千页的产品说明中找到工程师需要的那一页，如何让财务轻松处理厚厚的票据，用户到底需要精准的正确还是模糊的可能性组合……都是摆在眼前，一个又一个具体而琐碎的问题。

而阿里云的答案是从技术中来，到落地中去，做大模型、做云服务、投资、做 MaaS、办比赛，做标杆，也做基础设施，把自己卷成国内大模型产业链中最努力也最全能的公司，从传统的云计算厂商一步步升级成为大模型时代的基础设施。

一直坚持下去，不只是因为大模型前路似锦，蓝海广阔；更是因为通往未来的路，就是一步步，一点点从解决怎么搭建客服 RAG 这样的小问题中摸索着走出来的。

真正的落地，从来都是一路咬着牙千锤百炼。

*头图来源：阿里云

本文为极客公园原创文章，转载请联系极客君微信 geekparkGO

科技

OpenAI 首席技术官突然辞职；Meta 曝光最强 AR 眼镜；铁腕治理，X 半年封禁 500 万账号

admin 2024年9月27日评论

OpenAI 首席技术官突然辞职，非营利董事会或被「夺权」

美东时间 9 月 25 日周三，OpenAI 的首席技术官 Mira Murati 突然在社交媒体 X 发帖宣布辞职。她在发给 OpenAI 团队的辞职信中写道，她为在 OpenAI 团队工作六年半感到荣幸，她离开 OpenAI 是因为，希望腾出时间和空间做自己的研究。

Murati 的离职显示，OpenAI 的高级管理层动荡还在持续。创始团队的 11 人中，只剩下两人还留在 OpenAI。

OpenAI CTO Mira Murati｜图片来源：CNBC

而在 Murati 宣布离职后，OpenAI 被爆出向营利公司转型的消息。据外媒，OpenAI 正在制定一项计划，要将其核心业务重组为一家营利性的公司，不再由 OpenAI 非营利性董事会控制，此举将让公司对投资者更具吸引力。

更早之前，OpenAI 被爆正在进行最新一轮 65 亿美元的融资，新融资吸引了三家科技巨头微软、苹果、英伟达参与，它可能帮助 OpenAI 的估值在融资前达到 1500 亿美元。（来源：华尔街见闻）

谷歌向欧盟提起诉讼，指控微软在云计算市场存在反竞争行为

9 月 25 日消息，谷歌于当地时间 9 月 25 日向欧盟委员会正式提起诉讼，指控微软在云计算市场存在反竞争行为。

谷歌称，微软利用不公平的许可条款，通过其占主导地位的 Windows Server 和 Microsoft Office 产品，让大量客户难以使用除 Azure 云基础设施产品以外的任何产品。

比如，微软要求客户在其他云平台上继续使用 Windows Server 时，需支付高达 400% 的溢价，而如果选择微软自家的 Azure 云平台，则无需支付额外费用。此外，微软还对使用其他云平台的客户提供较晚且功能有限的安全更新。

微软还将其协作应用程序 Teams 与云平台捆绑，限制了用户选择。谷歌敦促欧盟委员会进行干预，声称需要采取监管行动结束微软的市场主导地位并恢复竞争平衡。（来源：IT 之家）

苹果 Vision Pro 未带飞头显产业后，三星被曝推迟 6 个月生产和销售其 XR 头显

9 月 25 日消息，韩媒 ETNews 于 9 月 23 日发布博文，报道称鉴于苹果 Vision Pro 头显销量不佳，三星已经决定延后约 6 个月推出自家 XR 头显设备。

三星原本计划在今年年底开始生产，明年年初发售上架，而目前计划已延后到明年第二季度生产和发布。

消息源表示三星推迟 XR 头显上市的一个重要原因，是苹果推出的 Vision Pro 头显遇冷，并未带动 AR / VR 头显市场蓬勃发展，因此三星采取了观望的态度，调整了生产和发布计划。（来源：IT 之家）

文远知行与 Uber 达成战略合作，首批自动驾驶车将在阿联酋上线 Uber

2024 年 9 月 25 日，全球领先的自动驾驶科技公司文远知行 WeRide 和全球最大的移动出行及配送科技公司优步 Uber Technologies, Inc. 宣布建立战略合作伙伴关系，将共同推进文远知行自动驾驶车辆上线 Uber 平台，并将首先在阿联酋启动运营。

双方的合作将于今年年底首先在阿联酋首都阿布扎比正式落地。一批文远知行自动驾驶车辆将上线 Uber App，面向消费者提供服务。合作落地后，当地乘客在使用 Uber App 打车时，可以多一个新的出行选项，即选择乘坐文远知行的自动驾驶车辆来完成行程。双方的合作不涉及美国和中国市场。（来源：节点财经）

阿里妈妈树羊：9 月底淘宝会全面接通微信支付

鞭牛士 9 月 25 日消息，2024 阿里妈妈双 11 发布会今日举行，会上，阿里妈妈商业化运营中心总经理树羊透露，9 月底淘宝会全面接通微信支付，为今年双 11 的 10 月份预售阶段做准备。

据现场介绍，今年双 11，淘宝会投入 300 亿消费券和红包。（来源：鞭牛士）

微信辟谣：刷掌支付无加盟无代理，别被误导

9 月 25 日消息，微信支付智慧生活官方近日发出严正警告，揭露了一种新型诈骗手段。

据悉，有不法分子冒充「微信支付刷掌加盟」和「微信支付刷掌独家代理」等名义，向公众收取代理及加盟费用。对此，微信支付方面明确表示，此类行为均为诈骗行为。（来源：ITBEAR）

百度智能云升级两大 AI 基础设施，文心大模型日调用量超 7 亿次

9 月 25 日，在 2024 百度云智大会上，百度智能云全面升级百舸 AI 异构计算平台 4.0、千帆大模型平台 3.0 两大 AI 基础设施，并升级代码助手、智能客服、数字人三大 AI 原生应用产品，帮助企业更快、更好、更省地使用大模型。

百度集团执行副总裁、百度智能云事业群总裁沈抖表示，大模型以及配套的算力管理平台、模型和应用开发平台，正在迅速成为新一基础设施。

他表示，「2024 年大模型的产业落地正在加速，目前在千帆大模型平台上，文心大模型日均调用量超过 7 亿次，累计帮助用户精调了 3 万个大模型，开发出 70 多万个企业级应用。过去一年，文心旗舰大模型降价幅度超过 90%，主力模型全面免费，最大限度降低了企业创新试错的成本。」（来源：极客公园）

追赶「腾优芒」？爱奇艺将推出微短剧剧场

9 月 25 日，在 2024 爱奇艺 iJOY 秋季悦享会上，爱奇艺创始人、首席执行官龚宇宣布，爱奇艺将推出「微剧场」「短剧场」两个剧场。

现场演示资料显示，「微剧场」内容单集时长在 1-5 分钟左右，以竖屏为主，内容类型包括女频、男频、银发等；「短剧场」的单集时长在 5-20 分钟左右，横屏，内容类型包括古言、现偶、悬疑、其他。两个剧场都支持会员免费看。

爱奇艺首席内容官王晓晖认为，短剧产生了长短视频的第二次融合。「还是由专业的创作者去讲故事，不过把讲故事的方式改变了。第一次融合大家都知道是切片和宣发，但这次大家真正在创作上做了融合。」（来源：贝壳财经）

马斯克接管后首份报告出炉：X 平台半年封禁账号超 500 万

9 月 25 日消息，社交媒体巨头 X 平台近日公布了埃隆·马斯克接管后的首份全面透明度报告，深入揭示了该平台在内容管理方面的举措与成效。此份报告为外界提供了 X 在应对不良内容挑战、留住广告商方面的新视角。

报告显示，2024 年上半年，X 平台封禁的账号数量激增，达到近 530 万个，相较于 2022 年同期的 160 万个，增长幅度超过两倍。这一显著举措反映了 X 在维护平台健康环境方面的决心。（来源：ITBEAR）

Meta 发布重磅新品：299 美元的 Quest 3S 头显、AR 眼镜原型、多模态 AI 模型

当地时间 9 月 25 日，在年度开发者大会 Meta Connect 上，Meta 发布了最新款虚拟现实（VR）头显设备 Quest 3S，起售价为 299 美元。这款头显设备将于 10 月 15 日上市，可以用来看电影，也可以运行 VR 健身应用和游戏。

此外，Meta 还发布了多模态大语言模型和 AR 眼镜原型。在消息公布后，Meta 股价短线走高，并创下历史新高。

据介绍，增强现实（AR）眼镜 Orion，暂时只是一款原型产品，短时间内不会出售给消费者，但 Meta 表示，随着公司继续努力，Orion 终会与消费者见面。

扎克伯格还介绍了 Meta 在 AI 方面的进展，该公司最新发布的多模态 AI 模型 LLAMA 3.2，将允许人们通过语音而不止是书面文本进行互动。（来源：财联社）

星纪魅族推出新系列品牌「STAR」

9 月 25 日，在星纪魅族 AI 生态发布会上，星纪魅族对其品牌旗下矩阵进行了重新规划，全新品牌矩阵形成，正式推出全新产品系列「STAR」。

根据星纪魅族的规划，以「Flyme AIOS」为技术底座，打造全球化的智能生态产品。分别用 AI 赋能「智能手机」、「XR 智能眼镜」和「汽车」。并把主品牌一分为二即：「星纪 STAR」和「魅族」。

「星纪 STAR」品牌主管智能眼镜和智能汽车；而「魅族」品牌则主管熟悉的 AI 手机和 AI Device。（来源：鲸闻）

苹果获根据用户专注度调整内容头显新专利以缓解伤痛和其他不适

近日，美国商标和专利局 (USPTO) 公示了苹果公司获得的一项涉及 Vision Pro(MR) 头显的新专利。专利内容显示，Vision Pro 头显旨在利用混合现实技术帮助用户缓解伤痛和其他不适感，这一技术为医疗健康领域带来了全新的应用前景。（来源：太平洋科技）

扎克伯格财富突破 2000 亿美元，仅位居马斯克和贝索斯之后

9 月 25 日消息，社交媒体巨头 Meta 首席执行官马克・扎克伯格近日成为全球仅三名身价超过 2000 亿美元（当前约 1.4 万亿元人民币）的富豪之一，与特斯拉首席执行官伊隆・马斯克和亚马逊创始人杰夫・贝索斯并肩。

图片来源：视觉中国

根据彭博亿万富翁指数，今年扎克伯格的财富增长了惊人的 722 亿美元，使其总净资产达到了 2000 亿美元。英伟达首席执行官黄仁勋今年的财富增长排名第二，增加了 580 亿美元马斯克仍以 2680 亿美元的净资产位居榜首，贝索斯紧随其后，拥有 2160 亿美元的财富。（来源：IT 之家）

科技

火山引擎丢出视频大模型「王炸」，云厂商从「价格战」回归「卷性能」

admin 2024年9月27日评论

自今年 2 月 Sora 面世以来，很多人都期待字节的动作。拥有抖音和剪映这两个最强的视频 App 在手，字节的视频生成大模型，被寄予厚望。

这就来了。

9 月 24 日，字节跳动旗下火山引擎在深圳举办 AI 创新巡展，一举发布了包括「豆包视频生成大模型」「音乐生成大模型」在内的多款模型。

在此之前，海内外不少现象级的同类模型产品相继发布，包括字节跳动相继发布的即梦、海绵音乐，和剪映（含 CapCut）中的新功能。秘而不宣的海绵音乐 App 更是被视为最适合中文的音乐生成 App、国内当之无愧的「Suno」。

字节为什么选择在多少有些「AI 产品看麻了」的 9 月，推出这几款 AI App 背后的大模型引擎？

对此，火山引擎总裁谭待向极客公园表示，不是按照某个固定计划精心设计什么节点发布，AI 模型进展日新月异，什么时候做好、适合对外就尽快发布。

这背后的逻辑是，火山引擎的定位是字节跳动的 ToB 云平台，模型对企业的开放由火山引擎来做，但推出产品前，需要先在内部使用，打磨到一定程度、做到企业级可用，才会向外推出。此前发布的豆包也是如此，先有字节内部推出的产品豆包 App，再有今年 5 月由火山引擎推出企业级可用的豆包大模型。

他补充说：「不一定要抢第一，要推出成熟的产品，因为模型对未来 10 – 20 年影响长远，做好积累后发先至也是好事。」

而火山引擎未来十年要驶向的远方，并不是一个、两个模型比如视频生成模型的领先，而是「成为全球领先的云和 AI 服务商」。

01 抖音和剪映加持，字节视频生成大模型更关注使用场景

视频生成大模型，成为整场发布会最大的亮点。

谭待表示，「因为视频特别难，我们一次性推出两个，充分解决视频里面的各种问题」。豆包家族新成员——豆包视频生成-PixelDance、豆包视频生成-Seaweed，正式面向企业市场开启邀测。

从现场展示来看，豆包视频模型可以根据文字和图片的输入，生成相应的视频。值得注意的是，字节跳动并没有公布其模型生成视频的最大时长，尽管后者被认为是体现技术能力的一大表现。

豆包视频生成大模型，更强调其在实际应用中、各种生活和商业场景所需的三个核心功能点。

首先是模型对复杂指令的理解遵循。以下图的视频为例，输入「特写⼀个⼥⼈的面部，有些⽣⽓，戴上了⼀副墨镜；这时⼀个男⼈从画⾯右侧⾛进来抱住了她」。

在这个相对复杂的描述下，豆包模型生成的视频呈现出了一个人情绪的变化、动作前后时间的变化，还出现了一个新的人物，这个新的人物跟原来的人物也有交互。换言之，豆包视频大模型能够根据指令实现时序性上有连续的动作指令，并且可以生成多个主体，并且让多个主体间进行交互。

豆包视频模型的第二个特点在于运镜，⾖包视频模型让视频在主体的⼤动态与镜头中进行切换，拥有变焦、环绕、平摇、缩放、⽬标跟随等多镜头语⾔的实现。

生成的视频可以灵活控制视⻆，更接近真实世界的体验｜视频来源：字节跳动

第三个特点则是⼀致性多镜头。在 AI 生成的视频中，如何保证多镜头来回切时，不同主体在来回切换中的镜头是一致的，这也是当前行业的共性难点。

豆包在一个 prompt 下生成的视频，可以实现多个镜头切换，同时保持主体、⻛格、氛围的⼀致性。｜来源：字节跳动

在谈及豆包视频生成大模型的特点时，谭待表示，豆包视频大模型背后有两方面优势，一是技术突破和全栈能力等优势，在技术上，字节在这两款视频模型上做了大量技术创新，比如通过⾼效的 DiT 融合计算单元、全新设计的扩散模型训练⽅法和深度优化后的 Transformer 结构，让整个⽣成视频的动作更灵动、镜头更多样、细节更丰满。

同时抖音、剪映对视频的理解也是优势。「剪映对视频的理解、对豆包视频生成模型有帮助，指令遵循做得好也离不开语言模型，豆包是全体系模型，底层有基座模型有助于更好地理解指令。」

在深入到视频场景的解决方案上，豆包视频模型支持不同题材类型，⽀持包括⿊⽩、3d 动画、2d 动画、国画、⽔彩、⽔粉等多种⻛格，包含支持 1:1，3:4，4:3，16:9，9:16，21:9 等多个比例，对应于电影、电视、电脑、手机等多个商业场景。

⾖包视频⽣成模型通过整个模型能把商品快速 3D，而且动态多⻆度展⽰，还能配合不同的节日，比如中秋、七夕、春节等节点快速替换背景和⻛格，⽣成不同尺⼨的内容发布到不同平台上，最终适合整体营销的战略完成。

在更聚焦的场景上，豆包视频模型也推出了更适配的解决方案，⽐如电商营销场景，可以让用户根据商品生成大量的配合营销节点的视频素材，并且适配不同媒体平台的不同尺⼨发布。

在视频发布环节，还有一个彩蛋，火山引擎带来了内部——剪映和即梦如何使用视频⽣成模型的实践案例。从抖音转战剪映 CapCut 的张楠（Kelly）通过数字分身 Kelly 的形式亮相。

在该数字人视频中，Kelly 数字分身的动作像真人一样自然，口型也可以与各国的不同语言完全适配。

这个案例也向外界展示了豆包视频大模型在场景上带来的新可能，比如自媒体、口播、营销、带货、企业培训等，不必亲自上阵进行拍摄，内容制作成本也可以大幅降低。

据悉，豆包视频模型不是期货，最新模型会在国庆节后上线到火山引擎方舟平台，即梦最新内测版已经使用了豆包视频生成模型-Seawe。

至于定价问题，谭待表示还没确定。他称「视频模型和语言模型应用场景不同，定价逻辑也不同。要考虑新体验 – 老体验 – 迁移成本，最终能否广泛应用取决于是否比以前生产力 ROI 提升很多。」

02 从「卷」价格，回到「卷」性能

与视频大模型一同发布的，还有音乐大模型、同声传译大模型，和豆包主力模型的新升级。就像豆包视频模型的效果让人眼前一亮，上述模型产品也均有亮眼的性能提升。

这一系列新升级也反应了，火山引擎开始从「卷价格」到「卷性能」的转变，后者将会成为其下一阶段的战略重点。会后接受采访时，火山引擎总裁谭待重申了这一立场，他表示：「大模型的应用成本已经得到很好解决。大模型要从卷价格走向卷性能、卷更好的模型能力和服务」。

早在今年 5 月，火山引擎推出的豆包大模型把价格降至最低每千 token 低于一厘钱，引发了大模型厂商的价格战。从那以来，模型厂商的整体模型调用量均出现了大幅提升。

据火山引擎披露，截至 9 月，豆包语言模型的日均 tokens 使用量超过 1.3 万亿，相比 5 月首次发布时增长超十倍，多模态数据处理量也分别达到每天 5000 万张图片和 85 万小时语音。

尽管如此，模型性能掣肘成为了模型调用量进一步提升的瓶颈，同时也是机会。谭待举例称，业内多家大模型目前最高仅支持 300K 甚至 100K 的 TPM（每分钟 token 数），难以承载企业生产环境流量。例如某科研机构的文献翻译场景，TPM 峰值为 360K，某汽车智能座舱的 TPM 峰值为 420K，某 AI 教育公司的 TPM 峰值更是达到 630K。为此，豆包大模型默认支持 800K 的初始 TPM，超行业平均水平，客户还可根据需求灵活扩容。

此前 MiniMax 创始人闫俊杰向极客公园表示，从技术发展的角度看，模型推理成本 10 倍、百倍的降低是必然，只是时间问题，难的是通用模型的性能提升。

在看到从 ChatGPT 到 GPT-4，性能出现了大幅提升时，大模型领域也沿着 OpenAI 在模型预训练上做 Scaling Law，旨在用更多的数据、加更多的算力、提升模型参数量的做法来提升模型性能。随着这一路径的效率降低、优质数据耗尽的担忧，通过这一方法提升性能的路径陷入瓶颈。

现在，随着 o1 的出现，大模型在推理阶段引入强化学习的路径，带来了进一步提升模型性能的明确路径。

同时，随着更多企业在 AI 应用上的探索，也为模型性能的定向提升带来了很多工程调优手段。更好的模型性能、更好用的模型服务，才能在产品上打开更多场景，而这也将成为包括火山引擎在内的 AI 基础设施服务商们下一阶段的重点。

OpenAI 首席技术官突然辞职，非营利董事会或被「夺权」

谷歌向欧盟提起诉讼，指控微软在云计算市场存在反竞争行为

苹果 Vision Pro 未带飞头显产业后，三星被曝推迟 6 个月生产和销售其 XR 头显

文远知行与 Uber 达成战略合作，首批自动驾驶车将在阿联酋上线 Uber

阿里妈妈树羊：9 月底淘宝会全面接通微信支付

微信辟谣：刷掌支付无加盟无代理，别被误导

百度智能云升级两大 AI 基础设施，文心大模型日调用量超 7 亿次

追赶「腾优芒」？爱奇艺将推出微短剧剧场

马斯克接管后首份报告出炉：X 平台半年封禁账号超 500 万

Meta 发布重磅新品：299 美元的 Quest 3S 头显、AR 眼镜原型、多模态 AI 模型

星纪魅族推出新系列品牌「STAR」

苹果获根据用户专注度调整内容头显新专利 以缓解伤痛和其他不适

扎克伯格财富突破 2000 亿美元，仅位居马斯克和贝索斯之后

01 抖音和剪映加持，字节视频生成大模型更关注使用场景

02 从「卷」价格，回到「卷」性能

苹果获根据用户专注度调整内容头显新专利以缓解伤痛和其他不适