Posted in: 科技

从这场智能客服魔法对抗赛上,我看到了AGI落地的正确姿势

刚刚落幕的云栖大会百炼杯「智能好客服」PK 赛现场,上演了一场智能客服领域的「魔法对抗」。

比赛规则很简单,8 支参赛企业赛前卷算法,现场看效果,主办方阿里云提供模型开发平台百炼,选手用各自的解题思路去构建「智能好客服」而好的标准便是把个色人格的消费者都接待满意。

不过,主办方派出的聊天客户,却并非真人。而是同样通过百炼刻意为了「刁难」参赛队伍打造的不同人设 agent:其中,既有讲话错别字连篇还不会网购的阿姨;也有正在气头上的暴躁都市丽人。

只有魔法,才能打败魔法。参赛企业的应对,也堪称教科书级别。

比如冠军云梦科技,靠着一群技术宅团队做出了能应对暴躁都市丽人的 agent。面对买家沟通时的情绪波动,不仅能连续妥善识别应对,甚至还能分清「黄二白」「混油皮」这样的专业美妆术语,并根据买家对产品的特定需求,迅速推荐适合的产品,最后,还能在眼花缭乱的促销活动中,给出用户精准无误的解释。

获得了此次比赛亚军的合力亿捷,则派出了刚进入公司的职场新人,培训了两天不到,就直接通过阿里云百炼平台,让 Agent 就完成了三版迭代,回答的有效性从 80% 提升至 96%。

更「激进」的,是最佳创意奖得主企业云蝠智能,干脆放弃程序员参与,直接派来了公司的财务迎战「退休老大妈」agent,全程负责这次比赛的应用开发。而在此之前,这位财务,仅仅接受了 20 分钟的大模型与提示词培训。

当然,智能客服只是大模型发挥作用的经典场景之一;以此为切口,大赛主办方阿里云试图传达的更深层次意图在于:

大模型,已经真正进入卷应用的时代。

01 为什么是智能客服

关于这场挑战赛,很多人的都有一个疑问,大模型明明有很多炫酷的应用,比如自动驾驶,比如生物制药,为什么要选择智能客服这么一个看起来一点也不性感的方向?

一个基础的行业共识是,大模型应用爆发时代已经来临,每种生意都值得在大模型时代重做一遍。但每种生意的门槛与成本收益比却不尽相同。

图片来源:阿里云

毫无疑问,智能客服会是大模型落地持久战中,一个成本低、收益高的重要赛道,而它的落地场景,也渗透到了日常生活的方方面面。

一方面,智能客服是大模型长文本、多轮对话能力最直接的应用。

另一方面,智能客服背后潜藏的,是一个商业化潜力巨大蓝海市场。IDC 报告《中国智能客服市场份额,2023 :新旧交替,增长可期》中显示,2023 年中国智能客服市场规模已达到 30.8 亿人民币,较上一年增长近 37%。

更重要的是,智能客服场景往往非常垂直,想要进入这个行业,只需要开源模型微调;但想要做好这个行业,在各行各业累积起的独家数据优势则是必不可少的一环。

也是因此,在现实中,面对智能客服机械式的问答,80% 的用户都会选择转接人工。

就以常见的买衣服来说,客服进行推荐时,往往需要用户的身高体重数据,但大部分用户并不能给出一个精准回答,而且有人习惯用公斤有人习惯用斤,有人统计身高数据用厘米,有人用米,三围数据上,更是有人有厘米,有人用尺……

这就需要模型不仅能精准理解用户需求,对用户给出的数据进行统一的单位转化,也需要能够根据判断出的用户需求,做出精准的款式与尺码推荐。

而一旦涉及到更复杂情况,比如用户讲话方言、用户情绪波动、多轮对话,以及用户随时的打断,那么,如何正确理解用户的讲话内容、保证用户的体验,就成了摆在眼前的拦路虎。这中间不仅比拼模型的技术能力,更考验对场景的理解以及对用户需求的精准洞察。

未来的市场很大,眼前的问题也不小,那如何弥合这种技术到落地之间的鸿沟?

这届百炼杯企业级 AI 应用开发挑战赛,百炼平台与浩鲸科技、亚信科技、合力亿捷、贝斯平、云梦智能、汇智智能、煜象科技、云蝠智能在内的 8 家行业知名独立开发商一同,为智能客服落地打了个样。

02 HR 也能做大模型应用,百炼凭什么?

与移动互联网时代,技术成熟与行业爆发之间需要漫长的等待期不同;大模型产业自 OpenAI 正式推出 ChatGPT 的那一天起,商业化就被按下了加速键。

短短两年时间,AI 绘画,AI 陪伴,AI 文案,就以摧枯拉朽之势将无数行业的格局与工作流颠覆,下游应用的爆发,更远远超出了所有人的预期:

数据显示,2030 年中国 AGI 应用市场规模将达到 4543.6 亿元人民币,更为重要的是,AGI 的应用市场还处在加速增长阶段:截至 2024 年 6 月 15 日,中国大模型市场共计发布中标公告 230 个,远超 2023 年全年的 190 个。

在一片蓬勃爆发的广阔蓝海,谁抓住了最多的开发者,谁就拿到了通往未来的门票。

图片来源:视觉中国

而如何培养更多的开发者,则需要一个门槛足够低,低到公司财务与HR也能动手开发的大模型应用开发平台。

2023 年 10 月,阿里云发布了大模型应用服务平台——百炼。通过集成通义以及上百款三方和垂直领域模型 API,并配套相应的开发工具,百炼可以让即使没有模型自研能力的中小企业开发者,也能以「拖拉拽」式的开发方式,在 5 分钟内创建自己的专属 AI 应用。

其中,底层算力上,百炼依托阿里云,可以支持千亿级模型的万级并发推理需求;让开发者把精力更多放在数据、业务、场景创新上。

而在生态侧,上百款大模型 API 接入之外,百炼同时还提供全链路模型服务和丰富的工具箱,并针对不同客户需求,推出了三种不同的大模型应用方式:

针对定制化需求较低,主打「开箱即用」的企业,百炼可以提供通义、Llama、ChatGLM 等在内上百款大模型 API,同时提供百川等系列三方模型的托管服务。

针对有一定定制化需求的微调型用户,百炼则提供从数据管理、模型调优、评测到部署的全链路模型服务。不仅让用户找到最合适的模型,同时让用户的算力支出,实现弹性调用,整个训练过程可视化。

而针对那些想要打造自身 RAG 应用的企业,百炼则提供 Assistant API,用户可在百炼上轻松创建知识库,并一键开启 RAG 应用,通过 Assistant API 联合输出。

不仅是针对不同开发水平的客户给出不同的开发模式;针对特定场景,百炼也推出了不同的落地扶持思路。

就比如针对此次比赛选定的客服场景,往往单一的大模型并不能很好的解决用户意图识别等问题。百炼平台通过提供完整的全链路模型工具,开源、闭源等多种模型选择,参赛者可以自由的选择不同的模型与工具进行组合搭配,以及大模型与小模型的联动,从而集多模型之所长,来更好的回答用户产生的问题。

再比如,应答客服场景中经常出现的专业知识,仅仅依靠模型以及开源数据,无法对做出精准回答,百炼则提供了集成 prompt 优化工具、流程管理工作流、插件等能力,开发者可以通过借助 RAG 搭建专属领域的知识库,来很好解决大模型的「专业知识短板」。

此外,通过高性能的模型调用服务、完整的应用创建流程、支持使用开放架构创建智能体应用,百炼更是做到了零门槛上手,财务也能开发大模型应用。

门槛降下来了,用户规模自然也就涨上去了。

根据云栖大会的最新消息,当前百炼平台服务客户数已达 30 万,其中,付费客户数较上一个季度增长超过 200%。大批开发者放弃私有化部署,直接在百炼上使用与微调各类 AI 大模型,构建自己的大模型应用。迄今为止,百炼已经成为当前市场排名第一的大模型应用服务平台。

03 技术到落地,仍需千锤百炼

不难看出,相比单纯讲述参数堆砌,打榜卷模型,本次比赛更多聚焦到了那些国内最早真正尝试 AI 应用到各行各业的人,以及为企业提供软件定制开发的 ISV 在各行各业深耕探索的开发者,甚至是对技术一无所知的行业一线员工。解决他们大模型落地过程中的开发上手难,产品用户体验等细节问题。

而这也是阿里云今年对外传达出的重要信号:深入产业,才是现下大模型产业最重要的关键词。

事实上,在大模型落地中,类似智能客服的尺码不统一、用户说方言、产品专业壁垒高深这样的问题并非孤例。

如何从上千页的产品说明中找到工程师需要的那一页,如何让财务轻松处理厚厚的票据,用户到底需要精准的正确还是模糊的可能性组合……都是摆在眼前,一个又一个具体而琐碎的问题。

而阿里云的答案是从技术中来,到落地中去,做大模型、做云服务、投资、做 MaaS、办比赛,做标杆,也做基础设施,把自己卷成国内大模型产业链中最努力也最全能的公司,从传统的云计算厂商一步步升级成为大模型时代的基础设施。

一直坚持下去,不只是因为大模型前路似锦,蓝海广阔;更是因为通往未来的路,就是一步步,一点点从解决怎么搭建客服 RAG 这样的小问题中摸索着走出来的。

真正的落地,从来都是一路咬着牙千锤百炼。

*头图来源:阿里云

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

Posted in: 科技

OpenAI 首席技术官突然辞职;Meta 曝光最强 AR 眼镜;铁腕治理,X 半年封禁 500 万账号

OpenAI 首席技术官突然辞职,非营利董事会或被「夺权」

美东时间 9 月 25 日周三,OpenAI 的首席技术官 Mira Murati 突然在社交媒体 X 发帖宣布辞职。她在发给 OpenAI 团队的辞职信中写道,她为在 OpenAI 团队工作六年半感到荣幸,她离开 OpenAI 是因为,希望腾出时间和空间做自己的研究。

Murati 的离职显示,OpenAI 的高级管理层动荡还在持续。创始团队的 11 人中,只剩下两人还留在 OpenAI。

OpenAI CTO Mira Murati|图片来源:CNBC

而在 Murati 宣布离职后,OpenAI 被爆出向营利公司转型的消息。据外媒,OpenAI 正在制定一项计划,要将其核心业务重组为一家营利性的公司,不再由 OpenAI 非营利性董事会控制,此举将让公司对投资者更具吸引力。

更早之前,OpenAI 被爆正在进行最新一轮 65 亿美元的融资,新融资吸引了三家科技巨头微软、苹果、英伟达参与,它可能帮助 OpenAI 的估值在融资前达到 1500 亿美元。(来源:华尔街见闻)

谷歌向欧盟提起诉讼,指控微软在云计算市场存在反竞争行为 

9 月 25 日消息,谷歌于当地时间 9 月 25 日向欧盟委员会正式提起诉讼,指控微软在云计算市场存在反竞争行为。

谷歌称,微软利用不公平的许可条款,通过其占主导地位的 Windows Server 和 Microsoft Office 产品,让大量客户难以使用除 Azure 云基础设施产品以外的任何产品。

比如,微软要求客户在其他云平台上继续使用 Windows Server 时,需支付高达 400% 的溢价,而如果选择微软自家的 Azure 云平台,则无需支付额外费用。此外,微软还对使用其他云平台的客户提供较晚且功能有限的安全更新。

微软还将其协作应用程序 Teams 与云平台捆绑,限制了用户选择。谷歌敦促欧盟委员会进行干预,声称需要采取监管行动结束微软的市场主导地位并恢复竞争平衡。(来源:IT 之家)

 

苹果 Vision Pro 未带飞头显产业后,三星被曝推迟 6 个月生产和销售其 XR 头显 

9 月 25 日消息,韩媒 ETNews 于 9 月 23 日发布博文,报道称鉴于苹果 Vision Pro 头显销量不佳,三星已经决定延后约 6 个月推出自家 XR 头显设备。

三星原本计划在今年年底开始生产,明年年初发售上架,而目前计划已延后到明年第二季度生产和发布。

消息源表示三星推迟 XR 头显上市的一个重要原因,是苹果推出的 Vision Pro 头显遇冷,并未带动 AR / VR 头显市场蓬勃发展,因此三星采取了观望的态度,调整了生产和发布计划。(来源:IT 之家)

 

文远知行与 Uber 达成战略合作,首批自动驾驶车将在阿联酋上线 Uber 

2024 年 9 月 25 日,全球领先的自动驾驶科技公司文远知行 WeRide 和全球最大的移动出行及配送科技公司优步 Uber Technologies, Inc. 宣布建立战略合作伙伴关系,将共同推进文远知行自动驾驶车辆上线 Uber 平台,并将首先在阿联酋启动运营。

双方的合作将于今年年底首先在阿联酋首都阿布扎比正式落地。一批文远知行自动驾驶车辆将上线 Uber App,面向消费者提供服务。合作落地后,当地乘客在使用 Uber App 打车时,可以多一个新的出行选项,即选择乘坐文远知行的自动驾驶车辆来完成行程。双方的合作不涉及美国和中国市场。(来源:节点财经)

阿里妈妈树羊:9 月底淘宝会全面接通微信支付 

鞭牛士 9 月 25 日消息,2024 阿里妈妈双 11 发布会今日举行,会上,阿里妈妈商业化运营中心总经理树羊透露,9 月底淘宝会全面接通微信支付,为今年双 11 的 10 月份预售阶段做准备。

据现场介绍,今年双 11,淘宝会投入 300 亿消费券和红包。(来源:鞭牛士)

 

微信辟谣:刷掌支付无加盟无代理,别被误导 

9 月 25 日消息,微信支付智慧生活官方近日发出严正警告,揭露了一种新型诈骗手段。

据悉,有不法分子冒充「微信支付刷掌加盟」和「微信支付刷掌独家代理」等名义,向公众收取代理及加盟费用。对此,微信支付方面明确表示,此类行为均为诈骗行为。(来源:ITBEAR)

 

百度智能云升级两大 AI 基础设施,文心大模型日调用量超 7 亿次 

9 月 25 日,在 2024 百度云智大会上,百度智能云全面升级百舸 AI 异构计算平台 4.0、千帆大模型平台 3.0 两大 AI 基础设施,并升级代码助手、智能客服、数字人三大 AI 原生应用产品,帮助企业更快、更好、更省地使用大模型。

百度集团执行副总裁、百度智能云事业群总裁沈抖表示,大模型以及配套的算力管理平台、模型和应用开发平台,正在迅速成为新一基础设施。

他表示,「2024 年大模型的产业落地正在加速,目前在千帆大模型平台上,文心大模型日均调用量超过 7 亿次,累计帮助用户精调了 3 万个大模型,开发出 70 多万个企业级应用。过去一年,文心旗舰大模型降价幅度超过 90%,主力模型全面免费,最大限度降低了企业创新试错的成本。」(来源:极客公园)

 

追赶「腾优芒」?爱奇艺将推出微短剧剧场

9 月 25 日,在 2024 爱奇艺 iJOY 秋季悦享会上,爱奇艺创始人、首席执行官龚宇宣布,爱奇艺将推出「微剧场」「短剧场」两个剧场。

现场演示资料显示,「微剧场」内容单集时长在 1-5 分钟左右,以竖屏为主,内容类型包括女频、男频、银发等;「短剧场」的单集时长在 5-20 分钟左右,横屏,内容类型包括古言、现偶、悬疑、其他。两个剧场都支持会员免费看。

爱奇艺首席内容官王晓晖认为,短剧产生了长短视频的第二次融合。「还是由专业的创作者去讲故事,不过把讲故事的方式改变了。第一次融合大家都知道是切片和宣发,但这次大家真正在创作上做了融合。」(来源:贝壳财经)

 

马斯克接管后首份报告出炉:X 平台半年封禁账号超 500 万

9 月 25 日消息,社交媒体巨头 X 平台近日公布了埃隆·马斯克接管后的首份全面透明度报告,深入揭示了该平台在内容管理方面的举措与成效。此份报告为外界提供了 X 在应对不良内容挑战、留住广告商方面的新视角。

报告显示,2024 年上半年,X 平台封禁的账号数量激增,达到近 530 万个,相较于 2022 年同期的 160 万个,增长幅度超过两倍。这一显著举措反映了 X 在维护平台健康环境方面的决心。(来源:ITBEAR)

Meta 发布重磅新品:299 美元的 Quest 3S 头显、AR 眼镜原型、多模态 AI 模型

当地时间 9 月 25 日,在年度开发者大会 Meta Connect 上,Meta 发布了最新款虚拟现实(VR)头显设备 Quest 3S,起售价为 299 美元。这款头显设备将于 10 月 15 日上市,可以用来看电影,也可以运行 VR 健身应用和游戏。

此外,Meta 还发布了多模态大语言模型和 AR 眼镜原型。在消息公布后,Meta 股价短线走高,并创下历史新高。

据介绍,增强现实(AR)眼镜 Orion,暂时只是一款原型产品,短时间内不会出售给消费者,但 Meta 表示,随着公司继续努力,Orion 终会与消费者见面。

扎克伯格还介绍了 Meta 在 AI 方面的进展,该公司最新发布的多模态 AI 模型 LLAMA 3.2,将允许人们通过语音而不止是书面文本进行互动。(来源:财联社)

 

星纪魅族推出新系列品牌「STAR」

9 月 25 日,在星纪魅族 AI 生态发布会上,星纪魅族对其品牌旗下矩阵进行了重新规划,全新品牌矩阵形成,正式推出全新产品系列「STAR」。

根据星纪魅族的规划,以「Flyme AIOS」为技术底座,打造全球化的智能生态产品。分别用 AI 赋能「智能手机」、「XR 智能眼镜」和「汽车」。并把主品牌一分为二即:「星纪 STAR」和「魅族」。

「星纪 STAR」品牌主管智能眼镜和智能汽车;而「魅族」品牌则主管熟悉的 AI 手机和 AI Device。(来源:鲸闻)

苹果获根据用户专注度调整内容头显新专利 以缓解伤痛和其他不适 

近日,美国商标和专利局 (USPTO) 公示了苹果公司获得的一项涉及 Vision Pro(MR) 头显的新专利。专利内容显示,Vision Pro 头显旨在利用混合现实技术帮助用户缓解伤痛和其他不适感,这一技术为医疗健康领域带来了全新的应用前景。(来源:太平洋科技)

扎克伯格财富突破 2000 亿美元,仅位居马斯克和贝索斯之后 

9 月 25 日消息,社交媒体巨头 Meta 首席执行官马克・扎克伯格近日成为全球仅三名身价超过 2000 亿美元(当前约 1.4 万亿元人民币)的富豪之一,与特斯拉首席执行官伊隆・马斯克和亚马逊创始人杰夫・贝索斯并肩。

图片来源:视觉中国

根据彭博亿万富翁指数,今年扎克伯格的财富增长了惊人的 722 亿美元,使其总净资产达到了 2000 亿美元。英伟达首席执行官黄仁勋今年的财富增长排名第二,增加了 580 亿美元马斯克仍以 2680 亿美元的净资产位居榜首,贝索斯紧随其后,拥有 2160 亿美元的财富。(来源:IT 之家)

 

Posted in: 科技

火山引擎丢出视频大模型「王炸」,云厂商从「价格战」回归「卷性能」

自今年 2 月 Sora 面世以来,很多人都期待字节的动作。拥有抖音和剪映这两个最强的视频 App 在手,字节的视频生成大模型,被寄予厚望。

这就来了。

9 月 24 日,字节跳动旗下火山引擎在深圳举办 AI 创新巡展,一举发布了包括「豆包视频生成大模型」「音乐生成大模型」在内的多款模型。

在此之前,海内外不少现象级的同类模型产品相继发布,包括字节跳动相继发布的即梦、海绵音乐,和剪映(含 CapCut)中的新功能。秘而不宣的海绵音乐 App 更是被视为最适合中文的音乐生成 App、国内当之无愧的「Suno」。

字节为什么选择在多少有些「AI 产品看麻了」的 9 月,推出这几款 AI App 背后的大模型引擎?

对此,火山引擎总裁谭待向极客公园表示,不是按照某个固定计划精心设计什么节点发布,AI 模型进展日新月异,什么时候做好、适合对外就尽快发布。

这背后的逻辑是,火山引擎的定位是字节跳动的 ToB 云平台,模型对企业的开放由火山引擎来做,但推出产品前,需要先在内部使用,打磨到一定程度、做到企业级可用,才会向外推出。此前发布的豆包也是如此,先有字节内部推出的产品豆包 App,再有今年 5 月由火山引擎推出企业级可用的豆包大模型。

他补充说:「不一定要抢第一,要推出成熟的产品,因为模型对未来 10 – 20 年影响长远,做好积累后发先至也是好事。」

而火山引擎未来十年要驶向的远方,并不是一个、两个模型比如视频生成模型的领先,而是「成为全球领先的云和 AI 服务商」。

 

01 抖音和剪映加持,字节视频生成大模型更关注使用场景

视频生成大模型,成为整场发布会最大的亮点。

谭待表示,「因为视频特别难,我们一次性推出两个,充分解决视频里面的各种问题」。豆包家族新成员——豆包视频生成-PixelDance、豆包视频生成-Seaweed,正式面向企业市场开启邀测。

从现场展示来看,豆包视频模型可以根据文字和图片的输入,生成相应的视频。值得注意的是,字节跳动并没有公布其模型生成视频的最大时长,尽管后者被认为是体现技术能力的一大表现。

豆包视频生成大模型,更强调其在实际应用中、各种生活和商业场景所需的三个核心功能点。

首先是模型对复杂指令的理解遵循。以下图的视频为例,输入「特写⼀个⼥⼈的面部,有些⽣⽓,戴上了⼀副墨镜;这时⼀个男⼈从画⾯右侧⾛进来抱住了她」。

在这个相对复杂的描述下,豆包模型生成的视频呈现出了一个人情绪的变化、动作前后时间的变化,还出现了一个新的人物,这个新的人物跟原来的人物也有交互。换言之,豆包视频大模型能够根据指令实现时序性上有连续的动作指令,并且可以生成多个主体,并且让多个主体间进行交互。

豆包视频模型的第二个特点在于运镜,⾖包视频模型让视频在主体的⼤动态与镜头中进行切换,拥有变焦、环绕、平摇、缩放、⽬标跟随等多镜头语⾔的实现。

生成的视频可以灵活控制视⻆,更接近真实世界的体验|视频来源:字节跳动

第三个特点则是⼀致性多镜头。在 AI 生成的视频中,如何保证多镜头来回切时,不同主体在来回切换中的镜头是一致的,这也是当前行业的共性难点。

豆包在一个 prompt 下生成的视频,可以实现多个镜头切换,同时保持主体、⻛格、氛围的⼀致性。|来源:字节跳动

在谈及豆包视频生成大模型的特点时,谭待表示,豆包视频大模型背后有两方面优势,一是技术突破和全栈能力等优势,在技术上,字节在这两款视频模型上做了大量技术创新,比如通过⾼效的 DiT 融合计算单元、全新设计的扩散模型训练⽅法和深度优化后的 Transformer 结构,让整个⽣成视频的动作更灵动、镜头更多样、细节更丰满。

同时抖音、剪映对视频的理解也是优势。「剪映对视频的理解、对豆包视频生成模型有帮助,指令遵循做得好也离不开语言模型,豆包是全体系模型,底层有基座模型有助于更好地理解指令。」

在深入到视频场景的解决方案上,豆包视频模型支持不同题材类型,⽀持包括⿊⽩、3d 动画、2d 动画、国画、⽔彩、⽔粉等多种⻛格,包含支持 1:1,3:4,4:3,16:9,9:16,21:9 等多个比例,对应于电影、电视、电脑、手机等多个商业场景。

⾖包视频⽣成模型通过整个模型能把商品快速 3D,而且动态多⻆度展⽰,还能配合不同的节日,比如中秋、七夕、春节等节点快速替换背景和⻛格,⽣成不同尺⼨的内容发布到不同平台上,最终适合整体营销的战略完成。

在更聚焦的场景上,豆包视频模型也推出了更适配的解决方案,⽐如电商营销场景,可以让用户根据商品生成大量的配合营销节点的视频素材,并且适配不同媒体平台的不同尺⼨发布。

在视频发布环节,还有一个彩蛋,火山引擎带来了内部——剪映和即梦如何使用视频⽣成模型的实践案例。从抖音转战剪映 CapCut 的张楠(Kelly)通过数字分身 Kelly 的形式亮相。

在该数字人视频中,Kelly 数字分身的动作像真人一样自然,口型也可以与各国的不同语言完全适配。

这个案例也向外界展示了豆包视频大模型在场景上带来的新可能,比如自媒体、口播、营销、带货、企业培训等,不必亲自上阵进行拍摄,内容制作成本也可以大幅降低。

据悉,豆包视频模型不是期货,最新模型会在国庆节后上线到火山引擎方舟平台,即梦最新内测版已经使用了豆包视频生成模型-Seawe。

至于定价问题,谭待表示还没确定。他称「视频模型和语言模型应用场景不同,定价逻辑也不同。要考虑新体验 – 老体验 – 迁移成本,最终能否广泛应用取决于是否比以前生产力 ROI 提升很多。」

 

02 从「卷」价格,回到「卷」性能

与视频大模型一同发布的,还有音乐大模型、同声传译大模型,和豆包主力模型的新升级。就像豆包视频模型的效果让人眼前一亮,上述模型产品也均有亮眼的性能提升。

这一系列新升级也反应了,火山引擎开始从「卷价格」到「卷性能」的转变,后者将会成为其下一阶段的战略重点。会后接受采访时,火山引擎总裁谭待重申了这一立场,他表示:「大模型的应用成本已经得到很好解决。大模型要从卷价格走向卷性能、卷更好的模型能力和服务」。

早在今年 5 月,火山引擎推出的豆包大模型把价格降至最低每千 token 低于一厘钱,引发了大模型厂商的价格战。从那以来,模型厂商的整体模型调用量均出现了大幅提升。

据火山引擎披露,截至 9 月,豆包语言模型的日均 tokens 使用量超过 1.3 万亿,相比 5 月首次发布时增长超十倍,多模态数据处理量也分别达到每天 5000 万张图片和 85 万小时语音。

尽管如此,模型性能掣肘成为了模型调用量进一步提升的瓶颈,同时也是机会。谭待举例称,业内多家大模型目前最高仅支持 300K 甚至 100K 的 TPM(每分钟 token 数),难以承载企业生产环境流量。例如某科研机构的文献翻译场景,TPM 峰值为 360K,某汽车智能座舱的 TPM 峰值为 420K,某 AI 教育公司的 TPM 峰值更是达到 630K。为此,豆包大模型默认支持 800K 的初始 TPM,超行业平均水平,客户还可根据需求灵活扩容。

此前 MiniMax 创始人闫俊杰向极客公园表示,从技术发展的角度看,模型推理成本 10 倍、百倍的降低是必然,只是时间问题,难的是通用模型的性能提升。

在看到从 ChatGPT 到 GPT-4,性能出现了大幅提升时,大模型领域也沿着 OpenAI 在模型预训练上做 Scaling Law,旨在用更多的数据、加更多的算力、提升模型参数量的做法来提升模型性能。随着这一路径的效率降低、优质数据耗尽的担忧,通过这一方法提升性能的路径陷入瓶颈。

现在,随着 o1 的出现,大模型在推理阶段引入强化学习的路径,带来了进一步提升模型性能的明确路径。

同时,随着更多企业在 AI 应用上的探索,也为模型性能的定向提升带来了很多工程调优手段。更好的模型性能、更好用的模型服务,才能在产品上打开更多场景,而这也将成为包括火山引擎在内的 AI 基础设施服务商们下一阶段的重点。

 

Back to Top