Posted in: 科技

火山引擎丢出视频大模型「王炸」,云厂商从「价格战」回归「卷性能」

自今年 2 月 Sora 面世以来,很多人都期待字节的动作。拥有抖音和剪映这两个最强的视频 App 在手,字节的视频生成大模型,被寄予厚望。

这就来了。

9 月 24 日,字节跳动旗下火山引擎在深圳举办 AI 创新巡展,一举发布了包括「豆包视频生成大模型」「音乐生成大模型」在内的多款模型。

在此之前,海内外不少现象级的同类模型产品相继发布,包括字节跳动相继发布的即梦、海绵音乐,和剪映(含 CapCut)中的新功能。秘而不宣的海绵音乐 App 更是被视为最适合中文的音乐生成 App、国内当之无愧的「Suno」。

字节为什么选择在多少有些「AI 产品看麻了」的 9 月,推出这几款 AI App 背后的大模型引擎?

对此,火山引擎总裁谭待向极客公园表示,不是按照某个固定计划精心设计什么节点发布,AI 模型进展日新月异,什么时候做好、适合对外就尽快发布。

这背后的逻辑是,火山引擎的定位是字节跳动的 ToB 云平台,模型对企业的开放由火山引擎来做,但推出产品前,需要先在内部使用,打磨到一定程度、做到企业级可用,才会向外推出。此前发布的豆包也是如此,先有字节内部推出的产品豆包 App,再有今年 5 月由火山引擎推出企业级可用的豆包大模型。

他补充说:「不一定要抢第一,要推出成熟的产品,因为模型对未来 10 – 20 年影响长远,做好积累后发先至也是好事。」

而火山引擎未来十年要驶向的远方,并不是一个、两个模型比如视频生成模型的领先,而是「成为全球领先的云和 AI 服务商」。

 

01 抖音和剪映加持,字节视频生成大模型更关注使用场景

视频生成大模型,成为整场发布会最大的亮点。

谭待表示,「因为视频特别难,我们一次性推出两个,充分解决视频里面的各种问题」。豆包家族新成员——豆包视频生成-PixelDance、豆包视频生成-Seaweed,正式面向企业市场开启邀测。

从现场展示来看,豆包视频模型可以根据文字和图片的输入,生成相应的视频。值得注意的是,字节跳动并没有公布其模型生成视频的最大时长,尽管后者被认为是体现技术能力的一大表现。

豆包视频生成大模型,更强调其在实际应用中、各种生活和商业场景所需的三个核心功能点。

首先是模型对复杂指令的理解遵循。以下图的视频为例,输入「特写⼀个⼥⼈的面部,有些⽣⽓,戴上了⼀副墨镜;这时⼀个男⼈从画⾯右侧⾛进来抱住了她」。

在这个相对复杂的描述下,豆包模型生成的视频呈现出了一个人情绪的变化、动作前后时间的变化,还出现了一个新的人物,这个新的人物跟原来的人物也有交互。换言之,豆包视频大模型能够根据指令实现时序性上有连续的动作指令,并且可以生成多个主体,并且让多个主体间进行交互。

豆包视频模型的第二个特点在于运镜,⾖包视频模型让视频在主体的⼤动态与镜头中进行切换,拥有变焦、环绕、平摇、缩放、⽬标跟随等多镜头语⾔的实现。

生成的视频可以灵活控制视⻆,更接近真实世界的体验|视频来源:字节跳动

第三个特点则是⼀致性多镜头。在 AI 生成的视频中,如何保证多镜头来回切时,不同主体在来回切换中的镜头是一致的,这也是当前行业的共性难点。

豆包在一个 prompt 下生成的视频,可以实现多个镜头切换,同时保持主体、⻛格、氛围的⼀致性。|来源:字节跳动

在谈及豆包视频生成大模型的特点时,谭待表示,豆包视频大模型背后有两方面优势,一是技术突破和全栈能力等优势,在技术上,字节在这两款视频模型上做了大量技术创新,比如通过⾼效的 DiT 融合计算单元、全新设计的扩散模型训练⽅法和深度优化后的 Transformer 结构,让整个⽣成视频的动作更灵动、镜头更多样、细节更丰满。

同时抖音、剪映对视频的理解也是优势。「剪映对视频的理解、对豆包视频生成模型有帮助,指令遵循做得好也离不开语言模型,豆包是全体系模型,底层有基座模型有助于更好地理解指令。」

在深入到视频场景的解决方案上,豆包视频模型支持不同题材类型,⽀持包括⿊⽩、3d 动画、2d 动画、国画、⽔彩、⽔粉等多种⻛格,包含支持 1:1,3:4,4:3,16:9,9:16,21:9 等多个比例,对应于电影、电视、电脑、手机等多个商业场景。

⾖包视频⽣成模型通过整个模型能把商品快速 3D,而且动态多⻆度展⽰,还能配合不同的节日,比如中秋、七夕、春节等节点快速替换背景和⻛格,⽣成不同尺⼨的内容发布到不同平台上,最终适合整体营销的战略完成。

在更聚焦的场景上,豆包视频模型也推出了更适配的解决方案,⽐如电商营销场景,可以让用户根据商品生成大量的配合营销节点的视频素材,并且适配不同媒体平台的不同尺⼨发布。

在视频发布环节,还有一个彩蛋,火山引擎带来了内部——剪映和即梦如何使用视频⽣成模型的实践案例。从抖音转战剪映 CapCut 的张楠(Kelly)通过数字分身 Kelly 的形式亮相。

在该数字人视频中,Kelly 数字分身的动作像真人一样自然,口型也可以与各国的不同语言完全适配。

这个案例也向外界展示了豆包视频大模型在场景上带来的新可能,比如自媒体、口播、营销、带货、企业培训等,不必亲自上阵进行拍摄,内容制作成本也可以大幅降低。

据悉,豆包视频模型不是期货,最新模型会在国庆节后上线到火山引擎方舟平台,即梦最新内测版已经使用了豆包视频生成模型-Seawe。

至于定价问题,谭待表示还没确定。他称「视频模型和语言模型应用场景不同,定价逻辑也不同。要考虑新体验 – 老体验 – 迁移成本,最终能否广泛应用取决于是否比以前生产力 ROI 提升很多。」

 

02 从「卷」价格,回到「卷」性能

与视频大模型一同发布的,还有音乐大模型、同声传译大模型,和豆包主力模型的新升级。就像豆包视频模型的效果让人眼前一亮,上述模型产品也均有亮眼的性能提升。

这一系列新升级也反应了,火山引擎开始从「卷价格」到「卷性能」的转变,后者将会成为其下一阶段的战略重点。会后接受采访时,火山引擎总裁谭待重申了这一立场,他表示:「大模型的应用成本已经得到很好解决。大模型要从卷价格走向卷性能、卷更好的模型能力和服务」。

早在今年 5 月,火山引擎推出的豆包大模型把价格降至最低每千 token 低于一厘钱,引发了大模型厂商的价格战。从那以来,模型厂商的整体模型调用量均出现了大幅提升。

据火山引擎披露,截至 9 月,豆包语言模型的日均 tokens 使用量超过 1.3 万亿,相比 5 月首次发布时增长超十倍,多模态数据处理量也分别达到每天 5000 万张图片和 85 万小时语音。

尽管如此,模型性能掣肘成为了模型调用量进一步提升的瓶颈,同时也是机会。谭待举例称,业内多家大模型目前最高仅支持 300K 甚至 100K 的 TPM(每分钟 token 数),难以承载企业生产环境流量。例如某科研机构的文献翻译场景,TPM 峰值为 360K,某汽车智能座舱的 TPM 峰值为 420K,某 AI 教育公司的 TPM 峰值更是达到 630K。为此,豆包大模型默认支持 800K 的初始 TPM,超行业平均水平,客户还可根据需求灵活扩容。

此前 MiniMax 创始人闫俊杰向极客公园表示,从技术发展的角度看,模型推理成本 10 倍、百倍的降低是必然,只是时间问题,难的是通用模型的性能提升。

在看到从 ChatGPT 到 GPT-4,性能出现了大幅提升时,大模型领域也沿着 OpenAI 在模型预训练上做 Scaling Law,旨在用更多的数据、加更多的算力、提升模型参数量的做法来提升模型性能。随着这一路径的效率降低、优质数据耗尽的担忧,通过这一方法提升性能的路径陷入瓶颈。

现在,随着 o1 的出现,大模型在推理阶段引入强化学习的路径,带来了进一步提升模型性能的明确路径。

同时,随着更多企业在 AI 应用上的探索,也为模型性能的定向提升带来了很多工程调优手段。更好的模型性能、更好用的模型服务,才能在产品上打开更多场景,而这也将成为包括火山引擎在内的 AI 基础设施服务商们下一阶段的重点。

 

Posted in: 科技

OpenAI 突然推送推送高级语音模式「Her」,又抢了谷歌风头

9 月 25 日早,Google 发布两款新模型 Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002。

在谷歌的系列模型中,Gemini Pro 属于中号模型,付费用户可以使用。而 Gemini Flash 则由 Gemini Pro 蒸馏而来,在今年 5 月的 Google I/O 上第一次亮相,目前用户可以免费在 Gemini 中使用,开发者也有一定免费的 api 使用配额。

模型升级的重点主要为 1.5 Pro 价格降低 >50%、1.5 Flash 的速率限制提高了 2 倍,1.5 Pro 的速率限制提高了约 3 倍、输出速度提高 2 倍,延迟降低 3 倍;过滤器切换为选择加入。

不过,似乎 Google 今天的宣传节点再一次被 OpenAI 提前知晓。OpenAI 同日宣布,OpenAI 的高级语音模式,将在本周对 Plus 和 Team 用户推出。

5 月,Google 发布 Gemini 模型的大更新前,OpenAI 就曾提前抢开发布会,宣布很快会带来高级语音模式,登上媒体头条「个人助理 Her 就要来了吗?」

接下来半年,高级语音模式的发布一再推迟,直至今日 Google 更新模型,OpenAI 立刻表示,本周内将推出语音模型。

除了之前已经剧透过的语音模式与人类在对话中的反应时间相近,会变换语调之外,还增加了个性化指令功能——可以直接指令模型说话说慢点,或者用一个特定的口音,同时可以记住你的名字和提前提供的信息给出更个性化的回复。

X 上有用户不禁感叹,OpenAI 已经养成了一个新爱好。等着 Google 发布一个什么东西,几个小时后马上发布一个新东西。

Google Gemini Pro 价格下降一半

从 Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002 的名字也可以看出,此次 Google Gemini 的更新,不是一个大版本的更新,更多的是一次整体模型的升级。

降低价格是一个重要的更新重点。

Gemini 1.5 Pro 的输入 token 价格降低 64%,输出 token 价格降低 52%,增量缓存 token 价格降低 64%,适用于小于 128K token 的提示语,自 2024 年 10 月 1 日起生效。再加上上下文缓存,这将继续降低使用 Gemini 构建应用的成本。

此外,1.5 Flash 的速率限制从 1000 RPM 提高到 2000 RPM,1.5 Pro 的速率限制从 360 RPM 提高到 1000 RPM。在接下来的几周内生效。

Google 1.5 Flash 得到了 2 倍输出速度和 3 倍更低延迟。

同时,Google 表示,发布的 Gemini 模型,默认不会应用过滤器,开发者可以根据其用例自行决定最佳的配置。Gemini 将继续提供一系列安全过滤器,开发者可以根据需要为 Google 的模型应用这些过滤器。

Google 还表示,此次模型在数学、长上下文窗口和视觉方面取得了一定的进步。

在更具挑战性的 MMLU-Pro 基准测试中,看到大约 7% 的性能提升。而在数学和 HiddenMath(一个内部保留的数学竞赛问题集)基准测试中,两个模型都取得了约 20% 的显著进步。对于视觉和代码使用场景,两个模型在评估视觉理解和 Python 代码生成的测试中表现也更好,提升范围在约 2-7% 之间。

8 月份发布的 Gemini-1.5-Flash-8B 实验模型也得到了新的更新。

Gemini 模型本身的亮点包括长上下文和多模态功能。由于 Gemini Flash 对开发者有部分免费额度,新更新可能对于开发某些应用有着很好的效果。

X 上的 AshutoshSrivastava 就表示,他使用 Google Flash 构建了一个应用,能够在 1 分钟内转写 13 分钟的长音频,且准确度很高(且免费)。在另一个应用中,他表示目标探测功能的表现也很不错。

OpenAI 高级语音功能今日起推出

转头看 OpenAI 这边。

凌晨两点,OpenAI 宣布高级语音模式今日起开始向订阅用户推出,周内会全量进行推送。

根据 OpenAI 的宣传片,与标准语音模式进行区分(黑色旋转球),高级语音将以蓝色旋转球表示,并增加 5 个新语音。

此次发布的一个重要亮点是,OpenAI 表示,高级语音模式可以提供个性化定义。

在视频中,OpenAI的研究员表示,用户可以自定义指令,以让模型以某种口音发音、记住事件以及用户想要如何被称呼等。

「你可以让模型用特定的语速说话,也许是非常清晰地发音,慢慢地说话,定期用你的名字或你喜欢的称呼来称呼你。」研究员表示。

另一位研究员提供了一个例子,对模型输入名字和所在城市,在向模型寻求周末的计划时,模型会根据所在城市,进行更个性化的规划。

高级语音对话目前仅适用于 ChatGPT Plus 和 Team 帐户的用户。免费用户仍然可以访问标准语音模式。

不过,Plus 和 Team 用户每天仍然有高级语音的使用限制,并且每日限制可能会发生变化。当一天的高级语音还剩 15 分钟时,OpenAI 会向用户发出通知。

同时,使用高级语音模式无法使用 GPTs,即用户设计的 OpenAI 的智能体。

高级语音模式因为对语音反应时间更敏感,在某些嘈杂的场景下,也更容易被打断。

最后,OpenAI 还用高级语音模式搞了一个活,表示 ChatGPT 目前可以用五十多种语言表示「对不起,我迟到了,我不是故意让你等这么久的。」

一个很有趣的点是,此次 Gemini 的发布,是由 Google 的 Logan Kilpatrick 主要负责对外沟通交流。

而 Logan Kilpatrick,正是 OpenAI 前开发者关系负责人。2024 年跳槽 Google。

而转头,此次 Google 发布新模型,OpenAI 就卡点发布高级语音模式。

OpenAI 此次宣布的时间点或许还有另外一个意义——此前外媒报道称,Meta 公司本周将在 Meta AI 中推出名人语调的音频对话功能。

在硅谷,AI 的战争还在热火朝天的继续。

 

 

Posted in: 科技

爆火的华为「三折叠」背后,到底隐藏了多少黑科技

作为众所周知的红海市场,智能手机的销量「触顶」已经是被验证多年的事实,正是在这样的时代背景下,还未开售就已经大放异彩的华为 Mate XT 非凡大师,自然收获了更多的好奇与关注。

销量触顶的智能手机市场,需要更多新鲜空气。而最近大火的华为 Mate XT 非凡大师,凭借着独有的三折叠概念,以及极致科技带来的极致使用体验,走出了一条与让智能手机市场耳目一新的曲线。

即使这是一台起售价 19999 元的超高端旗舰手机 、但在尚未发布前预售量就超过 600 万、9 月 20 日正式开售后更是瞬间售罄。

 

三折叠的现象级爆火,背后反映出的是华为 Mate XT 非凡大师作为三折叠手机这一「科技新物种」给用户带来的新鲜感。用户在日复一日的常规形态智能手机迭代中逐渐丧失了换机的兴趣,华为 Mate XT 非凡大师最终呈现出的硬件高水准,让更多用户愿意相信,无论是从功能还是从形态上,都有潜力颠覆现有的智能手机体验。

在华为首发,将三折叠手机从概念带到用户手中背后,其实这个概念也已经伴随折叠屏技术出现多年:每年以 CES 为代表的消费电子科技展会中,都能看到不少三折叠概念机的出现。其中除了以上游屏幕厂商「炫技」为目的的概念机演示,也时有手机厂商参与其中,向外界展示自家在智能手机研发领域的技术积累。

但最终这些都没能真正推向市场,最先拔得头筹的,是华为 Mate XT 非凡大师。

究其原因,从概念机到真正成为量产产品,两者之间的难度有着天壤之别:概念机为了追求极致的震撼效果,往往在其他体验部分有着明显的短板——这些对于概念机来讲无伤大雅,但对量产手机而言,出现任何的细微问题对产品而言都足以致命。

换言之,华为最终成为真正意义上首发三折叠手机的厂商,本身就证明华为在三折叠技术有着深厚的积累,这是比「每年一款概念机」强有力的多的证据。

这幅关于「智能手机的下一次革命」的蓝图,正由华为一点点变成现实。

长期投资「终点再见」

在 9 月 10 日的华为见非凡品牌盛典中,华为消费者业务 CEO、终端 BG 董事长余承东提到华为 Mate XT 非凡大师是华为「五年集大成之作」。

 

这里所指的,显然是华为从 2019 年 Mate X 开始,迄今已经发布的、覆盖了外折、内折多种形态的十余款折叠屏手机。

作为在现有智能手机技术之上,对下一代智能手机概念的探索,三折叠从概念到最终量产,显然并非网络上传播的梗图「两个折叠屏拼起来」那样简单,其难度相比传统折叠屏手机来讲甚至可以用「几何倍增加」来形容。

极客公园了解到,在过去五年,三折叠的探索中,屏幕材质仍然是难点最为集中的硬件领域——三折叠在屏幕材质上存在的一大难题,就是柔性屏幕需要做到双向弯折

在设计屏幕外折结构时,屏幕弯折后位于整机外部,铰链设计需要重点考虑抗拉伸性能;而内折结构时,则需重点考虑抗挤压性能。这两种机械结构在传统折叠屏时代都有数款对应的材料,但却没有一款材料能够同时胜任这两种需求。

面对这种屏幕材料新需求,华为在华为 Mate XT 非凡大师的屏幕上启用了一种采用链状分子结构的多向弯折柔性材料。整体屏幕耐弯折能力提升了 25%,同时也是折叠屏屏幕量产材质首次实现从 -180° 到 +180° 的全向弯折

三折叠的另一个难点在于铰链。

铰链直接决定了折叠屏的开合手感与使用寿命,在三折叠上,由于加入了屏轴联动设计,为了保证铰链有足以支撑机身的强度,过去三折叠概念机全部采用了厚重的结构,让三折叠概念机难以满足日常使用需求。

而华为则是业内唯一一家、过去五年连续在外折叠转轴技术上坚持投资的厂商,最早可以追溯到华为首款折叠屏手机华为 Mate X。

 

在折叠屏技术刚起步的 2019 年,外折相比当时市面上更多手机品牌选择的内折方案,在厚度与重量上都有着明显的优势。但华为最终选择了「技术转向」——华为 Mate X 系列在延续三代后,从华为 Mate X3 开始,变为了当时行业主流的内折设计,外折叠旗舰从此在行业中销声匿迹。

在华为 Mate XT 非凡大师上,华为凭借着在外折与内折两种完全不同的铰链结构上的技术积累「两条腿走路」,最终实现了三折叠展开厚度仅为 3.6 毫米的惊艳表现,同时攻克了屏轴联动的匹配难题,实现了三折叠上内外开合一致的手感。

原本曾被外界普遍认定是,以及行业内独一份的外折叠鹰翼铰链技术,最终在华为 Mate XT 非凡大师上,以这种方式在终点实现了「再会」。

三折叠,不止于「大」

几乎每一个新物种诞生时,现有用户会下意识将其套入现有的产品使用逻辑中,用现有的习惯去臆想未来;也很容易忽视已经近在眼前、存在巨大潜力的契机。

2007 年,初代 iPhone 发布之后,时任微软总裁史蒂夫·鲍尔默嘲笑「智能手机没有未来」的论据是「它都没有键盘,你甚至不能用它来发邮件」。

就是在这样的嘲讽与质疑广为流传中,智能手机的时代悄然揭开帷幕,十七年转瞬即逝,如今世界上再也没有「带键盘的手机」。

智能手机这一产品形态,本身就是以「变革」立身,随着以全触控操作、应用商店、软件服务优先这些超前于时代的设计,在吸引全球无数用户成为忠实拥趸的同时,也在悄无声息地构建着下一个时代的「基础设施」。

到华为 Mate XT 非凡大师的开售,我们仍不自觉地陷入了「缺乏想象力」的窘境中:想象力匮乏是平庸的开始,众多围绕「三折叠有什么用」为主题的激烈争论,很大程度上是这种深层原因的折射。但也确实说明了华为 Mate XT 非凡大师在抢占先机的同时,也承担着解答这一问题的重要使命。

这个问题的解法,或许可以从五年前找到答案:如今的「三折叠有什么用」在具体解法上,与「折叠屏有什么用」并无太大不同,这一问题随着折叠屏技术被整个智能手机行业携手推动,针对折叠屏探索更多使用场景、开发更多专属功能,最终其「智能手机旗舰产品线」的地位也得到了稳固。

折叠屏在高端旗舰领域所取得的成功,很可能只是折叠屏技术真正大规模给智能手机形态带来改变的前哨战:目前折叠屏的杀手锏功能——应用多开、跨应用全局交互,以及应用多层级窗口同时展示这些操作,很大程度是在将原本 PC 端成熟的软件操作逻辑以更大的屏幕作为平台带到手机上

在华为 Mate XT 非凡大师发布会中,余承东也展示了为其定制的配套折叠键盘配件,并提出了「将电脑装进口袋」的口号引爆全场,这又是另一次「打破智能终端形态边界」的尝试,把 PC/Pad 装进口袋。

而华为也已经不是第一次「走入无人区」:作为最早布局折叠屏、也是迄今为止唯一量产三种形态折叠屏手机的厂商,华为在折叠屏市场份额已经高达 67%。

在硬件的基础上,华为还拥有能基于硬件深度定制的鸿蒙 OS 操作系统生态:支撑华为以及开发者在华为 Mate XT 非凡大师这一平台上,探索更多独属于三折叠的未来应用场景。

随着三折叠的量产,毫无疑问,如今的华为已经成为了行业内最有资格对「三折叠有什么用」这一问题给出正确答案并将其变为现实的手机品牌之一。

智能手机的未来

诚然,华为 Mate XT 非凡大师在社交媒体的爆火,其核心是超前其他所有手机厂商的三折叠形态。

但在大部分人的注意力都还停留在「三折叠有什么用」这个问题时,我们更不能忽视问题的本质,其实是来自用户的提问「智能手机还会怎样进化」?

比起三折叠在发售后引发的全民讨论,通过三折叠的硬件与软件的持续探索回答好这个问题,或许才是华为 Mate XT 非凡大师对于智能手机接下来注定会到来的形态变革,所能起到的最重要的意义。

智能手机时代即将迈入第三个十年,折叠屏手机作为一个曾被寄予厚望的概念,如今也随着五年的发展,随着三折叠的走向下一个转折点;谁先拿出并量产新形态智能手机,就能享受到最多的先手优势。

 

如今,关于智能手机的探索再一次走到了十字路口,三折叠所承载的不仅是「门票」,更像是在搭建舞台本身,以及对外展示华为推动行业变革的决心。

对于行业而言,华为从折叠屏探索高端化之路到三折叠的历程,既代表着智能手机形态的变革,也代表着以华为为首的中国品牌,从竞争者到引领者的变迁。

在这样的时代背景下,华为 Mate XT 非凡大师的登场,率先给出了回答;在智能手机进化的探索之路上,华为已经率先「踏入无人之境」。

 

Back to Top