Posted in: 科技

OpenAI 发布实时 API,AI 实时语音时代如何抢占风口?

10 月 2 日,OpenAI 发布了实时 API 公开测试版,用于构建基于 GPT-4o 语音到语音的 AI 应用和智能体。这是 GPT-4o 发布之后,OpenAI 在实时语音交互能力上的最新进展。

 

GPT-4o 所展现出的实时语音交互能力让外界印象深刻。而这很大程度上归功于 GPT-4o 大幅降低的语音延迟,平均 320 毫秒的反应时间,让 AI 与人的对话第一次接近了人类真实对话间的反应速率。同时其语气和情感模拟,也更加深 AI 与人类沟通之间的沉浸感。

而国庆假期间,OpenAI 发布的实时 API 公开测试版,则瞄准了 GPT-4o 语音到语音的 AI 应用和智能体,这像是给所以 AI 应用开发者的一个信号,大模型发展近两年后,基于声音的实时对话式 AI 场景或许会开始变的瞩目起来。

OpenAI 这次也公布了三家语音 API 合作者的身份:LiveKit、Twilio,以及 Agora。值得一提的是,前几年曾经爆火的 ClubHouse,背后的技术提供方就是 Agora,其兄弟公司声网则在国内更为人所知。Agora 聚焦美国和国际市场,声网则已经俨然是中国市场中 RTC(实时音视频,Real-time Communications)能力最头部且主要的提供者。

而当下实时对话式 AI 这场还未完全起势的浪潮背后,发展多年的 RTC 技术作为一项基础能力,已经逐渐靠近实时多模态大模型发展浪潮的核心。

 

01 RTC 是实时多模态大模型的必由之路

 

无可置疑的,大模型能力的提升直接促进了端到端实时多模态大模型的崛起。

此前,实时对话中的语音处理是基于传统的三步骤——语音识别、语音转文字、文字转语音(STT-LLM-TTS)——方法来进行的。现在得益于大模型自身能力的进化,端到端实时多模态模型能够直接处理语音,这与传统的三步骤处理方法相比,响应速度要提升很多,这也是为什么实时对话式 AI 的前景开始备受期待。

语音处理这个技术难题被攻下后,大模型领域的头部玩家们已经开始用脚投票了。

今年 6 月,Character AI 推出新的语音功能,用户可以与 AI 角色进行语音对话。这家人工智能聊天机器人初创公司表示,新的通话功能在推出初期就吸引了来自 300 多万用户的 2000 多万次通话。

Character AI 推出新语音功能几天后,微软 AI 负责人 Mustafa Suleyman 透露微软将在今年年底为用户拿出实时的语音界面,允许完全动态的交互。

而在国内的大模型领域,智谱 AI 8 月末在智谱清言中上线了国内首个面向 C 端的视频通话功能,该功能让用户能够通过应用程序进行语音和视频互动,整个体验类似于与真人对话。用户不仅可以使用手机的前置或后置摄像头进行视频通话,还能进行语音交互。这项功能特别适合在日常生活中的各种场景应用,比如协助学习、辨识物品等。

而在智谱清言新功能上线同日,科大讯飞星火极速超拟人交互技术也正式上线讯飞星火 APP,星火极速超拟人交互在响应和打断速度、情绪感知情感共鸣、语音可控表达、人设扮演四个方面实现重大突破,让整体交互体验更自然、更具情感。

电影《Her》中的场景,似乎真的要成真了。但 GPT-4o 进一步打开实时对话式 AI 的想象力所给人带来的启示,或许是我们仍然低估了「实时」在交互体验上的重要性。

实时对话式 AI 中,「实时」与「AI」一样重要,甚至作为一场与 AI 的对话体验中最决定性的变量,「实时」实际上的重要性要更胜后者。但要把「实时」拉到极限,端到端实时多模态模型的崛起只是近来取得技术突破的一条明线——它从思考速度上缩短了语音的交互时间。而另一条更绵长的发展暗线则是 RTC(实时音视频,Real-Time Communications)技术的持续进步。

更详细的拆解一下多模态大模型中实时语音交互的核心路径,大概就能辨析 RTC 技术在其中的重要意义:

 

首先,语音输入经过 RTC 传输到服务器,服务器端的多模态大模型接收到语音后开始预处理,这里的预处理主要包含了音频的 3A,例如语音的降噪、增益控制、回声消除等操作,使得后续的语音识别更加准确,让大模型更能听懂用户说的话;

 

随后,预处理的语音数据送入模型进行语音识别和理解,系统再通过模型生成回应,这其中还需要通过语音合成技术转换为语音信号;

 

最后,语音数据通过 RTC 传输到用户端,完成一次完整的语音交互。

声网在实践中发现,传统的 AI 语音对话(STT-LLM-TTS)在应用 RTC 后,响应延时可从 4-5 秒降低到 1-2 秒,而在具备端到端实时多模态处理能力后,通过 RTC 技术,大模型实时语音对话的延时可降到几百毫秒内。从体验上看,RTC 技术的应用让对话式大模型的交互更智能,更具真实感。

在 GPT-4o 的发布会上,有一个细节引人注意:用于演示的手机连接了一根网线。工程师 Mark 解释说,这样做是为了确保网络的稳定性。这也揭示了一个事实,即 GPT-4o 的演示是在固定设备、固定网络和固定物理环境中进行的,以保证低延迟。

然而在实际应用中,用户的设备通常不能始终连接网线,最终无论多强的模型能力,都需要依靠 RTC 技术来真正落到实时对话的场景中。而这其中多模态大模型在与 RTC 技术结合时如何保障低延时、流畅的语音交互体验,变得尤为关键。

一句话来说,RTC 是将多模态大模型与实时互动场景连接起来最关键的技术桥梁。

而随着 RTC 从最初的一种前沿技术在近年逐渐变成一项基础设施级别的能力并迅速在各个场景中延伸,加入了场景视角的 RTE(实时互动,Real time engagement)概念开始取代 RTC,成为当下谈论实时互动能力新的技术名词。

以声网创始人兼 CEO 赵斌对 RTE 的概念表述:

 

「RTC(实时音视频)从 Communication 的视角,更多是在强调对语义信息进行高质量和高效率的传递。而 RTE(实时互动)更聚焦用户所需要的共享时空,即俗话所说的场景。」从 RTC 到 RTE,就是从基础能力向场景化能力的进化。

 

在这个端到端实时多模态模型产品化势头初现的时期,声网和 RTE 开发者社区联合发起了第十届 RTE 大会。实时互动与 AI 的结合在当下所能承载的所有想象力,都会在这场大会中现身。

 

02 AI 浓度拉满,第十届 RTE 大会亮点前瞻

 

首先,不用怀疑的是,这场 RTE 大会上会有非常多足够有分量的观点交锋。

国内大模型领域在 ToB 方向上走的最深的智谱 AI,以及国内大模型领域在 C 端产品化上最有心得的 MiniMax 将会出现在 RTE 大会上。作为这两年随大模型迅速成长的创业公司,智谱 AI 和 MiniMax 在 RTE 技术在大模型的 ToB 和 ToC 两条路线上发展颇有心得。

而随着大模型开源生态的迅速发展,大量个人开发者从去年开始加入了这一股大模型浪潮,实时对话式 AI 开始成为一个备受开发者关注的产品赛道,通义千问也会带着国内最大开发者生态的经验在 RTE 大会中加入讨论。

除此之外,此次 RTE 大会也不乏业内备受瞩目的创业者身影。全球最受瞩目的 AI 科学家之一,一年前从阿里巴巴离职躬身入局大模型的贾扬清也会出现在此次 RTE 大会的主论坛上,来分享他在 AI 基础设施领域创业 18 个月后的经验心得,以及他对 RTE 与 AI 结合的未来趋势的判断。

本次 RTE 大会也将通过七场行业分论坛的形式,展现一幅最具想象力的 AIGC+RTE 行业场景应用图景,包括 AI+IoT、教育、泛娱乐、出海、数字化转型等七大行业。50+行业大咖将会现身行业分论坛现场,带来一线的场景实战案例以及极具深度的行业洞察。

场景是技术迭代所结的果实,未来对于新场景的想象力也酝酿在当下技术的前沿趋势中。本次 RTE 大会也在行业场景应用的讨论之外,设置了五场技术专场,分别聚焦在音频技术和 Voice AI、视频技术和 AI 生成、RTC+大模型、空间计算和新硬件、云架构和 AI 时代的 Infra 这五个技术方向,30+的技术大咖和专家学者将会带来自己对所在领域最深入的技术见地。

当然,对于参与到 RTE 大会中的开发者们来说,这里提供的不仅仅是观点和见地。每年 RTE 大会都会为参会开发者设置专属活动,在今年的 Workshop 中提供了用 TEN 开源框架来现场动手搭建拥有音视频理解能力的 AI Agent 的机会,这将为开发者带来更多 AI 实时互动场景创新灵感。

2024 年,实时对话式 AI 火热,而 RTE 大会也迎来了十周年。

时间倒回到十年前,2015 年移动互联网那时在国内还未完全成熟,RTE 大会在十年里见证了直播、在线教育、远程办公这些新的技术场景景一次次以新物种的面目亮相并最终融入了大众生活。在这个过程中, 实时互动技术逐渐成为人们在社交和泛娱乐产品中的基础设施。而随着实时互动行业的发展,走过十年的 RTE 大会已经变得越来越重要,它已经是当下这个领域在全球范围内规模最大、议题最全, 最具影响力的行业大会。

现在,AI 与实时互动的碰撞正涌现出新的技术和产品浪潮。而无论从前沿技术的探讨深度,还是多场景创新应用的丰富性上,今年的第十届 RTE 大会都像极了这样一场「风口浪尖」上的实时互动领域盛会。

这场大会将会展现出这场变革至今为止最锐利最先锋的一面。已经身处这场变革中的开发者们,或者对实时互动即将出现的颠覆性变化感到兴奋的所有人来说,请及时到场。

 

*头图来源:视觉中国

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

 

Posted in: 科技

微信鸿蒙原生版首批测试名额秒空;OpenAI 推出新提示词工具;京东物流预计双十一接入淘宝

微信鸿蒙原生版首批体验秒空,腾讯张军「求谅解」称还在不断 debug

腾讯公司公关总监张军昨日傍晚发文称,微信鸿蒙原生版正通过华为应用市场的「尝鲜专区」开启测试,目前在分批放量中。「实在对不住,第一批上架即秒空,请大家谅解,因为开发哥还在不断 debug,并加速将大家反馈的问题修复后继续上架。」

张军表示:「如果还没有获得测试名额,麻烦后续留意「尝鲜专区」动态。谢谢谢谢!」

微信鸿蒙原生版昨日下午正式上架鸿蒙原生应用市场,版本号 1.0.0.36。该版本支持聊天记录迁移,支持直接调用系统原相机、鸿蒙原生安全等功能。(来源:IT 之家)

阿里巴巴副总裁吴嘉:京东物流预计会在双 11 期间接入淘宝

10 月 13 日消息,阿里巴巴集团副总裁、淘天用户平台事业部总裁吴嘉昨日在今年天猫双 11 发布会后的群访上称,京东物流预计会在双 11 期间接入淘宝,为用户提供服务。

据悉,2024 年天猫双 11 将于 10 月 14 日 20:00 开启,今年天猫双 11 已支持支付宝、微信支付等多种支付方式。

淘宝官方客服回应称:「从今天(10 月 12 日)开始,淘宝商家发货订单和消费者退货订单都可以接入京东物流,且可以淘宝 App 内直接查询到订单的京东物流轨迹信息。天猫超市订单中,只要是卖家跟京东物流合作了,也可以接入京东物流。」

菜鸟 App 官方客服则回应称:「暂时没有收到任何相关通知,目前菜鸟 App 不支持查询京东物流包裹。」(来源:IT 之家)

 

SpaceX称如果法院暂停星际飞船发射,每天损失高达400万美元

SpaceX 公司在回应环保组织「拯救 RGV」的诉讼时称,停止在得克萨斯州的星际飞船测试将使该公司每天损失数百万美元,并危及其获得收入的能力以及与空军和其他机构签订的协议的里程碑付款。在昨天提交的诉状中,「拯救 RGV」组织要求法院阻止 SpaceX 使用排水系统,直到其诉求得到解决。

SpaceX 在对诉讼的回应中向法院表示,任何阻止其发射 Starship 的临时禁令都将使该公司每天损失 400 万美元,「几乎没有回报」,并危及其发射 Starshield 卫星、开发军用货运系统和发射第三代 Starlink 卫星的计划。(来源:cnBeta)

 

比亚迪副总裁李柯:竞争让中国车企强大,欧洲对手却在逃避

10 月 12 日,比亚迪执行副总裁李柯在接受德国媒体采访时称,市场的激烈竞争让中国汽车制造商变得「非常具有竞争力」。欧洲汽车制造商则反之,他们在回避竞争。

李柯表示,欧洲汽车制造商缺乏竞争力,因为他们缺乏明确且一致的电动汽车政策,并且在回避竞争。

相反,一个饱和且竞争激烈的市场让中国汽车制造商变得「非常具有竞争力」。「世界上所有汽车制造商都应该参与这场竞争,」李柯称,「那些犹豫不决和退缩的人将会失败。」(来源:IT之家)

 

英特尔11月1日凌晨发布三季度财报,营收环比有望增长但同比预计将下滑

英特尔官网的信息显示,他们将在10月31日美国股市收盘后,发布第三季度的财报。10月31日美国股市收盘,就已是北京时间11月1日凌晨4点。

就英特尔在第二季度的财报中给出的预期来看,他们第三季度的营收是同比将会下滑,但环比有望增长。

在去年第三季度,英特尔营收142亿美元。而在今年第二季度,他们是营收128亿美元。英特尔给出第三季度预期营收上限,也要低于去年第三季度的营收,但要高于今年第二季度的128亿美元,预期营收下限,较第二季度的128亿美元只低3亿美元,因而环比还是有增长的可能。(来源:TechWeb)

欧盟要求拼多多 Temu 提供有关打击非法产品销售所采取措施的信息

据路透社报道,欧盟委员会当地时间 11 日表示,已根据《数字服务法》(DSA)向购物平台 Temu 发出信息请求,要求提供其采取的阻止非法产品在其平台上销售的措施。

欧盟委员会在周五的声明中提到:「今天,委员会根据《数字服务法》向 Temu 发送了信息请求(RFI),要求该平台提供详细的资料和内部文件,说明他们为应对平台上非法商品的销售、此类卖家重新活跃所采取的措施。」

声明还指出:「Temu 必须在 2024 年 10 月 21 日前提交所需信息。委员会将在评估 Temu 的回复后,决定下一步措施。」(来源:IT 之家)

 

OpenAI 推出 meta-prompt 工具,AI 时代让你掌握提示词艺术

科技媒体 The Decoder 在 10 月 11 日发布博文,报道称 OpenAI 更新提示词优化功能 Playgound,新增引入「元提示」(meta-prompt)工具。

「元提示」(meta-prompt)工具主要帮助用户更高效地创建、改进针对大型语言模型(LLMs)的提示,节省开发高质量 AI 提示的时间。

OpenAI 表示,「元提示」结合了实际应用中的最佳实践和经验,旨在为用户提供快速的起点,避免从零开始撰写提示词的烦琐过程。

元提示采用结构化的方式进行提示生成。具体步骤包括:

简要描述任务:首先提供任务的简要描述。详细说明:接下来,提供额外的细节和可选部分,包括逐步说明、输出格式、示例和备注。(来源:IT 之家)

 

面向 GB300 服务器的 NVIDIA Blackwell Ultra「B300」AI GPU 可能采用插槽式设计

NVIDIA 的 Blackwell Ultra B300 GPU 可能会在 GB300 服务器上用插座式设计,这将使维护和升级变得更加容易。

NVIDIA目前的数据中心高性能芯片采用了OAM设计,即板载解决方案。 通过这种设计,GPU 芯片被永久焊接到服务器主板上,如 GB200,用户可以在一块主板上同时找到 Grace CPU 和 Blackwell GPU。

不过,这可能是最后一个采用板载设计的系列,因为一些报道称 NVIDIA 可能会在用于 GB300 服务器的 Blackwell B300「Ultra」GPU上采用不同的设计。(来源:cnBeta)

 

一加员工:骁龙 8 至尊版能效干翻苹果 A18 Pro,在能效曲线最左上角

10 月 12 日消息,一加员工 @ 蔡祖轩 在微博透露,内部终于跑完了全部能效数据,定制确实比公版好啊,直接干翻 A18 Pro,重回兵器谱排名第一位。

​在评论里该员工表示,「高通今年定制的全新大核,非常奇迹」,位于「能效曲线最左上角」。(来源:IT 之家)

2025 款吉利星瑞内饰官图公布:换装银河 E5 同款大屏

10 月 12 日消息,吉利汽车发布了 2025 款吉利星瑞・东方曜的内饰官图,新车已开启预售,预售价定在 10 万至 14 万元之间,将于 10 月 23 日正式上市。作为对比,现款吉利星瑞的官方指导价为 9.97 万至 14.57 万元。

2025 款吉利星瑞・东方曜将推出五个车型,分别为 1.5TD+7DCT 动力组合的惊鸿版、昆仑版、扶摇版,以及 2.0TD 高功 + 8AT 动力组合的望月版和揽星版。

内饰设计上,新款车型发生了显著变化。中控台采用了全新的布局设计,搭配更加平直的线条和隐藏式空调出风口,整体风格简洁现代。参考吉利银河 E5,该车型配有 15.4 英寸的 2.5K 中控显示屏。(来源:IT之家)

 

通用汽车推出 PowerBank 家用电池与特斯拉 Powerwall 竞争

通用汽车刚刚推出了其 PowerBank 家用电池,旨在与特斯拉 Powerwall 以及 Anker 等竞争家庭能源市场,每套定价显示为 12700 美元(当前约 89790 元人民币),包含充电器、逆变器、家庭中枢和 PowerBank 完整系统。

PowerBank 允许房主在非用电高峰时段直接从电网取电,或从太阳能电池板储存电能,然后在用电高峰或断电时为家庭供电。

通用提供了两种容量的 PowerBank 电池——10.6kWh 和 17.7kWh。通用汽车表示,如果采用两个 17.7kWh 电池,可以为普通美国家庭供电 20 小时。

GM Energy 现在在所有 50 个州运营。感兴趣的客户可以在 GM Energy Live 页面上与专家联系,以获得「沉浸式数字体验」并了解更多有关产品的信息。通用汽车不直接处理太阳能解决方案,但会将感兴趣的客户转介给其首选安装商 Qmerit 进行设置。(来源:IT 之家)

 

苹果首款 8K 3D 摄影机亮相:Super 35 传感器,把 Vision Pro 头显用户「拉入」剧情中

科技媒体 ymcinema 近日发布博文,报道称苹果公司为了给 Vision Pro 头显制作电影,推出了其首款 8K 3D Cinema 摄影机,希望改变电影制作的未来。

据悉,苹果公司面向 Vision Pro 头显发布了首部沉浸式短片《Submerged》,在幕后花絮视频中,展示了苹果设计的最新拍摄设备,配有 2 个大型传感器,能以 180 度视场录制最高 8K 分辨率视频。

消息源认为苹果该 8K 3D Cinema 摄影机基于 2021 年的专利打造,传感器大小预估为 M43 或者 Super 35,还配备麦克风阵列,录制多方向音频,实现空间音频,以增强视觉体验。(来源:IT 之家)

NASA热核推进系统有望将火星旅行时间缩短一半

NASA 和DARPA 正在开发核热推进(NTP)技术,以实现更快的载人飞往火星的任务,有可能利用核裂变将旅行时间缩短一半。

这项技术也适用于国防空间平台,其原型将于2027年进行太空演示,并有可能成为现实。 正在进行的研究重点是提高推进效率和安全性,这对于实现抵达火星的宏伟目标至关重要。

美国国家航空航天局(NASA)的目标是在 2027 年之前展示一种核热推进系统,利用核裂变实现更高效的太空旅行,从而将火星旅行时间缩短一半。(来源:cnBeta)

 

Posted in: 科技

字节的第一款 AI 硬件,只是一次悄悄试水?

 
头图来源:Ola Friend
 
几个月前刚收购开放式耳机品牌Oladance的字节跳动,这就发布了首款生成式 AI 硬件设备。
 
10日上午,字节跳动豆包发布了一款硬件产品—— AI 智能体耳机 Ola Friend。该产品是一款开放式耳机,单耳6.6克同类最轻;可接入豆包大模型,并与豆包 APP 深度结合;已在各大电商平台开启预售,将于10月17日正式发货,售价1199元,一个价格对比是,苹果最新款AirPods 4主动降噪款售价1399元。
 
用户戴上耳机后,无需打开手机,只需喊出关键词「豆包豆包」,便能唤起豆包进行对话,后者能够在信息查询、旅游出行、英语学习及情感交流等场景为用户提供帮助。
 
今年以来,随着大模型应用落地的加速,AI硬件也如雨后春笋般蓬勃发展,AI 手机、AI 耳机、AI 眼镜等新品纷纷涌现,就连苹果也忍不住下场,不仅在新iPhone和新版本iOS中加入AI功能,还传出要做AI眼镜。
 
谁能成为AI时代,用户与人工智能交互的第一个入口?今天看来智能眼镜和智能耳机,是最有可能的热门候选。很显然,收购了 Oladance 和 Pico 的字节两者都不会错过,而 Ola Friend 就是字节打出的第一张牌。
 

Ola Friend:字节版「Her」?

 
字节的这次发布很是低调,连发布会都没开,仅仅是在微信公众号、小红书等官方账号做了线上发布。
 
从发布页面信息来看, Ola Friend主打陪伴,「TA是一个随时陪伴在耳边的AI朋友,在你需要的时候,TA都在你耳边。」
 
图片来源:Ola Friend
 
Ola Friend是一款开放式耳机,单耳6.6克同类最轻,据称实现了几乎无感的佩戴感受。该款耳机接入豆包大模型,并与豆包 APP 深度结合。
 
用户戴上耳机后,无需打开手机,只需喊出关键词「豆包豆包」,便能唤起豆包进行对话,后者能够在信息查询、旅游出行、英语学习及情感交流等场景为用户提供帮助。
 
目前,Ola Friend已经在各大电商平台开启预售,将于10月17日正式发货,售价1199元。
 
作为首款基于豆包大模型的 AI 硬件产品,Ola Friend的推出意味着字节跳动从硬件到内容的AI生态系统进一步完善。
 
Ola Friend耳机的硬件部分由字节跳动不久前收购的原Oladance团队完成。该团队以其创新的OWS专利技术闻名。尽管该并购案完成时并未掀起特别大的波澜,但业界人士都在讨论字节跳动的意图非常明确——要将 AI 跟耳机产品深度结合。
 
所谓OWS,即Open Wearable Stereo,开放式可穿戴立体声系统,是Oladance全球性提出的一种全新的全开放不入耳的声音解决方案。
 
相比传统的骨传导耳机要通过骨骼将振动传递到内耳,绕过耳膜,OWS耳机则采用气导技术,通过空气将声音传递到耳朵,更自然 ;同时,骨传导耳机需要紧密贴合头部,可能不适合长时间佩戴,OWS耳机不入耳、无需紧贴,更舒适,更适合长时间佩戴 。
 
Oladance此前被字节跳动收购,后者对该品牌100%控股。Oladance成立于2019年,由前BOSE高管李浩乾与多名BOSE工程师共同创立,核心产品线包括OWS全开放真无线蓝牙耳机系列,主打佩戴轻盈舒适、续航超长以及独特的开放不入耳设计。
 
通过这次收购,字节跳动不仅获得了 Oladance 的核心技术,还吸纳了一支由前 Bose 工程师组成的经验丰富的团队,打好了其在音频技术领域的「基本功」。
 
Oladance 的技术应该能够帮字节跳动提升其 VR/AR 设备的音频表现,开放式耳机的设计不仅为更大容量的电池提供了空间,还为集成多种传感器创造了可能性。结合字节跳动此前收购的头显厂商 Pico,这些技术的融合为其在视听体验和可穿戴设备领域的扩展带来了更多潜力。
 
过去一年里有不少AI耳机产品已经陆续发布。目前看起来Ola Friend并没有特别的形态创新,跟Oladance之前的耳机大差不差,就是一款「耳机」,也没有想象中的摄像头,只是接入了大模型,唤起调用模型不用打开手机——这样的「AI耳机」,似乎没有想象中有那么多黑科技。
 
不过,在前两天极客公园的「今夜科技谈」中,灵宇宙创始人顾嘉唯谈到,字节此次推出Ola Friend,意在探求类似「Her」的personal AI 场景,尽管它在外观设计上跟传统的OWS 耳机没有明显区别,也没有把个性化的很多能力和边界无限的提高预期,但这正是拿捏用户预期的一种管理方式,「本质上,他们是让你知道这首先是一个普通的耳机,然后当它的软件端的能力和体现出来的时候,就会有一些超预期的可能性」。
 
在他看来,字节推出这款耳机,很重要的目的之一,其实是为了让豆包有更多的更快能触达的便捷方式,降低访问豆包的门槛。
 
豆包已经是国内用户最多的原生 AI 应用。同时,在AI大模型与应用方面,字节已经全面布局,开发了多个文本和多模态大模型,包括豆包大模型家族,涵盖通用模型、角色扮演模型、语音合成模型、声音复刻模型、语音识别模型、文生图模型、Function Call模型和向量化模型。此外,字节也开发有多个基于豆包大模型的AI原生应用,除了豆包,还有AI应用开发平台“扣子”、互动娱乐应用“猫箱”等超10款 AI 产品。
 
而端到端的AI硬件,可能是字节补齐AI布局的最后一块拼图。
 

眼镜or耳机,大模型落地现实的第一个入口

 
下半年以来,大模型软件的商业化似乎不及预期,大模型+硬件似乎成了新的出路,尤其是在Meta Ray-Ban智能眼镜大热之后。
 
早前国金证券发布研报称,估算Meta Ray-Ban在2024年Q2季度出货量或达50万台,年销量达200万台。
图片来源:雷朋官网
 
国外巨头里,苹果似乎同样有意加入战场。据彭博社报道,苹果旗下的Vision Products Group事业群正在研发的设备包括平价版Apple Vision、第二代Apple Vision Pro、以及一款类似于Ray Ban Meta的AI智能眼镜。
 
国内各家公司也纷纷推出产品。4月,小米米家智能音频眼镜悦享版正式发售;5月,华为推出了搭载盘古大模型的智能眼镜;8月,蜂巢科技推出了界环AI音频眼镜。
 
那为什么字节先推出的是耳机,而不是眼镜?
 
「字节肯定是有在做眼镜的」,在顾看嘉唯来,无论是头盔式 VR,还是其他轻量型设备,或者透过光机画幅技术实现透视效果的设备,字节都有在积极探索和做迭代。
 
对于像字节这样的互联网大厂来说,选择做硬件不仅是基于情怀,更是对构建入口的持续追求,探索和试错都是必经之路。
 
尽管目前还没看到字节发布类似 Ray-Ban Meta 这样的硬件产品,但可以预见,他们必然会沿着这条路径寻找机会并逐步推出相关设备。不要低估字节在布局硬件上的资金、动力以及决心。
 
当然AI耳机也不止字节在做,之前在7月,小米发布了新款耳机 Buds 5,虽然没有明确定位为 AI 硬件,但该产品支持语音快速转文字,并能一键生成会议摘要,展示了其越来越智能化的特性;5月,未来智能和科大讯飞就推出了讯飞 AI 会议耳机 Pro 2,具备录音速记、语音识别、同声传译等功能,还集成了 viaim AI 会议助理,能够智能分析会议内容,自动生成摘要和待办事项,并支持智能问答功能;3月,前魅族副总裁李楠创立的怒喵科技宣布正在与魅族合作研发一款AI耳机。
 
不过,如果从更长的时间周期来看,不论是AI+眼镜还是耳机,大模型要落地现实搭载硬件成为用户的个人助理,还有距离。这不仅涉及技术本身,还包括商业生态的打通。在新兴的技术入口之争中,首先入局的往往是手机厂商,紧随其后的是像微信这样的超级应用。也就是说,一旦AI助理技术发展到一个高度成熟的PMF阶段,手机厂商和这些超级应用巨头都会迅速涌入。
 
字节这时推出Ola Friend,只是率先行动,谋求占得先机。
 
Back to Top