Skip to content
  • 51蛙吖蛙元宇宙电脑版入口
  • 51蛙吖蛙官网
51蛙吖蛙 – 3D社交空间

51蛙吖蛙 – 3D社交空间

投稿、社交、聊天就来51蛙吖蛙元宇宙

  • 兼职翻译 / 求职
    • 英语
    • 俄语
    • 德语
    • 日语
    • 法语
    • 西班牙语
    • 韩语
    • 小语种
  • 兼职翻译 / 招聘
  • 短视频
  • 即时新闻
  • 生活
  • 亚洲时事
  • 科技
  • 51蛙吖蛙公告
  • 金融
  • 杂谈
  • Toggle search form

OpenAI 发布实时 API,AI 实时语音时代如何抢占风口?

10 月 2 日,OpenAI 发布了实时 API 公开测试版,用于构建基于 GPT-4o 语音到语音的 AI 应用和智能体。这是 GPT-4o 发布之后,OpenAI 在实时语音交互能力上的最新进展。

 

GPT-4o 所展现出的实时语音交互能力让外界印象深刻。而这很大程度上归功于 GPT-4o 大幅降低的语音延迟,平均 320 毫秒的反应时间,让 AI 与人的对话第一次接近了人类真实对话间的反应速率。同时其语气和情感模拟,也更加深 AI 与人类沟通之间的沉浸感。

而国庆假期间,OpenAI 发布的实时 API 公开测试版,则瞄准了 GPT-4o 语音到语音的 AI 应用和智能体,这像是给所以 AI 应用开发者的一个信号,大模型发展近两年后,基于声音的实时对话式 AI 场景或许会开始变的瞩目起来。

OpenAI 这次也公布了三家语音 API 合作者的身份:LiveKit、Twilio,以及 Agora。值得一提的是,前几年曾经爆火的 ClubHouse,背后的技术提供方就是 Agora,其兄弟公司声网则在国内更为人所知。Agora 聚焦美国和国际市场,声网则已经俨然是中国市场中 RTC(实时音视频,Real-time Communications)能力最头部且主要的提供者。

而当下实时对话式 AI 这场还未完全起势的浪潮背后,发展多年的 RTC 技术作为一项基础能力,已经逐渐靠近实时多模态大模型发展浪潮的核心。

 

01 RTC 是实时多模态大模型的必由之路

 

无可置疑的,大模型能力的提升直接促进了端到端实时多模态大模型的崛起。

此前,实时对话中的语音处理是基于传统的三步骤——语音识别、语音转文字、文字转语音(STT-LLM-TTS)——方法来进行的。现在得益于大模型自身能力的进化,端到端实时多模态模型能够直接处理语音,这与传统的三步骤处理方法相比,响应速度要提升很多,这也是为什么实时对话式 AI 的前景开始备受期待。

语音处理这个技术难题被攻下后,大模型领域的头部玩家们已经开始用脚投票了。

今年 6 月,Character AI 推出新的语音功能,用户可以与 AI 角色进行语音对话。这家人工智能聊天机器人初创公司表示,新的通话功能在推出初期就吸引了来自 300 多万用户的 2000 多万次通话。

Character AI 推出新语音功能几天后,微软 AI 负责人 Mustafa Suleyman 透露微软将在今年年底为用户拿出实时的语音界面,允许完全动态的交互。

而在国内的大模型领域,智谱 AI 8 月末在智谱清言中上线了国内首个面向 C 端的视频通话功能,该功能让用户能够通过应用程序进行语音和视频互动,整个体验类似于与真人对话。用户不仅可以使用手机的前置或后置摄像头进行视频通话,还能进行语音交互。这项功能特别适合在日常生活中的各种场景应用,比如协助学习、辨识物品等。

而在智谱清言新功能上线同日,科大讯飞星火极速超拟人交互技术也正式上线讯飞星火 APP,星火极速超拟人交互在响应和打断速度、情绪感知情感共鸣、语音可控表达、人设扮演四个方面实现重大突破,让整体交互体验更自然、更具情感。

电影《Her》中的场景,似乎真的要成真了。但 GPT-4o 进一步打开实时对话式 AI 的想象力所给人带来的启示,或许是我们仍然低估了「实时」在交互体验上的重要性。

实时对话式 AI 中,「实时」与「AI」一样重要,甚至作为一场与 AI 的对话体验中最决定性的变量,「实时」实际上的重要性要更胜后者。但要把「实时」拉到极限,端到端实时多模态模型的崛起只是近来取得技术突破的一条明线——它从思考速度上缩短了语音的交互时间。而另一条更绵长的发展暗线则是 RTC(实时音视频,Real-Time Communications)技术的持续进步。

更详细的拆解一下多模态大模型中实时语音交互的核心路径,大概就能辨析 RTC 技术在其中的重要意义:

 

首先,语音输入经过 RTC 传输到服务器,服务器端的多模态大模型接收到语音后开始预处理,这里的预处理主要包含了音频的 3A,例如语音的降噪、增益控制、回声消除等操作,使得后续的语音识别更加准确,让大模型更能听懂用户说的话;

 

随后,预处理的语音数据送入模型进行语音识别和理解,系统再通过模型生成回应,这其中还需要通过语音合成技术转换为语音信号;

 

最后,语音数据通过 RTC 传输到用户端,完成一次完整的语音交互。

声网在实践中发现,传统的 AI 语音对话(STT-LLM-TTS)在应用 RTC 后,响应延时可从 4-5 秒降低到 1-2 秒,而在具备端到端实时多模态处理能力后,通过 RTC 技术,大模型实时语音对话的延时可降到几百毫秒内。从体验上看,RTC 技术的应用让对话式大模型的交互更智能,更具真实感。

在 GPT-4o 的发布会上,有一个细节引人注意:用于演示的手机连接了一根网线。工程师 Mark 解释说,这样做是为了确保网络的稳定性。这也揭示了一个事实,即 GPT-4o 的演示是在固定设备、固定网络和固定物理环境中进行的,以保证低延迟。

然而在实际应用中,用户的设备通常不能始终连接网线,最终无论多强的模型能力,都需要依靠 RTC 技术来真正落到实时对话的场景中。而这其中多模态大模型在与 RTC 技术结合时如何保障低延时、流畅的语音交互体验,变得尤为关键。

一句话来说,RTC 是将多模态大模型与实时互动场景连接起来最关键的技术桥梁。

而随着 RTC 从最初的一种前沿技术在近年逐渐变成一项基础设施级别的能力并迅速在各个场景中延伸,加入了场景视角的 RTE(实时互动,Real time engagement)概念开始取代 RTC,成为当下谈论实时互动能力新的技术名词。

以声网创始人兼 CEO 赵斌对 RTE 的概念表述:

 

「RTC(实时音视频)从 Communication 的视角,更多是在强调对语义信息进行高质量和高效率的传递。而 RTE(实时互动)更聚焦用户所需要的共享时空,即俗话所说的场景。」从 RTC 到 RTE,就是从基础能力向场景化能力的进化。

 

在这个端到端实时多模态模型产品化势头初现的时期,声网和 RTE 开发者社区联合发起了第十届 RTE 大会。实时互动与 AI 的结合在当下所能承载的所有想象力,都会在这场大会中现身。

 

02 AI 浓度拉满,第十届 RTE 大会亮点前瞻

 

首先,不用怀疑的是,这场 RTE 大会上会有非常多足够有分量的观点交锋。

国内大模型领域在 ToB 方向上走的最深的智谱 AI,以及国内大模型领域在 C 端产品化上最有心得的 MiniMax 将会出现在 RTE 大会上。作为这两年随大模型迅速成长的创业公司,智谱 AI 和 MiniMax 在 RTE 技术在大模型的 ToB 和 ToC 两条路线上发展颇有心得。

而随着大模型开源生态的迅速发展,大量个人开发者从去年开始加入了这一股大模型浪潮,实时对话式 AI 开始成为一个备受开发者关注的产品赛道,通义千问也会带着国内最大开发者生态的经验在 RTE 大会中加入讨论。

除此之外,此次 RTE 大会也不乏业内备受瞩目的创业者身影。全球最受瞩目的 AI 科学家之一,一年前从阿里巴巴离职躬身入局大模型的贾扬清也会出现在此次 RTE 大会的主论坛上,来分享他在 AI 基础设施领域创业 18 个月后的经验心得,以及他对 RTE 与 AI 结合的未来趋势的判断。

本次 RTE 大会也将通过七场行业分论坛的形式,展现一幅最具想象力的 AIGC+RTE 行业场景应用图景,包括 AI+IoT、教育、泛娱乐、出海、数字化转型等七大行业。50+行业大咖将会现身行业分论坛现场,带来一线的场景实战案例以及极具深度的行业洞察。

场景是技术迭代所结的果实,未来对于新场景的想象力也酝酿在当下技术的前沿趋势中。本次 RTE 大会也在行业场景应用的讨论之外,设置了五场技术专场,分别聚焦在音频技术和 Voice AI、视频技术和 AI 生成、RTC+大模型、空间计算和新硬件、云架构和 AI 时代的 Infra 这五个技术方向,30+的技术大咖和专家学者将会带来自己对所在领域最深入的技术见地。

当然,对于参与到 RTE 大会中的开发者们来说,这里提供的不仅仅是观点和见地。每年 RTE 大会都会为参会开发者设置专属活动,在今年的 Workshop 中提供了用 TEN 开源框架来现场动手搭建拥有音视频理解能力的 AI Agent 的机会,这将为开发者带来更多 AI 实时互动场景创新灵感。

2024 年,实时对话式 AI 火热,而 RTE 大会也迎来了十周年。

时间倒回到十年前,2015 年移动互联网那时在国内还未完全成熟,RTE 大会在十年里见证了直播、在线教育、远程办公这些新的技术场景景一次次以新物种的面目亮相并最终融入了大众生活。在这个过程中, 实时互动技术逐渐成为人们在社交和泛娱乐产品中的基础设施。而随着实时互动行业的发展,走过十年的 RTE 大会已经变得越来越重要,它已经是当下这个领域在全球范围内规模最大、议题最全, 最具影响力的行业大会。

现在,AI 与实时互动的碰撞正涌现出新的技术和产品浪潮。而无论从前沿技术的探讨深度,还是多场景创新应用的丰富性上,今年的第十届 RTE 大会都像极了这样一场「风口浪尖」上的实时互动领域盛会。

这场大会将会展现出这场变革至今为止最锐利最先锋的一面。已经身处这场变革中的开发者们,或者对实时互动即将出现的颠覆性变化感到兴奋的所有人来说,请及时到场。

 

*头图来源:视觉中国

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

 

浏览量: 75

SpaceX 「星舰回收」操作成功;苹果曝光 30B 多模态 AI 模型;人类首次实现梦中「对话」

SpaceX「星舰」实现史上首次「筷子」夹火箭

北京时间 10 月 13 日消息,SpaceX「星舰」第五次试飞于北京时间 13 日 20:25 发射升空。画面显示,SpaceX「星舰」实现了史上首次使用「筷子」形状的发射塔臂,来接住超级重型助推器。

在星舰发射升空 2 分多钟后,一级超重型火箭与星舰分离,开始返回。距离星舰发射 6 分多钟后,第一级成功被发射塔架上的「筷子」机械臂夹住。这是 SpaceX 第一次尝试回收星舰的第一级。接下来,星舰第二级将继续飞行,准备在印度洋受控溅落。(来源:IT 之家)

工信部:中国生成式人工智能服务大模型的注册用户已超 6 亿

10 月 13 日消息,据央视新闻报道,工业和信息化部昨日表示,目前我国生成式人工智能服务大模型的注册用户数量已突破 6 亿。

据工业和信息化部总工程师赵志国介绍,我国人工智能核心产业的规模在不断提升,企业数量超过了 4500 家。完成备案并上线为公众提供服务的生成式人工智能服务大模型近 200 个,注册用户超过 6 亿。(来源:凤凰科技)

 

苹果推出 300 亿参数多模态 AI 大模型 MM1.5 

北京时间 10 月 13 日消息,苹果公司现已为旗下多模态大模型 MM 推出 1.5 版本,该版本模型基于前代 MM1 的架构,继续延续数据驱动的训练原则,重点研究在不同训练周期中混合不同类型数据对模型性能的影响,目前相关模型文档已发布于 Hugging Face 上。

 

 

该版本模型提供 10 亿 到 300 亿多种参数规模,拥有图像识别和自然语言推理能力。苹果公司研发人员在新版本中改进了数据混合策略,显著提升了模型在多文本图像理解、视觉引用与定位(Grounding)以及多图像推理方面的能力。(来源:搜狐科技)

 

小米 SU7 汽车单日交付首次破 1000 台,10 月生产交付目标冲刺 2 万台

10 月 13 日消息,据报道,小米 SU7 汽车单日交付量已首次破 1000 台。小米 SU7 今年 9 月交付量超 10000 台,10 月生产、交付量冲刺 20000 台;预计 11 月提前完成全年 10 万台交付目标。

另外,小米创办人、董事长兼 CEO 雷军于今年 10 月 7 日晚发文确认「十一假期,小米 SU7 锁单超过 6000 辆」的传闻属实。(来源:IT 之家)

三星电子遭遇寒冬,市值蒸发近 90 万亿韩元

北京时间 10 月 13 日消息,从上月 3 日至本月 11 日,外资连续 23 个交易日抛售三星电子,总共卖出 10.6593 万亿韩元(约合人民币 558 亿元)。期间三星电子股价从 7.44 万韩元暴跌至 5.93 万韩元,跌幅达 20.3%,市值从 444 万亿韩元降至 354 万亿韩元,蒸发近 90 万亿韩元。

经过本轮抛售行情,三星电子的外资持股比例从 8 月的 56.02% 降至 9 月的 53.75%,是自 2004 年以来的最大降幅。

这轮抛售最直接原因,在于三星电子的三季度业绩低于市场预期。本月 8 日,三星电子披露的财报显示,公司第三季度销售额为 79 万亿韩元,同比增长 17.2%;营业利润为 9.1 万亿韩元,同比增长 274.5%,但环比下降 12.8%,且低于市场预期的 10.3 万亿韩元。其原因在于 PC 和移动存储半导体需求疲软。(来源:界面)

 

特斯拉招聘暗示,公司计划内部生产磷酸铁锂电池

北京时间 10 月 13 日消息,特斯拉本周在官网发布了一则新的招聘启事,暗示该公司计划内部生产磷酸铁锂电池。

特斯拉在职业页面发布了一则高级电池材料工程师职位,负责磷酸铁锂(LFP)阴极项目,这表明该公司正寻求内部开发这种电池化学成分。该职位位于加州帕罗阿托,是特斯拉人工智能和工程总部所在地。

此前有传闻表示,特斯拉将与宁德时代合作,宁德时代的一位高管今年早些时候曾暗示计划为特斯拉的大批量电动汽车开发低成本电池。彭博社今年 1 月的一份报告称,特斯拉将从宁德时代购买机器,为其 Megapack 内部生产磷酸铁锂电池。(来源:IT 之家)

iPhone SE 4 保护壳曝光:6.1 寸屏,A18 芯片、Face ID

10 月 13 日消息,有博主曝光了一张号称是第四代 iPhone SE 保护壳的照片,这款新机有望于 2025 年初发布。

从曝光的照片来看,第四代 iPhone SE 的保护壳具有与当下 SE 类似的单摄像头和闪光灯开孔。然而,由于新一代 iPhone SE 将基于 iPhone 14 的机身设计,其尺寸将比现款机型更大。有传言称,新机将配备一块 6.1 英寸的 OLED 屏幕,而现款机型则为 4.7 英寸的 LED 屏幕。

除此之外,第四代 iPhone SE 预计还将从 Touch ID 切换到 Face ID,并从 Lightning 接口更换为 USB-C 接口。由于采用了 Face ID,新机将配备刘海屏,并支持部分或全部灵动岛功能。

此外,有报道称,第四代 iPhone SE 将支持 Apple Intelligence,这意味着其将搭载 A18 芯片并配备 8GB 的 RAM。(来源:搜狐科技)

 

岚图知音纯电 SUV 上市:800V 平台,17.99 万元起

10 月 13 日消息,岚图知音纯电 SUV 今晚迎来上市,官方售价 19.69 万元起,其中长续航智享版限量发售 3000 台 17.99 万元版本。

动力方面,该车搭载岚海动力 800V 电驱总成,提供 901 公里超长续航版本,互联互通 100 万充电桩,支持 5C 快充。搭载 10 个高清摄像头、5 个毫米波雷达,以及 12 个超声波雷达,NOA 点对点高速 / 高架领航辅助驾驶、高阶智能泊车等功能。(来源:IT 之家)

梦境交流成真:研究人员实现人类首次梦中「对话」

10 月 13 日消息,据 InterestingEngineering 报道,REMspace 研究人员成功实现了在梦境中进行意识交流,这一突破性进展标志着人类在意识交流领域迈出了重要一步。该研究证明,「清醒梦(lucid dream)」可以解锁新的沟通维度和人类的潜力。

清醒梦是一种特殊的梦境状态,做梦者在梦中能够意识到自己在做梦。研究人员利用专门设计的设备,诱导两个人进入清醒梦状态,并成功交换了一条简单信息。清醒梦是在快速眼动睡眠(REM sleep)期间出现的一种现象,具有广泛的潜在应用,从解决生理问题到学习新技能。REMspace 公司坚信,REM 睡眠将成为继人工智能之后的下一个重大突破。(来源:IT 之家)

浏览量: 49

记录_机场,一座城市的初印象

Michael Wyetzner 重返 AD,揭秘优质机场设计的秘诀。大多数人都不想在机场多呆,但在那里度过的时间应该是愉快而舒适的。Michael 将为您揭秘扎哈·哈迪德等一些世界上最著名的建筑师在设计完美机场时如何兼顾效率和美观。


获取更多RSS:
https://feedx.net
https://feedx.run
浏览量: 25

广告_太土了!卡塔尔航空巨献土味偶像剧

卡塔尔航空公司推出了最新广告,故事情节是很套路的一见钟情式爱情故事。在广告中,男孩与女明星在人海中相遇,两人对视后女明星匆匆离去,还弄丢了一只耳环。再接下来的几个月里,男孩乘坐卡塔尔航空的飞机环游世界,试图找到自己的一见钟情之人。在最后,他们克服重重困难,终于团聚。 From Qatar Airways

浏览量: 18

广告_街头光影大片,荷兰婴儿车质感广告

Bugaboo 是一家总部位于荷兰的高端婴儿推车和婴儿产品品牌,以设计创新、功能性和高品质的婴儿推车而闻名。这支广告通过绝美的光影和街头摄影展现出来了 Bugaboo 婴儿车的功能性与美观性。 From Alex Takács

浏览量: 31

文章分页

上一页 1 … 2,528 2,529 2,530 … 3,395 下一页

Copyright © 2024 51蛙吖蛙 – 3D社交空间