Posted in: 科技

比飓风更让美国人害怕的,是一张 AI 生成的图片

作者|Moonshot
编辑|靖宇
 
9 月 26 日飓风「海伦妮」从佛罗里达州登陆美国,袭击美国南部多州多地,至今已造成超过 230 人死亡,「海伦妮」也已经成为 2005 年「卡特里娜」飓风以来,导致美国本土死亡人数最多的飓风。
与此同时,一张 AI 生成的照片,也在社交媒体上掀起轩然大波,甚至在下个月选举来临之前,引发了两党的「红蓝对决」。
到底是什么图片,能比飓风带来的影响更严重?
 

飓风营救 or 非洲秃鹫

共和党全国委员会的委员、Women for Trump 的联合创始人Amy Kremer 发在 X 上推文「这张照片深入脑海,令我心痛」,配图是一个楚楚可怜的小女孩,身着救生衣,在救生艇上眼中含泪抱着一只小狗。
 
但在情绪过后仔细再看,小女孩的手臂和腿部极度光滑且和肤色不符,头发也呈现非常奇怪的纹理,大拇指骨节也呈现怪状凸起。没错,这张照片是一张 AI 生成的图片。
在被评论区的人指出「假图」之后,Kremer 直接发文开怼称「是啊,我是不知道这张照片是从哪来的,说老实话,哪儿来的无所谓。它已经永远烙印在我的脑海中了,有些人比这张照片所显示的经历还要糟糕得多。它象征着人们现在正在经历的创伤和痛苦。」换言之,她知道这张图片是假的,但她不在乎,因为她的目的不在于同情这位「AI 女孩」,而是攻击执政党应对「海伦妮」飓风的失责。
因为类似的 AI 照片也被极右翼政客Laura Loomer、共和党 KOL 及特朗普支持者Buzz Patterson和Juanita Broaddrick 转发,配文则是「我们的政府又让我们失望了」或「执政者抛弃了他们」。这些推文的传播量均已上百万。
 
AI 假图片已经成了党派之间相互掣肘的政治工具,伴随着这张照片一同传播的还有各种阴谋论和假新闻,诸如「联邦紧急事务管理局正在准备把灾民财产充公」「当局在控制共和党支持州(飓风受灾州多为支持共和党的(红州)天气」。
相应的,Facebook 上也流传着特朗普冒着洪水帮助居民的图片,当然也是 AI 合成的。该帖子在两天内被分享了超过 16 万次。
 
特朗普本人也在前不久泰勒·斯威夫特公开表态支持民主党总统候选人哈里斯后,在自己的 X 上发布了「Swifties for Trump」(支持特朗普的泰勒粉丝),附上的图片全是 AI 生成的假图。
这并不是特朗普第一次发 AI 假图,作为马斯克支持的候选人,特朗普不可能没有分辨 AI 内容的能力,毕竟不久前他还发布了他和马斯克一起跳舞的 DeepFake AI 合成视频。
但在碎片化的社交媒体平台,政客们不在意信息真假,不管是实拍还是 AI 生成的照片,只要有传播效力即可,造势才是社交平台上政治宣传的首要目的,感性的印象取代客观事实,「造谣一张嘴,辟谣跑断腿」的传播学原理在 AI 时代更猛烈地回响着。
 

谁在制造 AI 垃圾

但追根溯源,这些 AI 假内容是谁生成的,又怎么在各种社交媒体上广泛传播,能骗一个是一个的呢?
这张图加配文「亲手制作,谢谢大家的喜欢」在 Facebook 上收获了 87 万点赞,3.5 万的评论,然而它是 AI 生成的一张假图片。
而喂给 AI 的原图,则是一个木雕艺术家 Michael Jones 和他创作真实存在的木雕狗,Jones 的原帖只获得了 1063 个赞,110 条评论,与 AI 假帖相去甚远。
去年底,科技网站 404 Media 的记者就发现,Meta 旗下的 Facebook 上明显是 AI 生成内容的帖子数量激增,同时也扩散到Meta 旗下的 Threads。
 
为什么 Facebook 是重灾区?原因很简单:平台算法化赶上了用户老龄化。
在最近的一次财报电话会议上,Meta CEO 扎克伯格告诉分析师,为了跟上 TikTok 等平台的变化,Facebook 向用户算法推荐的帖子数量翻了一倍,推荐帖子现在约占用户主页的 30%。
然而据 OBERLO 调查机构的数据显示,Facebook 25 岁以上用户占比达到 77.4%,其中 35 岁用户以上占比达到 46.6%。对于大量出生在前互联网时代,可能在中年才开始使用社交媒体和智能手机的中老年人来说,理解 AI 是什么都费劲,更别提鉴别 AI 内容了。
而且算法推荐就像一个上升的螺旋,研究者发现,在点进几个 AI 生成内容帖后,哪怕没有关注和点赞,后续自己的主页也会推送越来越多的 AI 帖。已经有一些活人用户在 Reddit 上辣评「Facebook 已经变成刷不完的 Midjourney AI 照片墙了。」
 
骗流量之外,AI 假图片还想骗钱,比如就像上面显示的木雕狗,可能帖子里就会附赠「购买同款木制品」的链接,实际上并不存在这些产品,又或者会把观众引流到其他广告网站,像上面最火的木雕狗帖,点开评论区就发现置顶了一条宠物用品的销售链接。
更吊诡之处在于,许多照片可能正是用 Meta AI 所生成,Meta AI 的目的之一就是让照片以假乱真,然而这些照片骗过了自己的用户,矛盾至此转换成了流量的循环。
AI 生成垃圾内容影响的不仅是「老龄化」的 Facebook,就连曾经以高质量文本内容出名的「美版知乎」Quora,都不得不面对 AI 生成内容去稀释社区内容质量的现状
更糟糕之处也在于,现在许多 AI 生成图片正在和现实牢牢捆绑在一起,就比如海伦妮飓风尚未平息,但在 AI 假图被识破后,每个用户都会质疑每一张照片的真实性,哪怕它是基于现实的实拍照片,在经过大量假内容稀释后,都要面临「真假美猴王」自证清白的窘境。
巴以冲突、美国大选、巴西洪水、海伦妮飓风……这些现实生活中真实发生的天灾人祸,在碎片化、简介信息、图文为主且注重高度时效性的内容社区来上,战地记者的实拍图收到的浏览量可能远比不过 AI 生成的假图片。
而这些内容往往都针对毫无戒心的老年人,他们基于同情心,贡献了自己的点赞和转发,不知不觉中却成了算法的帮凶。而这些 AI 的养料则是基于原创但不被看见的艺术家。
而作为具有重要责任的社交平台,例如 Meta,则陷入了 AI 的自我「矛盾之战」:用户使用 Meta 的 AI 工具生产出虚假信息和垃圾信息,将其发布到 Meta 平台,而 Meta 的 AI 团队则需要通过技术鉴别到底哪些是真实图片,哪些是 AI 生成的。
其中的讽刺耐人寻味——AI生成技术团队越进步,审核和鉴别团队就越难做。
在垃圾信息已经充斥互联网的当下,AI 生成工具的诞生,无疑再次为网络垃圾化的进行提供了加速度。如果无法解决这个挑战,被「困在系统中」的不仅仅是用户,后者平台,而是所有人。
Posted in: 科技

SpaceX 「星舰回收」操作成功;苹果曝光 30B 多模态 AI 模型;人类首次实现梦中「对话」

SpaceX「星舰」实现史上首次「筷子」夹火箭

北京时间 10 月 13 日消息,SpaceX「星舰」第五次试飞于北京时间 13 日 20:25 发射升空。画面显示,SpaceX「星舰」实现了史上首次使用「筷子」形状的发射塔臂,来接住超级重型助推器。

在星舰发射升空 2 分多钟后,一级超重型火箭与星舰分离,开始返回。距离星舰发射 6 分多钟后,第一级成功被发射塔架上的「筷子」机械臂夹住。这是 SpaceX 第一次尝试回收星舰的第一级。接下来,星舰第二级将继续飞行,准备在印度洋受控溅落。(来源:IT 之家)

工信部:中国生成式人工智能服务大模型的注册用户已超 6 亿

10 月 13 日消息,据央视新闻报道,工业和信息化部昨日表示,目前我国生成式人工智能服务大模型的注册用户数量已突破 6 亿。

据工业和信息化部总工程师赵志国介绍,我国人工智能核心产业的规模在不断提升,企业数量超过了 4500 家。完成备案并上线为公众提供服务的生成式人工智能服务大模型近 200 个,注册用户超过 6 亿。(来源:凤凰科技)

 

苹果推出 300 亿参数多模态 AI 大模型 MM1.5 

北京时间 10 月 13 日消息,苹果公司现已为旗下多模态大模型 MM 推出 1.5 版本,该版本模型基于前代 MM1 的架构,继续延续数据驱动的训练原则,重点研究在不同训练周期中混合不同类型数据对模型性能的影响,目前相关模型文档已发布于 Hugging Face 上。

 

 

该版本模型提供 10 亿 到 300 亿多种参数规模,拥有图像识别和自然语言推理能力。苹果公司研发人员在新版本中改进了数据混合策略,显著提升了模型在多文本图像理解、视觉引用与定位(Grounding)以及多图像推理方面的能力。(来源:搜狐科技)

 

小米 SU7 汽车单日交付首次破 1000 台,10 月生产交付目标冲刺 2 万台

10 月 13 日消息,据报道,小米 SU7 汽车单日交付量已首次破 1000 台。小米 SU7 今年 9 月交付量超 10000 台,10 月生产、交付量冲刺 20000 台;预计 11 月提前完成全年 10 万台交付目标。

另外,小米创办人、董事长兼 CEO 雷军于今年 10 月 7 日晚发文确认「十一假期,小米 SU7 锁单超过 6000 辆」的传闻属实。(来源:IT 之家)

三星电子遭遇寒冬,市值蒸发近 90 万亿韩元

北京时间 10 月 13 日消息,从上月 3 日至本月 11 日,外资连续 23 个交易日抛售三星电子,总共卖出 10.6593 万亿韩元(约合人民币 558 亿元)。期间三星电子股价从 7.44 万韩元暴跌至 5.93 万韩元,跌幅达 20.3%,市值从 444 万亿韩元降至 354 万亿韩元,蒸发近 90 万亿韩元。

经过本轮抛售行情,三星电子的外资持股比例从 8 月的 56.02% 降至 9 月的 53.75%,是自 2004 年以来的最大降幅。

这轮抛售最直接原因,在于三星电子的三季度业绩低于市场预期。本月 8 日,三星电子披露的财报显示,公司第三季度销售额为 79 万亿韩元,同比增长 17.2%;营业利润为 9.1 万亿韩元,同比增长 274.5%,但环比下降 12.8%,且低于市场预期的 10.3 万亿韩元。其原因在于 PC 和移动存储半导体需求疲软。(来源:界面)

 

特斯拉招聘暗示,公司计划内部生产磷酸铁锂电池

北京时间 10 月 13 日消息,特斯拉本周在官网发布了一则新的招聘启事,暗示该公司计划内部生产磷酸铁锂电池。

特斯拉在职业页面发布了一则高级电池材料工程师职位,负责磷酸铁锂(LFP)阴极项目,这表明该公司正寻求内部开发这种电池化学成分。该职位位于加州帕罗阿托,是特斯拉人工智能和工程总部所在地。

此前有传闻表示,特斯拉将与宁德时代合作,宁德时代的一位高管今年早些时候曾暗示计划为特斯拉的大批量电动汽车开发低成本电池。彭博社今年 1 月的一份报告称,特斯拉将从宁德时代购买机器,为其 Megapack 内部生产磷酸铁锂电池。(来源:IT 之家)

iPhone SE 4 保护壳曝光:6.1 寸屏,A18 芯片、Face ID

10 月 13 日消息,有博主曝光了一张号称是第四代 iPhone SE 保护壳的照片,这款新机有望于 2025 年初发布。

从曝光的照片来看,第四代 iPhone SE 的保护壳具有与当下 SE 类似的单摄像头和闪光灯开孔。然而,由于新一代 iPhone SE 将基于 iPhone 14 的机身设计,其尺寸将比现款机型更大。有传言称,新机将配备一块 6.1 英寸的 OLED 屏幕,而现款机型则为 4.7 英寸的 LED 屏幕。

除此之外,第四代 iPhone SE 预计还将从 Touch ID 切换到 Face ID,并从 Lightning 接口更换为 USB-C 接口。由于采用了 Face ID,新机将配备刘海屏,并支持部分或全部灵动岛功能。

此外,有报道称,第四代 iPhone SE 将支持 Apple Intelligence,这意味着其将搭载 A18 芯片并配备 8GB 的 RAM。(来源:搜狐科技)

 

岚图知音纯电 SUV 上市:800V 平台,17.99 万元起

10 月 13 日消息,岚图知音纯电 SUV 今晚迎来上市,官方售价 19.69 万元起,其中长续航智享版限量发售 3000 台 17.99 万元版本。

动力方面,该车搭载岚海动力 800V 电驱总成,提供 901 公里超长续航版本,互联互通 100 万充电桩,支持 5C 快充。搭载 10 个高清摄像头、5 个毫米波雷达,以及 12 个超声波雷达,NOA 点对点高速 / 高架领航辅助驾驶、高阶智能泊车等功能。(来源:IT 之家)

梦境交流成真:研究人员实现人类首次梦中「对话」

10 月 13 日消息,据 InterestingEngineering 报道,REMspace 研究人员成功实现了在梦境中进行意识交流,这一突破性进展标志着人类在意识交流领域迈出了重要一步。该研究证明,「清醒梦(lucid dream)」可以解锁新的沟通维度和人类的潜力。

清醒梦是一种特殊的梦境状态,做梦者在梦中能够意识到自己在做梦。研究人员利用专门设计的设备,诱导两个人进入清醒梦状态,并成功交换了一条简单信息。清醒梦是在快速眼动睡眠(REM sleep)期间出现的一种现象,具有广泛的潜在应用,从解决生理问题到学习新技能。REMspace 公司坚信,REM 睡眠将成为继人工智能之后的下一个重大突破。(来源:IT 之家)

Posted in: 科技

OpenAI 发布实时 API,AI 实时语音时代如何抢占风口?

10 月 2 日,OpenAI 发布了实时 API 公开测试版,用于构建基于 GPT-4o 语音到语音的 AI 应用和智能体。这是 GPT-4o 发布之后,OpenAI 在实时语音交互能力上的最新进展。

 

GPT-4o 所展现出的实时语音交互能力让外界印象深刻。而这很大程度上归功于 GPT-4o 大幅降低的语音延迟,平均 320 毫秒的反应时间,让 AI 与人的对话第一次接近了人类真实对话间的反应速率。同时其语气和情感模拟,也更加深 AI 与人类沟通之间的沉浸感。

而国庆假期间,OpenAI 发布的实时 API 公开测试版,则瞄准了 GPT-4o 语音到语音的 AI 应用和智能体,这像是给所以 AI 应用开发者的一个信号,大模型发展近两年后,基于声音的实时对话式 AI 场景或许会开始变的瞩目起来。

OpenAI 这次也公布了三家语音 API 合作者的身份:LiveKit、Twilio,以及 Agora。值得一提的是,前几年曾经爆火的 ClubHouse,背后的技术提供方就是 Agora,其兄弟公司声网则在国内更为人所知。Agora 聚焦美国和国际市场,声网则已经俨然是中国市场中 RTC(实时音视频,Real-time Communications)能力最头部且主要的提供者。

而当下实时对话式 AI 这场还未完全起势的浪潮背后,发展多年的 RTC 技术作为一项基础能力,已经逐渐靠近实时多模态大模型发展浪潮的核心。

 

01 RTC 是实时多模态大模型的必由之路

 

无可置疑的,大模型能力的提升直接促进了端到端实时多模态大模型的崛起。

此前,实时对话中的语音处理是基于传统的三步骤——语音识别、语音转文字、文字转语音(STT-LLM-TTS)——方法来进行的。现在得益于大模型自身能力的进化,端到端实时多模态模型能够直接处理语音,这与传统的三步骤处理方法相比,响应速度要提升很多,这也是为什么实时对话式 AI 的前景开始备受期待。

语音处理这个技术难题被攻下后,大模型领域的头部玩家们已经开始用脚投票了。

今年 6 月,Character AI 推出新的语音功能,用户可以与 AI 角色进行语音对话。这家人工智能聊天机器人初创公司表示,新的通话功能在推出初期就吸引了来自 300 多万用户的 2000 多万次通话。

Character AI 推出新语音功能几天后,微软 AI 负责人 Mustafa Suleyman 透露微软将在今年年底为用户拿出实时的语音界面,允许完全动态的交互。

而在国内的大模型领域,智谱 AI 8 月末在智谱清言中上线了国内首个面向 C 端的视频通话功能,该功能让用户能够通过应用程序进行语音和视频互动,整个体验类似于与真人对话。用户不仅可以使用手机的前置或后置摄像头进行视频通话,还能进行语音交互。这项功能特别适合在日常生活中的各种场景应用,比如协助学习、辨识物品等。

而在智谱清言新功能上线同日,科大讯飞星火极速超拟人交互技术也正式上线讯飞星火 APP,星火极速超拟人交互在响应和打断速度、情绪感知情感共鸣、语音可控表达、人设扮演四个方面实现重大突破,让整体交互体验更自然、更具情感。

电影《Her》中的场景,似乎真的要成真了。但 GPT-4o 进一步打开实时对话式 AI 的想象力所给人带来的启示,或许是我们仍然低估了「实时」在交互体验上的重要性。

实时对话式 AI 中,「实时」与「AI」一样重要,甚至作为一场与 AI 的对话体验中最决定性的变量,「实时」实际上的重要性要更胜后者。但要把「实时」拉到极限,端到端实时多模态模型的崛起只是近来取得技术突破的一条明线——它从思考速度上缩短了语音的交互时间。而另一条更绵长的发展暗线则是 RTC(实时音视频,Real-Time Communications)技术的持续进步。

更详细的拆解一下多模态大模型中实时语音交互的核心路径,大概就能辨析 RTC 技术在其中的重要意义:

 

首先,语音输入经过 RTC 传输到服务器,服务器端的多模态大模型接收到语音后开始预处理,这里的预处理主要包含了音频的 3A,例如语音的降噪、增益控制、回声消除等操作,使得后续的语音识别更加准确,让大模型更能听懂用户说的话;

 

随后,预处理的语音数据送入模型进行语音识别和理解,系统再通过模型生成回应,这其中还需要通过语音合成技术转换为语音信号;

 

最后,语音数据通过 RTC 传输到用户端,完成一次完整的语音交互。

声网在实践中发现,传统的 AI 语音对话(STT-LLM-TTS)在应用 RTC 后,响应延时可从 4-5 秒降低到 1-2 秒,而在具备端到端实时多模态处理能力后,通过 RTC 技术,大模型实时语音对话的延时可降到几百毫秒内。从体验上看,RTC 技术的应用让对话式大模型的交互更智能,更具真实感。

在 GPT-4o 的发布会上,有一个细节引人注意:用于演示的手机连接了一根网线。工程师 Mark 解释说,这样做是为了确保网络的稳定性。这也揭示了一个事实,即 GPT-4o 的演示是在固定设备、固定网络和固定物理环境中进行的,以保证低延迟。

然而在实际应用中,用户的设备通常不能始终连接网线,最终无论多强的模型能力,都需要依靠 RTC 技术来真正落到实时对话的场景中。而这其中多模态大模型在与 RTC 技术结合时如何保障低延时、流畅的语音交互体验,变得尤为关键。

一句话来说,RTC 是将多模态大模型与实时互动场景连接起来最关键的技术桥梁。

而随着 RTC 从最初的一种前沿技术在近年逐渐变成一项基础设施级别的能力并迅速在各个场景中延伸,加入了场景视角的 RTE(实时互动,Real time engagement)概念开始取代 RTC,成为当下谈论实时互动能力新的技术名词。

以声网创始人兼 CEO 赵斌对 RTE 的概念表述:

 

「RTC(实时音视频)从 Communication 的视角,更多是在强调对语义信息进行高质量和高效率的传递。而 RTE(实时互动)更聚焦用户所需要的共享时空,即俗话所说的场景。」从 RTC 到 RTE,就是从基础能力向场景化能力的进化。

 

在这个端到端实时多模态模型产品化势头初现的时期,声网和 RTE 开发者社区联合发起了第十届 RTE 大会。实时互动与 AI 的结合在当下所能承载的所有想象力,都会在这场大会中现身。

 

02 AI 浓度拉满,第十届 RTE 大会亮点前瞻

 

首先,不用怀疑的是,这场 RTE 大会上会有非常多足够有分量的观点交锋。

国内大模型领域在 ToB 方向上走的最深的智谱 AI,以及国内大模型领域在 C 端产品化上最有心得的 MiniMax 将会出现在 RTE 大会上。作为这两年随大模型迅速成长的创业公司,智谱 AI 和 MiniMax 在 RTE 技术在大模型的 ToB 和 ToC 两条路线上发展颇有心得。

而随着大模型开源生态的迅速发展,大量个人开发者从去年开始加入了这一股大模型浪潮,实时对话式 AI 开始成为一个备受开发者关注的产品赛道,通义千问也会带着国内最大开发者生态的经验在 RTE 大会中加入讨论。

除此之外,此次 RTE 大会也不乏业内备受瞩目的创业者身影。全球最受瞩目的 AI 科学家之一,一年前从阿里巴巴离职躬身入局大模型的贾扬清也会出现在此次 RTE 大会的主论坛上,来分享他在 AI 基础设施领域创业 18 个月后的经验心得,以及他对 RTE 与 AI 结合的未来趋势的判断。

本次 RTE 大会也将通过七场行业分论坛的形式,展现一幅最具想象力的 AIGC+RTE 行业场景应用图景,包括 AI+IoT、教育、泛娱乐、出海、数字化转型等七大行业。50+行业大咖将会现身行业分论坛现场,带来一线的场景实战案例以及极具深度的行业洞察。

场景是技术迭代所结的果实,未来对于新场景的想象力也酝酿在当下技术的前沿趋势中。本次 RTE 大会也在行业场景应用的讨论之外,设置了五场技术专场,分别聚焦在音频技术和 Voice AI、视频技术和 AI 生成、RTC+大模型、空间计算和新硬件、云架构和 AI 时代的 Infra 这五个技术方向,30+的技术大咖和专家学者将会带来自己对所在领域最深入的技术见地。

当然,对于参与到 RTE 大会中的开发者们来说,这里提供的不仅仅是观点和见地。每年 RTE 大会都会为参会开发者设置专属活动,在今年的 Workshop 中提供了用 TEN 开源框架来现场动手搭建拥有音视频理解能力的 AI Agent 的机会,这将为开发者带来更多 AI 实时互动场景创新灵感。

2024 年,实时对话式 AI 火热,而 RTE 大会也迎来了十周年。

时间倒回到十年前,2015 年移动互联网那时在国内还未完全成熟,RTE 大会在十年里见证了直播、在线教育、远程办公这些新的技术场景景一次次以新物种的面目亮相并最终融入了大众生活。在这个过程中, 实时互动技术逐渐成为人们在社交和泛娱乐产品中的基础设施。而随着实时互动行业的发展,走过十年的 RTE 大会已经变得越来越重要,它已经是当下这个领域在全球范围内规模最大、议题最全, 最具影响力的行业大会。

现在,AI 与实时互动的碰撞正涌现出新的技术和产品浪潮。而无论从前沿技术的探讨深度,还是多场景创新应用的丰富性上,今年的第十届 RTE 大会都像极了这样一场「风口浪尖」上的实时互动领域盛会。

这场大会将会展现出这场变革至今为止最锐利最先锋的一面。已经身处这场变革中的开发者们,或者对实时互动即将出现的颠覆性变化感到兴奋的所有人来说,请及时到场。

 

*头图来源:视觉中国

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

 

Back to Top