Posted in: 科技

2024,大模型的 iOS 时刻

科技史的组成,是几百年间一个又一个决定性时刻的串联。

2010 年 6 月 8 日凌晨一点,美国旧金山 Moscone West 会展中心的苹果发布会上,一身黑 T 恤蓝牛仔的乔布斯正式登台,他手握的 iPhone 4 自此成为跨时代的产品设计,凭借新理念的工业设计、500 万像素摄像头和视网膜显示屏以及 Facetime 视频通话等 100 多项新功能,这场发布会演讲,数次引起台下雷鸣般的掌声。

伴随着「very change, much wow」就这样改变一切的口号,全世界范围内的移动互联网浪潮就此拉开序幕。

不过,iPhone 4 改变世界背后,硬件的革新只是表象,所能影响到的,不过苹果与苹果产业链上下游,以富士康为代表的代工厂们。

真正让 iPhone 4 发布成为全球历史性一刻的,是 IOS 的推出,以及此后几年间安卓系统的快速跟进。开放的操作系统,让手机脱离了单纯的电话、拍照、播放音乐的功能限制,全世界软件企业的共同参与,进一步延伸了手机的边界,也孕育了 Facebook、TikTok、微信、美团等一大批超级应用,世界自此跑步进入移动互联网的时代。

应用决定想象力,成为新的行业铁律,而这条铁律,也正一点点在 2024 年的大模型时代再次被验证。

技术在不断进步,但商业模式,却总是踏着相同的韵脚不断重复。没有人会怀疑,大模型,正进入自己的 iOS 时刻。

01 创造大模型时代的明星产品经理

移动互联网的诞生初期,2010 年前后,曾经有一本爆款图书面世《人人都是产品经理》。

书中传达的理念,一时之间,给了无数求职无门的文科生们指出了一条新的职业方向。只是很快,大批涌入的文科生们就发现,产品的设计理念与技术的可行性是两回事;产品功能的实现,也始终离不开对代码底层逻辑的了解,《人人都是产品经理》不过是出版商为了卖书,使出的修辞手法。

一众大模型企业是否有从这本书身上取到经不得而知,但门槛降低才能生态成长的理念的确一脉相承:在大模型时代,代码能力,不再是影响产品创意的决定性因素,理念设想到产品落地,中间也仅需与 AI 的不断对话。轻装上阵,成为这一时期的大模型落地关键词。

第二届百度「文心杯」创业大赛正是这一现状最好的观察切口。

作为国内大模型领域最高规格、力度最大的创业大赛,百度「文心杯」创业大赛至今已连续举办两届。本届比赛,更是直接吸引了近 1600 个项目报名,其中,利用 AI 原生应用项目占比,更是从去年的 8 成提升至今年的超 9 成。

其中,值得一提的是,在本届文心杯的参赛团队中,超过 30% 参赛团队没有专业程序员。

就以本次比赛的二等奖获得者 Kotoko 虚拟角色社交互动平台来说,这是一款 AI-Native 社交游戏(类 AI 版模拟人生),应用底层基于 Multi-Agent 架构,可以实现环境-角色以及角色-角色的智能化互动,用户可创作个性化 AI 角色,体会与亲手创建的「纸片人」建立连接的快乐。其 CEO 是出身于商学院与投资人背景的 97 年创业者。而 CPO,则是 95 年出生,毕业于伦敦艺术大学,擅长游戏系统策划。

Kotoko:虚拟角色社交互动平台|来源:百度

与开发门槛降低伴随而来的,是应用创新的广度增加。

数据显示,去年的文心杯,还有约 30% 的参赛项目集中在通用办公及营销领域,今年参赛方向更加多元,涵盖文娱、电商、营销、医疗、办公、硬件、企业服务等等千行百业,整体的交付质量,也从过去的可能性展示,变成了真正的产品级交付。

比如一等奖,极睿科技,其产品定位于一站式电商素材 AI 工具,面向电商场景,为消费品牌提供覆盖图文及短视频的 AI 内容生成、管理工具及转化服务。

极睿科技:一站式电商素材 AI 工具|来源:百度

获奖项目水母智能则在 AI 绘画的基础上更深入一步,定位为 AI 漫画/漫短剧创作工具及内容平台,基于自研 AI 漫画生成工具链来赋能创作者,打造创作者社区和内容平台。当前,社区内累计的 AI Native 创作者已达 200 万,累计创作 1 亿+作品;并与国内外头部发行平台、网文平台等建立合作关系,已获得独家网文 IP 150 个。

水母智能:AI 漫画平台|来源:百度

技术的成熟,抹平了代码能力的差距,数量的爆发,带来了应用在千行百业的落地。此时此刻,摆在新时代开发者眼前的,似乎只剩行业经验这一道最后的鸿沟。

02 生态意味着什么?

大模型不是万能的,正越来越多的成为共识。

体现在技术侧:以百度为代表,越来越多的大模型头部玩家,不再过分强调模型性能的领先,转头讲起了生态与低门槛的故事。

而体现在应用开发侧:市场需要商业级交付,讲述大模型能做什么的美好期许前,承诺「我们的产品」可以帮用户解决哪些问题,成为竞争中新的赛点。

依旧以前面提到的做 AI 漫画的水母智能为例。漫画行业有一个定律:只有前 5%-10% 的内容是盈利的,盈利的前提漫画的品质做到 A+和 S 级。然而,中国能达到 A 级能力的主笔只有 200-300 位,能到助理水平的画师,也仅有两千到三千位,但市场中每年毕业的美术专业的大学生新增数量,却数以万计。

而在这一背景下,人们对大模型的期待,就不只是简单会画图,而是会画 A 级漫画,能用商业级产品,切切实实的为企业降本。

比如,产品应该是专业级的一体化的工作台,使用产品时,不需要像 SD 那样左右横跳,从文生图到图生图,又条件生图。

其次,漫画不同于单张图片,需要保持画面主角的一致性,对姿势、表情、特效等等的细节要求也更为苛刻:比如,同样是拥抱,但到底是熊抱还是抱头、抱腰,在 A 级变化中是有严格要求的。

而解决这些问题,大模型只是整个企业工作流中的一环,能完成人物的一致性,可以提供高级训练工具的企业,才是真正的赢家。

类似的情况,也发生在做 AI 心理诊疗的镜象科技身上。看起来 AI 心理诊疗,不过是聊天模型的翻版,但是 AI 其实并不能理解人的情绪,只能在行为和表达层面去进行计算推理。

镜象科技:基于大模型的专业心理诊疗 AI 智能体|来源:百度

而人类情绪复杂,常规的分类就有 18 种,最细的颗粒度甚至可以到 100 多种。除此之外,人的人生事件也可以被分成上千种,就算读书、毕业,也能分成十几、二十种不同的情况。

而这些精细的数据,并不存在于公域的互联网,反而是创业公司或者专业心理诊疗机构的核心壁垒。为建立数据库,镜象科技招募了十几个临床咨询的博士,花了两三年时间,不断收集生产数据,然后基于此进行训练,这才让最终的模型表达方式和回应方式,更像一个真实的心理咨询师的表达。

竞争的主战场,重新从技术被拉回传统赛道中的经验与数据积累,然而一个新的问题也随之产生:既然大模型不是万能的,那么百度承担的角色是什么?

03 从文心大模型到智能体生态,百度的基础设施蓝图

移动互联网时代,最大的增量机会出现在移动应用开发,但生态的繁荣,也进一步反哺,成为了苹果万亿市值的底座。

类比 iOS,成为大模型时代的基础设施,或许是关于百度,在大模型时代最精准的定位。

而这个定位,则要从技术、成本与生态三个角度来展开。

技术层面,在 ChatGPT 尚未面世的 2019 年,百度就发布文心大模型 1.0 版,历经四年多的技术深耕和研发迭代,文心大模型已经升级到 4.0 版。其中,2024 年 6 月,WAVE SUMMIT 深度学习开发者大会 发布的文心大模型 4.0 Turbo,则通过数据、基础模型、对齐技术、提示、知识增强、检索增强和对话增强等核心技术的持续创新,以及飞桨文心的联合优化,成为目前市面上性能第一梯队的大模型产品。

与此同时,针对那些对成本要求更高的客户,5 月,百度将 ERNIE Speed、ERNIE Lite 和 ERNIE Tiny 三款轻量模型免费;7 月,百度又大幅降低了文心大模型 3.5 和 4.0 两款旗舰模型的价格,将大模型的使用成本一降再降。

但文心大模型针对的,依旧是那些已经具备成熟技术开发能力的企业,如何让大模型能被更多没有经验的产品经理、传统行业从业者,甚至小学生使用,其实还需要更低的门槛,比如成熟到几乎没有门槛的开发平台,而这则需要千帆与智能体生态的共建。

对应到产品上,则是今年百度 Create 大会上百度发布的三个产品,AgentBuilder、AppBuilder、ModelBuilder。其中,AgentBuilder 作为基于文心大模型的智能体构建平台,通过提供的零代码与低代码开发模式,能够大大降低智能体的开发门槛,即使是没有编程基础的小白,也能仅用「一句话」就创建智能体。

至于为什么是智能体,李彦宏曾经对大模型的发展阶段做过一个三阶段预判

「一开始是对人进行辅助,最后出来什么东西需要人把最后一道关,我们确定它的效果是 OK 的,各方面都不错才会让它出去,这是 Copilot 阶段;再往下走就是 Agent 智能体,外界对于 Agent 有各种各样不同的定义,最主要还是说它有了一定的自主性,具备自主使用工具、反思、自我进化等能力;这种自动化程度再往下走就变成一个所谓的 Al Worker,能够像人一样做各种各样的脑力和体力劳动,各方面的工作都可以独立完成。肯定要有这么一个过程。」

其中,智能体的意义,在百度文心杯创业大赛颁奖视频致辞上,李彦宏再次做了补充:「智能体相当于 PC 时代的网站和自媒体时代的账号,它最明显的特点是门槛足够低,谁都能上手,天花板又足够高,可以做出非常复杂,非常强大的应用。我认为,将来会有数以百万量级的智能体出现,形成庞大的智能体生态。」

通过文心大模型+千帆平台等 AI 基础设施作为应用开发的根基,智能体进入人人可开发时代。

数据显示:百度 2024 年 Q2 财报数据显示,目前,文心大模型日均调用量超 6 亿次,日均处理 Tokens 文本超 1 万亿,与 23 年 Q4 公布的 5000 万次日均调用量相比,半年增长超 10 倍,日均调用量和日均处理的 Tokens 数均为国内最高。

04 大模型 iOS 的最后一块拼图——分发

很长一段时间里,百度内部都有一个讨论:做大模型的企业不少,其中不乏云计算公司和一众同规模的大厂;而发掘优秀大模型创业团队,风投也能做到。

那么百度,与风投以及其他企业的区别是什么?

答案是对标 iPhone,百度不仅有技术和生态,更能让开发者赚到钱。秘密就藏在百度的智能体分发生态中:搜索场景,正是智能体最重要的落地方向;贴吧、文库、百度知道、爱奇艺,则是各种垂类智能体最精准的应用场景。

据统计,智能体在百度生态的分发量 7 月日均分发次数已经超 800 万,是 5 月的两倍。此外,在百度开发智能体的商户已达 1.6 万家,覆盖教育、法律和 B2B 等行业。其中,最常用的智能体包括内容创作、性格测试、日程规划等类型。用户、开发者、服务商、商户均为智能体生态的重要参与方,

最典型的例子是百度在 6 月推出的高考智能体,可满足不同考生的个性化需求,帮助他们选择大学和专业。高考后,该智能体的日活跃用户峰值接近 200 万,实用性受到认可。

前文提到的水母漫画,不仅借助文心大模型,重塑了工作流,干掉了 50% 的决策和环节,降低了 62% 的成本,AI 漫画还上线了百度的移动端,然后百度的上游 IP,百度的网文也成为上游的 IP 供给方。

而对镜象科技来说,去年底开始就和百度 MEG 开启了业务的合作,今年还将继续推进大搜索、网盟以及 HCG 健康合作。比如,用户在搜索场景中,搜一些心理学相关的问题或者关键词,会调起在搜索中原生的智能体,由镜象科技提供的内容来回答用户搜索的问题。

至此,百度不只是帮助企业完成智能体搭建,同时还帮助企业完成了智能体落地的最后一环,分发与赚钱。

尽管,相比研发大模型,全球领先,比赛中做一个漫画工具,心理诊疗 agent,似乎并不性感。

但大模型时代,一切微小变革,或许将深切地改变一个时代潮流的流向。

而身处其中,我们往往后知后觉,但维度拉长,翻开这一页,就会发现,这一点点的微光,正是一个时代中,我们努力改变未来所留下的清晰注脚——大模型的 iOS 时刻里,不只有聚光灯下的 OpenAI 与百度们,更有成千上万的应用开发者。

*头图来源:百度

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

Posted in: 科技

特斯拉 Robotaxi 定档 10 月 10 日;三只羊被罚近 6800 万并道歉;Sam Altman:没拿公司大量股权

特斯拉预告 Robotaxi 发布,马斯克:这将载入史册

9 月 26 日消息,特斯拉官方及埃隆•马斯克在微博发布活动预热海报,将于北京时间 10 月 11 日在美国洛杉矶发布新品,活动主题口号为「We,Robot」(我们,机器人)。马斯克更高调宣称,「这将载入史册」。

The Verge、Electrek 等媒体指出,此海报图片为向部分机构发出的 Robotaxi(无人驾驶出租车)发布会邀请函——特斯拉将于当地时间 10 月 10 日(北京时间 10 月 11 日)举行「Cybercab」揭幕活动,并正式推出 Robotaxi。

除无人驾驶外,Electrek 预计此次发布会上还有望看到最新版本的 Optimus 擎天柱机器人。有猜测称,特斯拉此次可能不止发布一项产品,除了 Robotaxi,Optimous Gen3 或许也有望现身。

Robotaxi 和 Optimous 两款产品均配备内置 FSD 芯片的摄像头作为技术基础,其依赖纯视觉路线以及算法算力共同支撑的端到端 AI 大模型。正如马斯克曾言,「可以说特斯拉是全球最大的机器人公司,我们的汽车差不多算是有轮子的半感知机器人」。(来源:科创板日报)

Sam Altman 否认获得 OpenAI 巨额股权

9 月 27 日消息,据 CNBC 报道,在周四的一次全体员工会议上,OpenAI 首席执行官 Sam Altman 否认了有关他获得公司「巨额股权」的报道,称这一消息「并不属实」。他和财务总监 Sarah Friar 在视频会议上都表示,投资者对 Altman 没有获得 OpenAI 的股权表示担忧。

9 月 26 日,据知情人士透露,OpenAI 正考虑成为一家营利性公司,并首次让 Sam Altman 拥有这家人工智能初创公司的股权。OpenAI 高管们正在大批离职,首席技术官、曾临时代任首席执行官的米拉·穆拉蒂(Mira Murati)在当天表示将离开公司。

而关于可能获得股权的问题,Altman 说:「目前还没有计划。」OpenAI 董事会主席 Bret Taylor 在一份声明中称,虽然董事会已经讨论过此事,但目前还没有具体的数字,也没有做出任何决定。(来源:汇通财经)

 

阿里京东互相开放:京东物流进淘宝,支付宝进京东

9 月 26 日消息,淘宝天猫即将正式接入京东物流,预计于 10 月中旬上线,此后淘天商家在系统中选择商品寄送方式时,将多一个京东物流的选项。

与此同时,京东也将接入菜鸟速递和菜鸟驿站——两者分别是菜鸟的自营快递品牌和代收包裹的站点。京东也将正式接入支付宝支付,预计在双 11 前夕推出。目前消费者在京东下单,默认的支付方式排序依次为京东支付、云闪付、微信支付等。据悉,双方在物流和支付上的合作今天都已达成一致。(来源:晚点 LatePost)

OpenAI、微软、谷歌等签署欧盟《人工智能公约》

9 月 26 日消息,欧盟委员会当地时间 9 月 25 日公布了《人工智能公约》(AI Pact)的首批 100 多家签署方名单,该协议旨在促使企业就如何处理和部署人工智能发布「自愿承诺」。

虽然欧盟《人工智能法案》(the AI Act)已于上月生效,但所有合规期限还需数年才能实施。这就造成了一个不合规的真空地带,欧盟希望通过《人工智能公约》来填补这一真空。

目前欧盟委员会公布的签署方名单包括 OpenAI、微软、谷歌等,但不包括苹果公司和 Meta 公司。(来源:财联社)

 

三只羊回应涉嫌虚假宣传:全面整顿内部,愿承担法律责任

9 月 26 日晚间消息,三只羊网络发布声明称,近期有关我公司在直播中虚假宣传误导消费者的问题,引起社会的关注,我们对此诚恳致歉。我们全面接受联合调查组的调查处理意见和处罚结果,并愿承担相关法律责任。声明还提到,三只羊将全面开展公司内部整顿,依法经营,切实保护消费者合法权益。

9 月 26 日晚间,合肥市联合调查组发布情况通报,针对近期网络反映的合肥三只羊网络科技有限公司直播带货中存在的有关问题展开调查,依据《行政处罚法》《反不正当竞争法》等相关规定,拟决定对三只羊公司没收违法所得、罚款共计 6894.91 万元。随后,三只羊公司发表道歉声明,表示全面接受处罚。(来源:新浪科技)

 

「索尼 PS 之父」久多良木健:《黑神话:悟空》首月销量突破 2000 万份

9 月 26 日消息,在 2024 东京电玩展上,「索尼 PS 之父」久多良木健在主题演讲中确认,《黑神话:悟空》首月销量已经突破 2000 万份。

《黑神话:悟空》于 8 月 20 日正式发售。根据游戏科学官方的统计,截至北京时间 8 月 23 日 21 点,《黑神话:悟空》销量突破 1000 万份。也就是说,在不到一个月的时间内,《黑神话:悟空》又卖出了 1000 万份,在全球单机游戏史上也是一个不俗的成绩。

《黑神话:悟空》确认将开发 DLC 扩展内容,游戏科学投资人吴旦表示,这款游戏生命周期内销量可能会达到 3000 万份。(来源:IT 之家)

苹果迈步智能家居:新品被曝方屏、A18 芯片、支持 AI、远程识别手势、可装独立 App、定制锁屏

9 月 27 日消息,科技媒体 9to5Mac 发布博文,基于可靠消息源曝料,称苹果公司正在研发的智能家居产品名为「HomeAccessory」,内部代号为「J490」,搭载 A18 芯片(该媒体猜测是为了支持 Apple Intelligence)。

消息源还透露,苹果公司正在研发的「HomeAccessory」屏幕并非采用 iPad 的长方形设计,而是采用正方形设计,目前尚不清楚是否会沿用到最终成品中。HomeAccessory 还有一个内置摄像头,可用于 FaceTime 和其他视频会议应用程序。

HomeAccessory 还可以通过摄像头来识别用户手势,这样用户在厨房等场景下,如果不方便操控屏幕,就能通过手势进行控制。就像 Apple TV 一样,HomeAccessory 可以独立运行应用程序和播放媒体,但也可以作为 AirPlay 接收器使用。(来源:IT 之家)

 

罗技 GPW4 鹰眼电竞鼠标开售:HERO 2 传感器、8KHz 轮询率,1199 元

9 月 26 日消息,罗技 GPW4 鹰眼电竞鼠标(PRO X LIGHTSPEED 2 DEX)将于 27 日 0 点在京东现货开售,该款鼠标搭载 HERO 2 传感器、8000Hz 轮询率,首发价 1199 元。

据介绍,罗技 GPW4 鹰眼电竞鼠标采用人体工程学非对称设计,适用于右手;该鼠标搭载机械混合微动,辅以 LIGHTSPEED 无线技术,轮询率 8000Hz,支持最高 44000 DPI,888 IPS。

罗技 GPW4 鼠标提供黑色、粉色和白色三种配色,搭载 HERO 2 传感器,尺寸为 126×68×44mm,重约 60g,官方宣称一次充电,续航约 95 小时,支持 USB-C 快速充电。(来源:IT 之家)

NASA 的远端地震套件:借助火星 InSight 登陆器测量月震

美国国家航空航天局的远侧地震套件配备了先进的地震仪,旨在 2026 年对月球的远侧进行研究,为了解月球的地震活动和地质结构提供新的视角。这次任务将提供几十年来该地区的首次地震数据,为月球科学做出重大贡献。其两台地震仪背后的技术曾用于探测一千多次红色星球地震。

这两台地震仪是最近在南加州美国宇航局喷气推进实验室(JPL)组装的名为”远侧地震套件”(FSS)的有效载荷的一部分,预计将于 2026 年抵达薛定谔盆地,这是一个距离月球南极约 300 英里(500 公里)的宽大撞击坑。这套自给自足的太阳能装置拥有自己的计算机和通信设备,还能抵御月球白天的酷热和夜晚的严寒。

JPL 的 FSS 首席研究员兼 InSight 项目科学家马克-潘宁(Mark Panning)说:”FSS 将为我们几十年来一直在追问的有关月球的问题提供答案。我们迫不及待地想开始获取这些数据。”(来源:cnBeta)

 

Posted in: 科技

最强 AR 眼镜 + 最受欢迎开源 AI,Meta 大会小扎赢麻了

头图来源:Meta

 

「扎克伯格人去哪了?」

 

这是在预计时间开始后十分钟、Meta Connect 2024 主题演讲仍然迟迟没有开始后,各大直播平台评论里观众提问最多的问题。

 

原本预定将于太平洋时间早上十点(北京时间 9 月 26 日凌晨一点)开始的主题演讲,实际在计划时间开始 15 分钟后才随着Meta 创始人扎克伯格跑步入场开幕:给人一种小扎也是踩点早高峰上班、不小心迟到的打工人的感觉。

 

好在本次发布的新品足够重磅,还算弥补了全球网友损失的这十几分钟寿命:除了更便宜的 Quest 3S 系列,还有 Meta AI 与 Llama 3.2,以及让我们得以一窥未来 AR 眼镜形态的 Orion 原型机

 

最受欢迎的「AI 眼镜」、最强功能的 AR 眼镜,以及最多人使用的开源 AI,难怪最近扎克伯格的采访总给人一种「我强的可怕」的感觉——苦熬多年的元宇宙最终结出了 Orion 这样的 AR 之花、Llama 3.2 大模型依然在继续开源,他确实有底气说:

 

Meta,是一家用技术实现愿景的公司

 

Quest 3S:下一台销量千万的 Quest

可能是意识到因为自己迟到,让全世界多等十五分钟犯了众怒的原因,扎克伯格上台后甚至没怎么寒暄,迅速单刀直入,在演讲开始的三分钟内就公布了 Meta Quest 3S 的价格,堪称近几年的硬件产品发布会中的一股清流。

图片来源:Meta

 

作为 Meta 寄予厚望、支撑起 Quest 系列全球出货量超千万台的新品。 Meta Quest 3S 起售价 128GB 版本为 299 美元,256GB 版本售价 399 美元,十月 15 日开售。

 

相比 Quest 3 系列,定位入门级的 3S 在芯片等主要硬件规格上与 Quest 3 保持一致,但在机身材质与显示画质从 4K 降低至 2K(Quest 3S 单眼分辨率为 1832*1920)两个方面做了取舍,换来更低廉的售价。

Meta Quest 3S 外观 | 图片来源:Meta

 

当然,作为 Meta 每年发布 Quest 新品吸引用户的惯例,这次也少不了一大批新游戏、新软件的登陆与适配:现在 Quest 3 系列不仅原生支持 Windows 11 设备拓展多显示器功能,此前备受期待的蝙蝠侠 IP MR 游戏《阿卡姆之影》属于附赠内容,从现在开始每一位在 2025 年四月之前购买 Quest 3S/3 的用户都能免费将其收入库中,算是硬件大厂中相当有诚意的软件促销内容了。

 

在 Quest 3S 发布之后,Quest 3 将仅保留 512GB 版本售卖,售价从原本的 649 美元降至 499 美元。

 

Meta Rayban:新设计、新功能

在真正的大招放出来之前,扎克伯格还是卖了个关子,带大家回顾了一下 Meta Rayban 过去一年所取得的成绩。

 

作为很可能是迄今为止是业界唯一一款真正意义上取得现象级成功、出货量超百万的 AR 眼镜产品,Meta Rayban 系列对于 Meta 的重要性不言而喻。

 

因此本次发布会中,Meta 也给 Rayban 系列带来了一系列新功能:包括一款名为「Be my eyes」的互助类 App,用来让眼镜给低视力患者充当义眼,将眼镜所拍摄到的眼前数据实时上传,并由其他视力正常的志愿者帮助 Meta Rayban 的使用者来感知日常世界。

| 图片来源:Be my eyes

 

Meta Rayban 眼镜所搭载的 Meta AI 现在也加入了更多多模态功能 —— 比如自动识别车牌号,帮你记录停车位置,以及通过语音指令要求 Meta AI 在航班着陆后三个小时内自动给家人报平安;或者是借助 Meta Rayban 的多模态能力,使用 Meta AI 来感知显示世界中的地标建筑,帮你快速适应一个新街区或城市 —— 比如生成一份旅游计划。

 

另外 Meta Rayban 现在也能通过 Meta AI,实现实时语言翻译了 —— 这是如今一些 TWS 耳机已经支持的功能,目前 Meta Rayban 的版本支持英语、西班牙语、法语与意大利语,未来还将有更多语言陆续加入。

 

最后,Meta 还发布了一款限量特别版 Meta Rayban,机身采用透明设计,整体在维持飞行员系列的时尚外观的同时看起来更有科技感。

特别款 Meta Rayban | 图片来源:Meta

 

能够根据外部光源切换眼镜/墨镜形态、并且具有超高响应速度的 UltraTransitions® GEN S™ 系列镜片现在也加入了针对 Meta Rayban 的定制版,时尚的同时出街搭配更方便了。

UltraTransitions® GEN S™ 系列镜片 Meta Rayban 定制版 | 图片来源:Meta

 

Orion:「下一代 AR 交互体验」

 

但我们都知道,Meta Rayban 其实并非典型意义上的「AR 眼镜」:由于 Meta Rayban 完全不具备内容显示能力,因此业内一直有不少人认为 Meta Rayban 所取得的成功,对于推动 AR 技术(尤其是显示技术)继续向前发展并无太大帮助,甚至是在摧毁 AR 初创企业生长的土壤,理由也很简单:

 

「连行业老大做的智能眼镜都没有显示功能,会让很多人会好奇AR 眼镜真的还有未来吗?」

 

但今天发布的新品,或许会让持有这种观点的质疑者完全收回这句话,因为 Meta 发布的 Orion AR 眼镜,当之无愧让我们看到了「下一代 AR 交互体验」的雏形。

 

在硬件上,Orion 采用了 ULED + 微型投影仪方案,不仅支持全彩内容显示,还能通过空间定位,将接近 Vision Pro 或 Quest 那样的窗口空间定位能力,整合在 AR 眼镜这样要轻盈的多的形态中,也可以说是 Meta 在 AR 领域研究的集大成之作。

 

为了支持接近 VR 头显的空间计算效果,Orion 在眼镜上塞进了七颗摄像头来感知周围环境。

 

为了搭建起能够处理这些数据的算力环境,Orion 又单独设计了一款体积不小的椭圆形计算单元,采用无线数据传输的方式来完成眼镜计算空间数据所需的算力,但因为是无线传输,所以计算单元与眼镜之间的距离不能超过 12 英尺。

Orion 的计算单元、腕带与眼镜本体 | 图片来源:Meta

 

除了手势识别,Orion 还支持眼球视线交互,甚至通过搭配腕带,还能在你的手不刻意抬起来,自然低垂在腰间的状态下,识别到诸如「搓大拇指」这样微小的交互手势 —— 这些甚至已经与 Vision Pro 的交互操作能力无异,但这些都被集成在了一台重量仅为 100 克,外观接近 Meta Rayban 的产品形态中。

 

仅仅以上目前 Orion 所展示出的能力,就已经堪称对 AR 眼镜领域的又一次「降维打击」:现场还播放了一条片,包括黄仁勋老黄在内的各界大拿在体验到 Orion 的实际表现后,众人纷纷露惊呼难以置信以及露出震惊表情的画面。

老黄体验过 Orion 之后的表情 | 图片来源:Meta

 

相比 Meta Rayban 通过产品的精准定义取得成功,Orion 这次是 Meta 从更高的技术维度上,再一次颠覆行业。

 

「这就是我们一直以来致力于达成的目标」,对于 Orion 对于 AR 眼镜现有能力带来的颠覆,扎克伯格这样表示了 Meta 的计划。

Orion 是目前唯一一款展示了接近全功能 MR 头显空间交互能力的 AR 眼镜 | 图片来源:Meta

 

但扎克伯格也承认,现阶段的 Orion 还只是一个原型机,「在(AR 眼镜)正式量产面向用户之前,还有很多问题需要解决」。

 

比如,此前包括老黄在内的嘉宾,他们体验到的 Orion 的实际分辨率为 13 像素/度(Quest 3 为 25 像素/度),在显示效果上相比目前业内存在的 AR 眼镜,其实并无太大优势,但 Meta 也小小展示了一下藏着的底牌 —— 另一台并未对外界过多展示的 Orion 原型机,已经能在相同体积下,做到 26 像素/度的清晰度。

 

只是在目前 AR 眼镜的产品形态下,更高的分辨率势必要牺牲更多的电池寿命 —— 这对于强调全天佩戴的 AR 眼镜来讲很大程度上是一个致命的问题。

 

另外,成本也是一个重要的量产考量因素:Meta 在会后向媒体透露:目前 Orion 这套解决方案的硬件成本超过 1000 美元。这个价格相比 Vision Pro 的定价堪称低廉,但放在 AR 眼镜品类中已经是一个令人惊悚的天文数字

 

因此,在价格与功能之间取得平衡也会是一个重要的考量。

 

无论如何,Orion 已经让我们得以「管中窥豹」地了解到,过去数年 Meta 在 AR 领域的技术积累,或许到明年 Meta Connect 25 上,我们就能看到更接近普通用户的 Meta AR 眼镜产品了。

 

Meta AI :月活5亿,小扎称「全球最多」

 

聊完硬件,扎克伯格还有AI。

 

据扎克伯格透露,整合到Facebook和Instagram里的Meta AI聊天机器人现在月活用户是5亿,他还称,Meta AI有望在年底前成为全球使用最多的AI助手。

 

紧跟各个行业对手,在 Connect大会上,Meta AI朝着多模态进一步迈进。

 

就像OpenAI那样,Meta现在也有AI语音对话了。与OpenAI这一功能的入口是ChatGPT,Meta的入口则是 Messenger、Facebook、WhatsApp 和 Instagram D等众多产品,用户可以在这些产品里用语音与MetaAI对话。

 

扎克伯格说:「我认为,与文本相比,语音将成为与AI交互的更自然方式。」

 

随着该功能开始推出,据扎克伯格介绍,用户可以选择不同的语音选项,包括一些美国名人的熟悉声音。在舞台上,一个以奥卡菲娜为模型的AI语音回答了扎克伯格的一个问题。

 

Meta显然吸取了教训,已经与这些名人达成合作,没像OpenAI那样未经同意用了斯嘉丽·约翰逊的声音后惹来控诉。

 

 Meta推出AI语音对话 |图片来源:Meta

 

除了语音对话,Meta AI还有一些大厂AI机器人必备的「常规操作」,比如图像编辑功能,用户直接用自然语言就能给自己的照片简单P图,包括给人物换衣服,给照片换背景等。

 

 Meta AI的P图功能 |图片来源:Meta

 

用户可以将AI生成的图像直接分享到Facebook和Instagram上,Meta AI还可以为社交帖子建议标题。

 

另外,用户还在与Meta AI的聊天中分享照片,就照片进行提问。比如分享在徒步时看到的一朵花的照片,询问这是什么花,或者分享一道新菜的照片,并询问如何制作它等。

 

 MetaAI功能:就图片进行询问 |图片来源:Meta

 

语音、图片之外,Meta的AI功能还将应用在视频上。Meta正在测试自动视频配音和口型同步功能,它将自动翻译Instagram上的Reels短视频,即使短视频创作者讲不同的语言,也可以让不同的观众听到自己的「母语」。

 

Meta的这款 AI翻译功能目前还在Instagram和Facebook上小规模测试,翻译一些来自拉丁美洲和美国的创作者的视频,语言为英语和西班牙语,扎克伯格计划未来将其扩展到更多的创作者和语言。

 

 Meta短视频直接转换成观众母语 |图片来源:Meta

 

在AI与硬件的融合方面,Meta的与Ray-Ban合作的智能眼镜也加入了包括翻译在内的AI功能,扎克伯格将其称为新的「以AI为中心的设备」。

 

根据介绍,这款眼镜无需每次都说「Hey Meta」就能向Meta AI提出后续问题。

 

这款眼镜还能够进行实时AI翻译,在现场演示中,扎克伯格讲英语,另一个人讲西班牙语,双方进行了一场对话,智能眼镜充当了翻译。不过,从效果来看,翻译还是像传统的随身翻译那样有一定「时差」。

 

AI 新模型:Llama 3.2,继续开源

 

在 Connect大会上,扎克伯格还介绍了Meta最新的Llama 3.2系列模型,其中包括小型和中型视觉 LLM(11B 和 90B),以及适合边缘和移动设备的轻量级纯文本模型(1B 和 3B)。

 

扎克伯格继续高举「开源」的大旗,不想让OpenAI等一家独大,提供Llama 3.2的开放下载,社区开发者可以在Llama官网和 AI 社区Hugging Face上直接获取这些模型。

 

Meta Connect舞台上的扎克伯格 |图片来源:Meta

 

Llama 3.2系列中最大的两个模型,11B和90B,支持图像推理用例,如包括图表和图形在内的文档级理解、图像的字幕生成,以及基于自然语言描述在图像中定向定位对象等视觉定位任务。

 

例如,一个人可以就上一年他们小型企业在哪个月份销售最好提出问题,Llama 3.2可以基于可用的图表进行推理并快速提供答案。在另一个例子中,该模型可以使用地图进行推理,帮助回答诸如徒步何时变得更陡峭等问题。

 

11B和90B模型还可以弥合视觉和语言之间的差距,从图像中提取细节,理解场景,然后撰写一两句话,可用作图像字幕来帮助讲述故事。

 

轻量级的1B和3B模型则有多语言文本生成和工具调用能力,它们使用了两种方法——「剪枝」和「蒸馏」,是首批能够适应设备的小型Llama模型。

 

据介绍,开发者能够用这些模型使构建设备端的自主应用。例如,此类应用可以帮助总结最近收到的10条消息,提取行动项,并利用工具调用直接发送后续会议的日历邀请。

 

在数据隐私问题上常年备受各界诟病的Meta,此处的旗号是要「实现数据永不离开设备的强大隐私保护」

 

在本地运行这些模型有两个主要优势。首先,由于处理在本地完成,提示和响应会感觉更即时。其次,本地运行模型可保持隐私,不会将诸如消息和日历信息等数据发送到云端,使整体应用更加私密。由于处理在本地完成,应用可以清楚地控制哪些查询保留在设备上,哪些可能需要由云端的更大模型处理。

 

据Meta声称,Llama 3.2视觉模型在图像识别和一系列视觉理解任务上,可与Claude 3 Haiku和GPT4o-mini竞争。3B模型在诸如遵循指令、摘要、提示重写和工具使用等任务上优于Gemma 2 2.6B和Phi 3.5-mini模型,而1B模型在与Gemma竞争时表现出色。

 

Meta推出Llama 3.2系列模型 |图片来源:Meta

 

之所以坚持开源,目前Meta的官方说法是,「确保世界各地的更多人能够获得AI提供的机会,防止权力集中在少数人手中。」

 

当然,值得指出的是,Meta的模型属于「开放权重」,而非完全「开放源代码」。这一度引起业界对于Meta的模型是否是真正意义开源的争议,但对于全球一些开发者来说,有总归比没有强。

 

另外一方面,构建LLM总是昂贵的,Meta也有自己的商业利益要考虑,在何种程度上不损害公司利益,扎克伯克有自己的考量。

 

其中的关键一点,他此前已经在公开信中明确提到:「Meta 与封闭模型提供商之间的一个关键区别是,出售 AI 模型访问权限不是我们的商业模式。这意味着公开发布 Llama 不会像封闭提供商那样削弱我们的收入、可持续性或投资研究的能力。(这是一些封闭模型提供商不断游说政府反对开源的原因之一。」

 

扎克伯格宣扬开源AI |图片来源:Meta

 

此次 Meta Connect 大会,在 Orion 上,能看到 AR 眼镜这一形态,未来进一步模糊 AR/VR 边界的潜力,可以说 Meta 凭借 Orion 的发布,一战重新稳固了自己在 AR 眼镜技术领域的龙头地位。

 

至于AI,从Meta的发布会来看,多模态AI已经成为大厂和巨头的标配。而在AI模型上,关于开放和闭源哪种更好的争论还在继续,扎克伯格的选择,可以视作对OpenAI等闭源模型巨头发起的挑战。

 

但依然要面对的现实是,无论 AR 还是 AI,在产品形态和技术选型上依然处于无尽的变化之中,而 Meta 显然让全世界知道,自己,才是那个最有资格来定义这些重要技术产品的公司。

 

Back to Top