Posted in: 科技

马斯克连线特朗普,遭网络攻击迟迟未开始;传微信将删除 3 天未接收消息;传董宇辉至今总薪酬约 6 亿元

我国完成备案并上线、能为公众提供服务的生成式 AI 服务大模型达 180 多个

8 月 12 日消息,据「工信微报」消息,在日前召开的第十二届互联网安全大会上,中央网络安全和信息化委员会办公室副主任、国家互联网信息办公室副主任王京涛介绍,截至目前,我国已经完成备案并上线、能为公众提供服务的生成式人工智能服务大模型达 180 多个,注册用户数已突破 5.64 亿。

据介绍,近年来我国人工智能发展取得显著成效。一方面,初步构建了较为全面的人工智能技术产业体系,相关企业超过 4500 家,产业规模持续扩大;另一方面,人工智能与实体经济融合不断深化,人工智能应用加速探索,建成 2500 多个数字化车间和智能工厂,经过人工智能改造,研发周期平均缩短 20%,生产效率提升 35%。同时,人工智能也在加速政务、金融、能源等领域的数字化进程。(来源:IT 之家)

微信自动清理 3 天未读消息引热议,官方回应「已接收内容可永久保存」

8 月 12 日消息,许多小伙伴们使用微信查阅历史消息时会遇到未读消息被清空的问题,在涉及一些重要文件场合时较为不便,今天相关话题冲上微博热门。

有网友在社交媒体发文称,微信疑似会吞噬 3 天前的未读消息。对此,腾讯客服表示,在微信聊天时,已接收并下载(查看)的图片、视频、文件、文字、语音、表情等聊天记录均会被一直保存在当前设备内,可被永久查看。

腾讯客服同时表示,如果用户存在未接收的消息,微信服务器将自动保留相关消息 3 天,3 天后自动清理,清理后无法再接收。

不过许多网友对此表示质疑,认为微信相关举动实际影响用户体验,容易导致错过部分重要消息。(来源:IT 之家)

 

X 因获取欧盟用户数据用于训练 Grok 而遭到一系列隐私投诉 

伊隆·马斯克(Elon Musk)旗下的社交媒体平台 X 在未征得用户同意的情况下,擅自将欧盟用户的数据用于训练人工智能模型,从而引发了一系列隐私投诉。

上月底,一位眼尖的社交媒体用户发现了一个设置,显示 X 已经悄悄开始处理地区用户的发帖数据,以训练其 Grok 人工智能聊天机器人。这一发现引起了爱尔兰数据保护委员会(DPC)的「惊讶」,该委员会是负责监督 X 公司遵守集团《通用数据保护条例》(GDPR)的监督机构。

GDPR 规定,所有个人数据的使用都必须有有效的法律依据。奥地利、比利时、法国、希腊、爱尔兰、意大利、荷兰、波兰和西班牙的数据保护机构收到了针对 X 公司的九项投诉,指控其在未征得欧洲人同意的情况下处理他们的职位以训练人工智能,从而违反了这一规定。

隐私权非营利组织 noyb 的主席马克斯-施雷姆斯(Max Schrems)在一份声明中评论说:「我们看到了无数这样的例子,在过去的几年中,我们已经看到了无数次 DPC 低效和部分执法的例子。我们希望确保 Twitter 完全遵守欧盟法律,在这种情况下,至少需要征得用户同意。」(来源:cnBeta)

 

极氪汽车计划 2025 年进入日本市场,今年底将覆盖全球 50 个国家和地区 

8 月 12 日消息,据日本经济新闻报道,极氪智能科技副总裁陈禹接受采访时表示,极氪计划 2025 年进入日本市场。

目前极氪已进入瑞典、荷兰、泰国、墨西哥等在内的近 30 个国际主流市场。2024 年底将进入全球 50 个国家和地区,涵盖欧洲、亚洲、大洋洲和拉丁美洲。

此外,右舵版的极氪 X 已经在泰国、新加坡等右舵市场开启交付。(来源:IT 之家)

传董宇辉爆火至今总薪酬约 6 亿元,还剩 1.4 亿未到账

东方甄选头部主播董宇辉自 2022 年 6 月爆火以来,其薪酬问题一直备受外界关注。据《晚点 LatePost》报道,有知情人士透露,董宇辉至今的税前总收益约为 6 亿元,但其中 1.4 亿元尚未到账。

6 亿元这一数字不仅包括了薪酬、股权、高管赠予、保底收入,还有与辉同行利润的一半以及新东方帮助董宇辉支付的与辉同行收购款。(来源:快科技)

 

估值50亿美元,文远知行寻求通过美国 IPO 和私募筹资不超过 4.4 亿美元

中国自动驾驶科技公司文远知行正在寻求通过美国 IPO 和私募筹资不超过 4.4 亿美元。

根据上周五呈交美国证券交易委员会的文档,这家总部位于广州的公司在去年获得中国证监会批准美国上市后,正在发售 645 万份美国存托股票(ADS),发行价格区间为 15.50 至 18.50 美元。每份 ADS 代表 3 股普通股,按发行价区间的高端计算,文远知行的市值约为 50 亿美元。

文件显示,一些投资者同意以私募方式购买价值 3.205 亿美元的普通股,其中雷诺-日产-三菱联盟旗下的 Alliance Ventures 将购买价值 9700 万美元的普通股,其他投资者还包括 JSC International Investment Fund SPC 和 Get Ride Inc.。Alliance Ventures 参与过文远知行在 2018 年和 2021 年的两轮融资。

文件还显示,汽车零组件制造商博世(Robert Bosch GmbH)同意以 IPO 价格购买价值不超过 1 亿美元的 ADS。(来源:格隆汇)

 

面向 L4 级自动驾驶,英伟达下一代车载自动驾驶域控芯片 NVIDIA Thor 落地「合肥工厂」

8 月 12 日消息,据「合肥经开发布」官方公众号,面向 L4 级自动驾驶市场的车规级域控制器 AD1 已在位于合肥经开区的联宝工厂首次成功下线,这意味着联宝科技成为首批实现英伟达 NVIDIA DRIVE Thor 芯片产品生产落地的工厂。

NVIDIA Thor 是英伟达最新研发的下一代车载自动驾驶域控芯片,整板共有约 1.66 万个点位,近万个元器件,8 个 DDR,号称可以将所有智能车功能集中在一块芯片上,从而实现安全可靠的自动驾驶。

NVIDIA Thor 的首批用户包括理想、昊铂、小鹏汽车、比亚迪等。而联宝科技生产的 AD1 是针对 L4 级自动驾驶商业应用场景的需求而规划、设计的车规级域控制器产品,主要为自动驾驶出租车(Robotaxi)、自动驾驶卡车(RoboTruck)、自动驾驶小巴(RoboBus)、自动驾驶环卫车(RoboSweeper)等无人商用车规模化量产铺路。(来源:IT 之家)

小鹏全新机器手首次亮相,AI 机器人下单小鹏 Mona 

小鹏汽车董事长何小鹏 8 月 12 日上午在微博发布视频称,自己用钢铁助理操作手机预定了 MONAM03。他表示,也许以后不仅仅是在互联网有「嘴替」了,现实生活中也有「手替」了。「这几天 MONAM03 预订火爆,我让钢铁助理也体验一下预订流程,流程蛮顺畅。」

何小鹏表示,机器手灵活度高且拥有触觉能力,未来可以在工业场景中处理非常精细的任务。他谈到,小鹏的 AI 及大型硬件的新进展今年内将跟大家同步。(来源:界面新闻)

 

真我 320W 闪充来袭 满电仅需 4 分钟

真我将于 8 月 14 日发布 320W 超光速秒充技术,这是迄今为止最快的手机闪充方案,堪称史无前例。博主数码闲聊站透露,真我 320W 闪充样机仅需 4 分钟就能充至 100%,但现阶段电池容量不大。

此前真我首发量产了 240W 闪充技术,电池容量是 4600mAh,不到 10 分钟就能充至 100%,由此看来,真我 320W 闪充方案的电池容量应该在 4500mAh 左右。(来源:快科技)

特朗普即将连线马斯克:特斯拉投资者处于提心吊胆状态

北京时间周一(8 月 12 日),伊隆·马斯克在社交媒体上表示,美东时间晚上 8 点(北京时间周二早 8 点),他将与美国前总统、共和党总统候选人唐纳德·特朗普进行对话并直播。

马斯克补充称,这场对话是没有脚本的,在主题上也没有任何限制,「所以应该会非常有趣!」不难想到,电动汽车这个话题基本不会落下,这可能会让特斯拉股票的投资者坐立难安。

当前,原定北京时间 8 点开始的直播,迟迟未能开始,马斯克在 X 上说遭到了网络攻击。(来源:财联社)

 

Posted in: 科技

阿里把十年后的超时空购物体验店,搬到了巴黎奥运会旁边

场内场外,处处赛场。

当全世界三分之二人口的目光都聚集一处,奥运,从来不单只是体育的竞技。

场馆之内,接连的世界纪录突破之外,本届奥运会还是黑科技最多、AI 应用最广的一届奥运会。奥运期间,AI 被用到了裁判打分、技术分析、数字化传播、解说助力、选手训练等方方面面。芯片巨头、云服务玩家、AI 小巨头全数下场。

场馆之外,则是品牌营销的竞技场。爱彼迎、阿里巴巴、安联保险、Atos、普利司通在内,本届奥运全球合作伙伴(TOP 赞助商),也正从衣食住行,到保险金融,从办公用品到咨询服务,以一种无形的方式,全方位影响全世界 60 多亿人生活的方方面面。

而他们如何承接与转化奥运会期间的泼天流量,也在一定程度上展现了近些年来他们关于技术、关于品牌的最新思考与技术进步。

作为国内唯一的独家奥运 TOP 赞助商,阿里巴巴本届奥运营销重点围绕 AI 展开。一方面,基于阿里巴巴为奥运会提供的 AI 驱动的云服务,本届赛事在云上办赛和转播,尤其是云上 AI 多镜头回放的应用,助力奥运从卫星转播全面进入云转播的时代。另一方面,基于阿里巴巴赞助奥运会的另一个类别-电商服务,它在香榭丽舍大街这条举世闻名的商业街上,还搭建了一个名为香榭丽舍阿里廊的未来生活体验馆。在阿里廊这个空间里,游客可以定制专属的智能助理,完成依据喜好定制化妆品、香水和音乐,甚至可以创建虚拟分身参加走秀。

奥运加持,场子选在全球最知名的购物天堂,香榭丽舍阿里廊无处不在的黑科技背后,绝不仅是一场简单的技术秀肌肉,背后还藏着阿里巴巴关于未来零售电商商业模式,关于 AI 应该如何服务人类的更多思考。

01 阿里在奥运会,给未来购物打了个样

巴黎奥运会已经是阿里巴巴成为奥运会全球合作伙伴后的第四次奥运会(夏奥+冬奥)。这一次,阿里决定冒个险,把 2034 年的「超时空体验店」「搬回」到全球的消费与名利场之巅香榭丽舍大街上去。

图片来源:阿里巴巴

这里是世界三大繁华中心大街之一,一头远眺协和广场,一头直对凯旋门,全长 1800 米的主干道上,汇集了全世界的名牌、高奢与潮流品牌。

而要想在这样一个寸土寸金的地方镇住场子,香榭丽舍阿里廊里所有的陈列,都必须如同一粒真正的药物胶囊,方寸之间,任何细节都需要被严格考核:技术要足够黑科技也要能落地:商业模式要让人眼前一亮也要配得上香榭丽舍的调性,宛如一台压缩了未来十年后传送回来的实物版 WinRAR。

那么问题来了,这个「来自十年后的、长达 88 米的实物版 WinRAR」里,应该压缩进什么内容?

阿里巴巴的答案是:在 88 米的空间延伸中,打造四个不同主题的时间胶囊,将消费者带到 2034 年由阿里巴巴智能助手引导的未来购物体验之中,将代表传统购物巅峰的香街,延展到未来线上购物的无尽想象里。

其中,胶囊 1 主要用于智能助手的构建。在这里,游客通过触摸屏展台与多语言聊天机器人进行运动偏好等个性化内容的互动,即可创建数字人分身,获得开启未来购物之旅的通行证。

游客在胶囊 1 中与智能助理互动|图片来源:阿里巴巴

在此之后,游客会步入胶囊 2,在这里,智能助理会结合游客喜好给出量身定制的建议,进而定制化妆品、香水和音乐等产品。比如,在「试妆」环节,游客只要拍摄一张照片,智能助理就会根据相应图像结构,推荐最适合的化妆品,并且生成一张上妆后的照片海报。在音乐体验站环节,智能助手则会基于用户喜好,在提供相应基础旋律后,加入游客喜欢的音乐元素,为其量身定做一首独一无二的音乐。

游客在胶囊 2 中与智能助理共创香水|图片来源:阿里巴巴

胶囊 3 则是四个由青年艺术家黄玉龙、陈粉丸、易燃、邹雅琦设计的未来平行宇宙,主题分别为「幻迪」、「剪纸」「青花瓷」和「有机」。在这里,游客则可以在未来平行宇宙中,在 AI 的推荐下为自己的数字分身进行换装打扮,并与这个数字分身互动。而相应的海报照片,只需轻点通行卡就能生成。

游客在胶囊 3 中与智能助理共创平行世界服装|图片来源:阿里巴巴

在最后一个胶囊 4,游客可以在现实世界中与自己在未来平行宇宙中的数字分身一起参加时装秀,并进行照片与视频记录,让每个宇宙都变成自己大放异彩的秀场。

游客在胶囊 4 中走秀|图片来源:阿里巴巴

在这四个胶囊中,未来电商购物为主题,AI、VR、元宇宙等等新闻中的黑科技轮番登场,阿里的创意营销,够硬核也足够吸睛。

不过与这条大街上,只服务全球0.01%客户的顶奢品牌们不同,阿里的野心,是借助AI智慧助手的力量,让个性化定制从特权变得普惠,为每一个消费者个体而生,实现真正的购物平权。

02 香榭丽舍阿里廊背后的电商零售新方向

集合奥运与香榭丽舍两大重量级营销元素,香榭丽舍阿里廊表面看只是阿里对技术的秀肌肉,内核里却是阿里用技术改变未来购物模式的野心集合。

事实上,这也是阿里相比 OpenAI 等单纯的技术提供商,最大的优势所在——擅长研发技术,更擅长在直播、云购物场景中用好技术。

这种用好的第一层,是用 AI 更好地服务于人,加快电商行业的迭代。

回顾过去,不难发现,以阿里巴巴为代表的中国的电商行业历史,虽然已经有二十多年,但在此期间,进化从来没有停止:从黄页到网店,从基本的把货在网上卖到把不同货通过网络卖给不同人;从千篇一律的卖货到根据需求定制产品;从搜索到推荐;其进化的最基础逻辑是让传统的人找货,到更精准的货找人。

而从人找货到货找人进化背后,一个违背很多人认识的地方是:通常情况下,我们其实并不知道自己适合什么。而且,从打开搜索栏到添加购物车下单这个基本动作里,第一步搜索,就有很高的门槛。

比如,传统情况下,在电商场景,女生买化妆品与衣服,效果常常是开盲盒,既不知道颜色尺寸是否真的合适,也不清楚具体的上身效果如何,叠加不同用户对身材展现与宽松舒适以及穿衣场景之间的不同尺度把握,过去几年间,女装也就成为了各品类中退货率最高的商品之一。

基于这个现实,一些上妆、换衣 VR 设备应运而生。然而,其根本问题在于,这些设备,大多是根据单纯历史浏览习惯进行商品推荐。于是,一个悖论形成了,客户往往想做更多尝试却不知道买什么,才用 VR,结果 VR 推荐的,还是客户原本看过甚至买过的东西。

而阿里廊中的 Make Up 模块,可以通过 AI 面部识别能力、检索能力、实时信息/数据的处理能力,绕过传统的水光肌粉底、少女粉腮红之类单一维度选品思路,将主观的感受转化成为客观理性的需求,根据用户面部特征分析来做精准推荐,进而提供最适合的解决方案。

知道自己适合什么之后,如何对应到具体的商品,依旧是一道学问。

产品设计维度,精准的产品推荐背后,是胶囊 1「个人超级 agent」建立,在购物时为用户配备超级智能的私人 AI 助理,不仅知道什么适合你,也知道你喜欢什么,甚至还能超越你的认知壁垒,给你更精准更有效更匹配的选择。

背后所涉及的技术,既包括文字、图片、视频等多模态不同格式的信息读取、理解和学习分析;也包括全球 200 多种语言的对话能力:最终的交互环节,也应该更拟人化,像一个真实存在的全能助理一样。

在解决了知道适合什么,应该买什么的问题之后,就到了消费的最后一环,让用户不只获取商品,更能获得精神满足。

在线下消费场景中,体验的重要性体现得尤为明显——我们总是更倾向于在服务更好的商店进行更多的消费。比如,同样是火锅,顾客更愿意为服务更周到的海底捞付出更高的溢价。也是因此,在第四个胶囊之中,阿里通过 AI 技术构建了一个更立体丰富的氛围场,为用户带来更综合的情绪反馈。

至此,从如何买,到买什么,再到如何买得开心,在香榭丽舍阿里廊,通过 AI,一切形成了闭环。

03

AI 变革的阿波罗时刻

表面上看,香榭丽舍阿里廊只是对未来购物的畅想,是奥运会全球合作伙伴中来自中国的选手阿里巴巴,为巴黎奥运会增添的一抹亮色。

图片来源:阿里巴巴

但正如一个压缩包中所包含的信息,往往大大超过压缩包本身的大小。阿里这四颗从十年后「捞」回来的时间胶囊,所蕴含的从人找货,到货找人,从人工挑选到 AI 精准推荐的变革,更是创新过程中,最重要的从 0 到 1 的突破。

这种 0 到 1 的突破,就如同当年的阿波罗计划,一个关于人类登上月球的疯狂计划,可以推动电视转播技术、全球通讯技术、光伏技术、半导体制造技术等多种新兴技术快速从实验室走向产业,并为此后几十年的科技大爆炸埋下伏笔。

香榭丽舍阿里廊同样如此,一个关于未来电商购物的探索,背后牵引起的,是传统销售理念的变革,同时也是 AI、VR 多种黑科技如何变革实体产业的模板,AI 营销、客服、导购,越来越多的明星场景将顺着未来购物探索的方向不断挖掘下去……

当迈出了 0 到 1 的第一步,后续的 1 到 100 也就不远了。

Posted in: 科技

Midjourney 也得「站着敬酒」,AI 图片生成新王 Flux 怎么这么强?

江山代有模型出,一代更比一代强。

就当人们以为 AI 图片生成领域战争已经基本结束时,又有一个新的模型团队出现,用自家产品将 Midjourney、DALL-E 挑落马下。

8 月初,初创公司 Black Forest Labs 横空出世,发布了拥有 120 亿参数的文本生成图像模型 Flux,随后迅速走红,被誉为 Stable Diffusion 的继承者,并与 Midjourney 直接对打。

从网上曝光的图片能看出,Flux 在生成人物、尤其是真实人物的场景中,图像已经非常接近真人实拍的效果。无论是人物的表情、皮肤光泽、发型、人物配饰等细节方面,都做到了接近完美。

更重要的是,Flux 开源其系列的一些模型,可以在一台配置不错的笔记本电脑上运行,这也意味着它会像 Stable Diffusion 一样,可以在多模型平台上找到并使用。

Black Forest Labs 宣称,其模型在图像质量和对文本提示的遵循度等方面,超过了现有的主流选择,如 Midjourney 和 DALL-E。

过去两年中,在 AI 图像生成市场,Midjourney、DALL-E 和 Stable Diffusion 和 Adobe Firefly 等一直在激烈竞争,Flux 凭什么一出来就能抢走风头,甚至被认为可能击败现有的其他模型?

 

Flux,横空出世即走红

Flux 来自 AI 初创公司 Black Forest Labs,这家新公司由一些开发了 Stable Diffusion 背后技术并发明了潜在扩散技术的研究人员创立,总部位于德国。

今年 8 月 1 日,Black Forest Labs 才对外正式宣布成立,就迅速打响名声。「我们深深植根于生成式 AI 研究社区,致力于开发和推进用于图像和视频等媒体的最先进的生成式深度学习模型。」

Black Forest Labs 称,其公司「决心建立生成式媒体行业的标准」,作为实现这一目标的第一步,他们发布了 Flux.1 文本生成图像模型套件,称在图像细节、提示响应、风格多样性和场景复杂性方面定义了文本生成图像的新前沿。

Flux 模型生成的图像|图片来源:Black Forest Labs

网友用 Flux 模型生成的图像|图片来源:reddit

为了在可及性和模型能力之间取得平衡,Flux.1 目前提供了三个版本:Pro、Dev 和 Schnell,都是文本生成图像模型,大小依次递减。

其中,Flux.1 Pro 版是通过 API 提供的闭源版本,也是最强大的版本,提供最先进的图像生成性能。可以通过 API 注册访问,适用于商业应用,为订阅用户提供生成式 AI 图像技术的访问权限。

Flux.1 Dev 版是开源版本,具有非商业许可,供社区开发,直接从 Pro 版本「蒸馏」而来,据称有类似的质量和提示响应能力,同时比同尺寸的标准模型更高效,可在 HuggingFace 上获取,并可直接在 Replicate 或 Fal.ai 上试用。

最后一个 Flux.1 Schnell 版,是速度最快的版本(schnell 在德语中意为快速),也是精简版本,据称运行速度最高可提高十倍,开放源代码,采用 Apache 2 许可,适用于本地开发和个人使用,与 Dev 版本类似,也可以在 Hugging Face 上获取。

Flux 部分模型可在 AI 开源社区获取|图片来源:Hugging Face

有科技博主测评后认为,两个高端 Flux.1 模型的输出在提示忠实度上与 OpenAI 的 DALL-E 3 相当,且在真实感上接近 Midjourney 6

他们还发现,Flux.1 在生成手部图像方面似乎表现相当出色,这在早期的图像合成模型(如 Stable Diffusion 1.5)中是一个薄弱点。尽管自那时起,像 Midjourney 这样的 AI 图像生成器也掌握了手部生成,但 Flux.1 的公开权重模型在各种姿势下能够相对准确地渲染手部图像,仍然值得注意。

理论上说,Flux.1 两个较小的版本可以在性能较好的硬件上运行,例如高性能笔记本电脑,这使得它更容易被更广泛的用户使用,包括业余爱好者、开发人员和小型企业,这也意味着不必依赖互联网或云来运行 Flux.1。

不过,硬件性能较弱的用户可能会遇到困难。Flux.1 的开源模型大小约为 23GB,这意味着它可能需要接近 24GB 的 VRAM 才能运行,直到出现可能更轻量化的版本。

已经有科技网站在测评中称,在配有 RTX 4090 的笔记本电脑上运行——它们在对提示的遵从度、图像质量和图像中文字渲染方面都优于 Midjourney、DALL-E 甚至 Ideogram。

据 Black Forest Labs 称,Flux.1 模型采用了 Black Forest Labs 称之为「多模态和平行扩散 Transformer 块的混合架构」,参数规模达 120 亿,比之前的扩散模型更进一步,融合了流匹配和其他优化技术。

在基准测试中,Flux 表示其模型在图像合成方面设立了新标准,称在视觉质量、提示跟随度、大小/长宽比多样性、排版和输出多样性方面表现出色,超越了 Midjourney v6.0、Dall-E 3(HD)和 SD3 Ultra 等模型。

Black Forest Labs 的图表显示,其 Pro 和 Dev 模型是迄今为止最好的图像生成器,而其相对较弱的 Schnell 版本虽然未超越 SD3-Ultra 和 Ideogram,但也超越了 Midjourney v6.0 和 DALL·E 3(HD)。Black Forest Labs 称,「Flux.1 [schnell] 是迄今为止最先进的少步模型,不仅在其类别中表现出色,还超越了强大的非蒸馏模型。」

Flux 模型与其他模型对比|图片来源:Black Forest Labs

所有 Flux.1 模型版本都支持 0.1 和 2.0 百万像素的各种纵横比和分辨率。强调这个亮点,是因为市面上不少 AI 工具仅支持生成「方形」图像。

Flux 模型支持各种纵横比|图片来源:Black Forest Labs

对于那些有兴趣探索 Flux 的人来说,有几种方法可以访问和使用该模型。如果计算机足够好,可以下载并在本地运行 Flux.1。此外,目前已经有几个网站提供了 Flux.1 的访问权限。

例如,AI 图像平台社区 NightCafe 已经可以访问 Flux.1 模型,用户可以快速将其与 Ideogram 和 Stable Diffusion 3 等其他工具生成的图像进行比较。AI 模型平台 Poe,也可以访问 Flux.1,允许用户以聊天的形式生成图像。

用户还可以通过更多面向开发者的平台获取访问权限,包括 Based Labs、Hugging Face 和 Fal.ai 等。市场上最大的 AI 图像平台之一 FreePik 表示,它也正在努力将 Flux 引入其网站。

网上已经有不少实验者,较火的是一些真实感很强的图像,乍一看就像普通照片,甚至引起 AI 图像被用于实施诈骗或制造假新闻的担忧。

Flux 模型生成的 AI 人像|图片来源:reddit

「如果我不知道第一张照片发布在哪里,我 100% 会相信这是一张真实的照片。这种疯狂的真实感。我实际上还以为我正在浏览一些关于 Ted 演讲之类的 Reddit 广告。」有 reddit 用户如此评论。还有用户认为,「Flux 确实超越了 midjourney」。

用户利用 Flux 模型生成的 AI 人像|图片来源:reddit

不过,也有观察者指出,仔细看的话,仍然可以识别出这些图像是 AI 生成的,比如「文字是最大的亮点,尤其是图中挂绳和麦克风等物品上的小文字。」

 

AI 图片江湖:开源 vs 闭源

Black Forest Labs 由 Robin Rombach、Andreas Blattmann 和 Dominik Lorenz 领导,他们都是 Stability AI 的前工程师,此外还有其他在扩散式 AI 模型开发中起重要作用的人物。

Flux.1 的发布时机对开源 AI 来说具有一定意义。

Stable Diffusion 背后的公司——Stability AI 在几个月前经历了一些动荡,该公司的产品因在人体解剖生成方面表现不佳而遭到广泛批评,用户在社交媒体上分享了扭曲的四肢和身体的示例图像。

Flux.1 的发布距 Stability AI 在 6 月中旬发布的 Stable Diffusion 3 Medium 版本仅七周,该问题版本的发布伴随着 Stability AI 三位关键工程师的离职,他们随后与潜在扩散的共同开发者等人一起创立了 Black Forest Labs。

Black Forest Labs 在成立声明中,强调了其团队在推动媒体生成 AI 方面的出色记录,称他们的创新包括「创建 VQGAN 和潜在扩散模型、用于图像和视频生成的 Stable Diffusion 模型(如 Stable Diffusion XL、Stable Video Diffusion、Rectified Flow Transformers),以及用于超快实时图像生成的对抗性扩散蒸馏技术。」

在对外发布 Flux 之前,Black Forest Labs 已经完成了 3100 万美元的种子轮融资,由 a16z 创始人 Andreessen Horowitz 领投,天使投资者包括前迪士尼总裁 Michael Ovitz 等,以及其他在 AI 研究和公司建设方面的专家,General Catalyst 和 MätchVC 进行了追加投资。

有 AI 社区的创业者认为,在 Stability 崩溃后,开源 AI 领域一直缺少一家优秀的图像生成公司,而 Black Forest Labs 发布的 Flux.1 质量看起来可以媲美 DALL-E,这对于多模态 AI 来说是一个好消息,向开源 AGI 进军的步伐仍在继续。

AI 社区人士支持图像生成模型开源|图片来源:X

目前,通过简单的文本提示生成图像是生成式 AI 领域最成熟的应用之一,市场上至少已经有几十款 AI 图像生成器,提供各种选项、功能和风格,各有千秋。

有些主流的 AI 图像生成工具完全独立,比如 Midjourney。在不到两年的时间里,Midjourney 从只能创建低分辨率、几乎无法辨认的人物图像,已经发展到现在可以生成高分辨率的、几乎与相机拍摄的照片无法区分的图像。

不过,Midjourney 因拒绝讨论其训练数据来源而备受争议。许多人怀疑其数据大部分来自抓取任何可以找到的公开图像,而不考虑是否获得了图像创作者的许可。

Leonardo 生成的图像几乎可以与 Midjourney 相媲美,今年 7 月被在线设计独角兽 Canva 宣布收购。

有些图像生成器内置于其他产品中。比如,OpenAI 将 DALL-E 3 集成在 ChatGPT 的付费版本中,可以通过对话方式生成和编辑图像。微软也将 DALL-E 3 集成到 Microsoft 的 Copilot 聊天机器人中,推出了 Copilot Designer。

其他巨头方面,谷歌方面基于 Imagen 系列模型,推出了 ImageFX,但目前仅支持生成方形图像,限制了应用场景,Meta 的 Imagine 也存在同样的问题。

还有前谷歌工程师出来创立了 Ideogram,擅长在图像上添加文本,适合生成带有文字的图像,比如电影海报、传单、贺卡等。

Adobe 推出了 AI 图像生成工具 Firefly,最大优势之一是它与 Photoshop 的深度整合,以及据称合规的训练数据集,主要来自 Adobe Stock。 

此外还有支持多模型工具的 AI 图像生成社区,比如 NightCafe,支持多种模型选择,包括 Stable Diffusion、DALL-E 3、CLIP-Guided Diffusion 等。像 Stability AI 的图像工具,已经被像 NightCafe 这样的社区平台公司广泛使用。

Black Forest Labs 的 Flux 与市面上的 AI 图像生成工具的主要不同,可能还是在于开源

该公司称,「我们相信生成式 AI 将成为所有未来技术的基础构建块。通过向广泛的受众提供我们的模型,我们希望将其好处带给每个人,教育公众,并增强对这些模型安全性的信任。」

Black Forest Labs 在成立声明中强调「透明度是建立信任和广泛采用的关键」,希望将技术尽可能广泛地为大众所用,将最先进的 AI 带给「全球每个人」,据称这是其核心信念。

不过,谈到「信任和安全」时,公司没有提到 Flux.1 模型的训练数据来源。有科技网站测评发现,根据 Flux.1 模型生成的图像,包括版权角色的描绘,Black Forest Labs 可能使用了大量未经授权的抓取的互联网图像,主要可能由 LAION 收集。

LAION 是收集了训练 Stable Diffusion 数据集的组织。但目前这也只是猜测。尽管 Flux.1 的技术成就值得注意,但如果团队的做法像 Stability AI 一样对「公平使用」图像抓取的伦理问题有所松懈,这种做法可能会最终引发类似 Stability AI 所面临的诉讼。

文本生成视频模型预告|图片来源:Black Forest Labs

此外,文本生成图像模型只是第一步,Flux 这些模型据称是为 Black Forest Labs 即将推出的文本生成视频系统套件奠定基础。他们已经在开发一个文本生成视频模型,承诺将提供高质量输出并以开源形式发布,称将是「适用于所有人的最先进文本生成视频技术。」

「我们的视频模型将以高清晰度和前所未有的速度解锁精确的创建和编辑功能。我们致力于继续引领生成式媒体的未来。」Black Forest Labs 称。

这意味着,他们未来可能将与 OpenAI 的 Sora、Runway 的 Gen-3 Alpha 等产生竞争。Midjourney 也有类似的计划,其开发人员正在开发 3D 和视频模式,想将 AI 图像、视频、3D 和实时生成模型结合在一起,通过文本提示创建完全沉浸式的虚拟环境。

头图来源:Reddit

Back to Top