Posted in: 科技

腾讯云升级AI全家桶,混元对标GPT-4o

9月5日,2024腾讯全球数字生态大会在深圳国际会展中心举行。

在大会上,腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生披露了腾讯云过去一年的成绩:与伙伴共同服务的客户数超过200万家,百万级订单的合作伙伴数量实现两位数增长,众多SaaS伙伴收入翻倍,国际业务增速也保持在两位数以上。

此外,在AI方面,腾讯云这次也公布了一系列进展。首先是发布了新一代大模型“混元Turbo”,相较前代,混元Turbo性能大幅提升:训练效率提高108%,推理效率提升100%,推理成本降低50%,目前,混元Turbo已在腾讯云上线,提供多个版本供企业和开发者使用。

同时,在大会上,腾讯云还发布了AI infra品牌“腾讯云智算”,一个集计算、存储、网络为一体的高性能智能计算平台,提供了领先的AI计算能力;并推出了RAG解决方案,支持企业用多种技术“量身定制”AI大模型应用,进一步拓展了AI应用的灵活性和适用范围。

而面对国内企业所面临的更普遍的“内卷式竞争”的困境,汤道生在会上还提出了「破局增长」的三个方向:以数提效、顺势而为、扬帆出海,建议企业应聚焦核心场景提升效率、抓住新产业机会、开拓全球市场,探索产业新的发展机遇。

对标GPT-4o,腾讯混元再升级

在这次大会上,腾讯发布了新一代大模型“混元Turbo”,相较前代,混元Turbo性能大幅提升:训练效率提高108%,推理效率提升100%,推理成本降低50%。效果在多个基准测试上对标GPT-4o,且第三方测评居国内第一。

目前,混元Turbo已在腾讯云上线,提供Turbo、Pro、Standard、Lite等多个版本,企业和开发者可以直接在云上接入使用,输入和输出价格仅为前代模型的一半。混元Turbo还开放了代码生成、角色扮演、Functioncall等功能,企业可通过腾讯云TI平台对模型进行精细调整,实现定制化应用。

汤道生表示,随着大模型与生成式AI的技术突破,图片、视频、语言的理解与生成已经有很大进步,人与人的沟通、人与系统的交互方式,都可能会被重塑。最近半年,产业界的关注点也从模型技术的本身转向了智能应用的落地。

据了解,腾讯已经构建起了全链路的大模型产品矩阵,包括基础设施、专属模型训练平台TI、行业大模型解决方案、自研混元大模型,以及一系列基于大模型的智能应用。

会上,腾讯AI应用“元宝”品牌智能体专区正式上线,首批邀请11家合作伙伴入驻,涵盖工作提效和生活娱乐等多个场景,用户可在“腾讯元宝”APP上直接进行体验。

“面向场景创造价值才是大模型发展的意义。”腾讯云副总裁、腾讯云智能负责人、优图实验室负责人吴运声表示,大模型已经在全球发展了两年,一方面,模型性能不断提升,围绕着模型的产品使用门槛变得更低、更加易用;另一方面,企业积极探索大模型与自身业务场景的结合,大模型的落地场景变得更丰富、更纵深。

目前,腾讯已经有700多款产品接入混元大模型,包含腾讯元宝、腾讯云、QQ、微信读书、腾讯新闻、腾讯客服等。此前,腾讯旗下协作SaaS(软件即服务)产品已全面接入腾讯混元大模型。

同时,腾讯全矩阵的大模型产品目前已经在知识管理、智能客服、研发提效、智能营销、内容生成、办公协同、风险管控等落地。

新发布AI infra品牌“腾讯云智算”RAG解决方案

在大会上,腾讯云还发布了AI infra品牌“腾讯云智算”,并推出了RAG解决方案,进一步展示了其在AI计算基础设施和大模型应用定制上的能力。

“腾讯云智算”是腾讯云打造的集计算、存储、网络为一体的高性能智能计算平台。该平台整合了腾讯云高性能计算HCC、高性能网络IHN星脉、高性能云存储、加速框架、容器、向量数据库等多项腾讯云的优势产品,提供了性能领先、多芯兼容、灵活部署的AI计算能力。

在稳定性和性能上,腾讯云的集群千卡单日故障数已经刷新到0.16,是行业水平的1/3;1分钟就能完成万卡checkpoint写入,数据读写效率是业界10倍;千卡集群的通信时间缩短到6%,是业界一半。

同时,通过整合软硬件技术能力,腾讯云智算集群从机器上架到开始训练可以做到只需1天,相比业界以月为单位也大为缩短。

腾讯云智算的灵活性也体现在其支持多种云部署方式,包括公有云、私有云和分布式云,使其成为国内大模型厂商的优选解决方案,同时也帮助大量IDC厂商向AIDC转型。

除了“腾讯云智算”,腾讯云这次还发布了RAG解决方案,支持企业用多种技术“量身定制”AI大模型应用。

该方案包括兼容Elastic开源生态的腾讯云智能搜索(腾讯云Elasticsearch Service)以及腾讯云自研的向量数据库,帮助企业根据架构、数据类型和技术生态灵活选择合适的组件。

腾讯云智能搜索提供了从模型管理、向量生成、向量存储、混合搜索、结果重排到大模型集成的全链路RAG能力。企业仅需使用Elastic的技术栈,就能快速搭建AI应用。

该技术已经成功支持了微信读书的“AI问书”功能,为亿级用户提供毫秒级的检索服务,同时相比传统解决方案大幅降低了90%的机器成本。

针对数据规模大、数据类型多样的企业,腾讯云的向量数据库提供2倍于行业平均水平的吞吐能力和毫秒级响应延迟,支持千亿级的单表存储规模,为企业构建强大的AI数据中台,打造RAG应用基础设施。

汤道生:如何打破企业内卷

汤道生在会上指出,目前国内企业面临着内外部多重挑战,甚至陷入“内卷式竞争”的困境,但如果蛋糕不增长,结果就是“零和”游戏。

他认为,企业要想实现增长,关键在于打破常规,探索产业的新发展。

为此,他提出了企业破局增长的三个方向:以数提效、顺势而为、扬帆出海。

具体来说,第一个增长方法是以数提效,聚焦核心场景。汤道生强调,指望大模型在短期内给企业带来巨大变革并不现实,企业更应该借助AI在现有业务场景中提升效率、降低成本,这种稳健的路径更能够为企业带来长远的竞争力。

目前,腾讯的混元大模型已经落地到腾讯700多个业务场景中,同时,根据国内大模型评测机构SuperCLUE前天发布的最新报告,腾讯混元Turbo总分位列国内第一,在11个能力项测评中,8项核心任务排名国内第一,中文场景效果对标GPT-4o。

第二个增长思路是顺势而为,抓住新产业机会。汤道生表示,国家正大力推动新质生产力的发展,新能源、电动车、消费电子等新兴产业蓬勃兴起。

在数字产业领域,国产软件企业也迎来了前所未有的发展机遇。腾讯云积极响应国家政策,深耕基础软件、云计算、大数据、人工智能等核心技术领域,助力国产软件产业崛起,为企业增长开拓新的机会。

第三个增长机会是扬帆出海,开拓全球市场。当前,越来越多的中国企业将海外市场列为战略重点。相关机构调研显示,90%的企业有意拓展国际业务,四分之一的企业计划在未来1到3年内优先布局海外市场。谈及企业出海的新机遇,汤道生表示,以“云”为载体的中国产业经验和科技优势,正在成为企业出海开拓全球市场的有力支撑。

汤道生指出,当前,企业出海模式已经发生转变,从原来“产品出海”发展到“平台出海”,供应链和商业模式向海外迁移,需要考虑系统、产品、数据和服务的打通,实现“全球一盘棋”管理,这对数字化基础设施和管理手段有很高的要求。

自2016年开始,腾讯云开展海外业务,也始终重视技术研发领域投入,自2018年至今6年多研发投入累计超过3000亿元,截至目前,腾讯云已经打造了遍布全球的云基础设施,覆盖五大洲21个地区,运营着58个可用区、3200多个全球加速节点。

目前,腾讯云已经成功服务10000多家海外客户,国际业务连续三年保持双位数高速增长。截至目前,腾讯云在全球范围内拥有超过11000家合作伙伴,这些伙伴贡献了国际业务80%的收入。

头图来源:腾讯

Posted in: 科技

「搜索」迈入 3.0 时代

作者 | 连冉
编辑 | 郑玄

大模型带动的这波创新浪潮里,所有人都在猜测第一个杀手级应用会诞生在哪个领域。今天来看,搜索毫无疑问是排在前三位的种子选手。

早在去年年初,微软就借着 OpenAI 这块好铁,给 Bing 打了一把好刀,挑战根深蒂固的谷歌,尽管结果算不上成功,但也确实给科技行业带来了启发。

在这之后,基于 AI 的新搜索赛道愈发热闹——AI 搜索引擎公司 Perplexity 估值已达 30 亿美元,OpenAI 也尝试推出自己的 AI 驱动搜索引擎;在国内,包括夸克、360、秘塔、天工等来自大厂、中厂、小厂的新搜索产品也纷纷登场,其中不少已经登上 AI 产品日活榜单的前列。

作为国内搜索领域过去二十年的绝对领先者,以及大模型浪潮里最活跃的国内玩家,百度必然不会错过这个赛道。事实上,从去年推出「文心一言」App,百度就在以自己的方式探索新搜索的可能。而在 9 月 4 日,百度官宣文心一言 APP 正式升级为文小言,并明确将其定位为百度旗下「新搜索」智能助手。

与名字一起升级的还有一系列更加 ToC 的新功能。「文小言」此次推出的能力包括富媒体搜索、多模态输入、文本与图片创作、高拟真数字人等,同时还发布了记忆和自由订阅等独家新功能。

而在定位上,相比传统搜索强工具化属性,「文小言」被赋予了更人性化的期待,成为用户口袋里的「好朋友」。

01

「新搜索」,「新」在哪里?

用户使用搜索产品的需求内核是「问」,也就是寻求某个问题的答案——可以是具体的某个网址或者某个软件的下载链接,也可能是相对模糊的开放问题,比如「我是不是得了什么病」、「如何看待俄乌、巴以冲突局势」。
搜索产品的使命是「答」,但就像学生提问老师,老师的回答既可能是直接告诉你「1+1=2」,也可能是告诉你去翻哪本教材,或者干脆拿戒尺敲三下你的脑袋,只可意会不可言传。搜索产品对于如何提供满足用户的回答也会有多种形式,而文小言的做法,是「搜」+「创」+「聊」+「新」的结合。
「搜」不用多说,基于场景的搜索在过去 20 年一直是百度努力探索和丰富的方向。在「文小言」里已经整合了天气、音乐、导航、翻译等场景下的百度产品能力,答案的呈现方式上也不止网页和链接,过去几十年积累的百科、视频等富媒体讲解也被纳入其中,并支持边看边问,进一步优化用户提问的交互体验。
同时在这些基础上,大模型的结构化解析能力,还可以支持对表格、思维导图、流程图、文档/网页等更复杂的信息输入做解析。
如果说文小言的「搜」是在百度搜索体系的基础上,引入了一些大模型的理解能力,那么「创」就是更进一步,引入了大模型的生成能力。
自从之前升级过后,大家平常「百度一下」的时候应该都体验过百度的「AI 智能回答」,大模型会根据用户的提问,从最合适的信源里提炼出问题的回答,并对答案做出一些结构化的解释。大部分时候那些比较清晰精确的提问,看「AI 智能回答」就已经足够。
而文小言的「创」则是在生成短回答的基础上,进一步引入了创作更长、更复杂的专业内容的能力。既包括写文案、脚本、周报、简历这些打工人日常会用到的文本型工作,也包括更实用的拍图写文、拍题解题这些社交媒体、教育场景的应用,以及生图、修图等图片内容的生成。
而第三个功能「聊」,则满足了一些不太适合一轮简单问询的搜索场景。其实在传统搜索时代,产品经理就已经发现一些场景并不适合一轮提问然后给出一堆参考链接的旧搜索引擎模式,最典型的就是咨询和陪伴场景,过去的解决方案下,比如法律咨询,会把用户导向真人律师,或者百度知道这种互动式问答分享平台,让用户找到与自己相似的问询者获取的答案。
但这些归根结底都是间接的办法,是机器能力不足时引入人或者以人为中心搭建平台来解决问题。而大模型的专业泛化能力,让文小言可以构建起直接回答问题并与用户交互的能力,或者直接跟专业领域的数字人互动、提问,所以在口语、面试、法律这种咨询场景,以及恋爱、心理疏导等陪伴型的场景,就有了「聊」这个新的解决方案。
上述「搜」、「创」、「聊」都是基于大模型能力,重新梳理了用户与搜索产品之间一问一答之间的基础产品交互逻辑,而「新」则是问答基础需求之上,构建起一个满足用户个性化需求的新机制。

其实不论手淘还是抖音,在 APP 产品时代取得的成功一定程度上都源于移动端的革新,让这些产品可以更好地把握用户的个性化需求,千人千面的商品推荐页面、千人千面的兴趣内容推荐页面,构成了移动互联网时代最成功产品的底层基石。

相比之下,因为人的搜索行为覆盖的场景更加复杂,移动时代搜索的千人千面更难做到,最终跑出来一个信息流应用,是在人的搜索场景中抽取出新闻信息获取这个非常细分的场景,实现了场景限定的个性化信息推荐。
而大模型的记忆和泛化能力,意味着通过训练特定的大模型,就能够实现一定程度上实现搜索的个性化,因为不论提出何种提问,这个熟悉你的对话助手,理论上都能像了解你的好友、爱人、秘书一样,提供最契合你的回答,就比如你问它我想买一块百达翡丽,如果「你」是马斯克它会推荐你买哪一款新品,如果你是打工人它会推荐你早点睡觉。
今天在启用「文小言」这个助手之前,可以先进行一番喜好设置。只需要告诉文小言需要记住的内容,包括职业、爱好、昵称、姓名、年龄、身高、属相、星座、性别、兴趣爱好、偶像、未来计划、生活作息、性格等,文小言就可以像朋友一样记得用户的喜好,提供个性化的内容输出。

图片来源:「文小言」App

除了个性化,文小言还独家发布了「自由订阅」功能,从笔者的体验来看,这个功能用起来感觉和 RSS 有点相似,唯一的区别是前者是典型的互联网产品时代 I/O 的交互模式,而文小言则是用自然语言交互——前者像一个机械式的信息收集器,后者则像是一个人性化的私人秘书。

02

搜索进化论:从给参考书,

到给答案,甚至直接解决问题

其实一直以来,搜索的本质并不是「搜」,而是解决问题,给用户答案。利用生成式AI的能力,文小言追求的新搜索是能够理解用户的问题,整理并汇总信息,通过总结分析来给出最贴近用户问题的答案或解决方案。
过去之所以无法实现,是因为之前计算机的能力无法准确理解人们的问题以及想要的回答。
传统搜索引擎的诞生,解决了信息爆炸时代用户快速获取所需信息的需求。通过复杂的算法,搜索引擎将相关的内容呈现给用户,帮助人们在最短时间内找到答案。
然而,传统搜索引擎本身有自己的局限性。其最显著的不足在于对用户意图的理解较为浅显,依赖于关键词匹配,往往无法真正理解用户背后的需求,导致用户在面对复杂问题时,仍需花费大量时间筛选信息。
但这些不足只是技术发展的阶段性限制所在,同时也反映出从「找到信息」到「理解需求」的转变尚未完全实现。
即便是到后来小红书之类的社区内搜索兴起,将搜索功能与社交互动、内容消费深度融合,为用户打开了一些新的使用场景,也只是给到用户特定场景内更相关的内容链接,并做不到直接给用户提供答案
直到大模型的出现,带来新的可能性,让搜索实现从「提供信息」向「直接获取答案」的转变。
引入 AI 后的新搜索,可以通过理解上下文、推理分析,给出精准的答案。用户不再需要在海量信息中来回选择,而是能在与搜索引擎的互动中即时获取所需的答案。
国内外团队看到了这个机会,所以纷纷加入到对新搜索的探索,推出了形形色色的产品。
但这类产品普遍存在一些共性的问题,虽然其已经具备了一定的 AI 能力,能够在一定程度上改善用户体验,比如解决了传统搜索引擎在搜索结果相关性不足、难以就一个问题深入探讨等缺陷,但多数仍是以对话形式直接给出答案,还未能彻底改变用户在搜索中的被动体验,未能实现真正意义上的智能互动与个性化服务。
搜索要想更进一步,就不能只停留在工具属性,要再往人性化的方向走一走,这是文小言在尝试的方向。
它所包含的场景里,不仅有「搜」,还有「创」,也就是不仅能够生成过去世界上没有的信息,或者用户自己都未曾想到的内容,还能够通过多轮交互,深入了解用户需求,逐步生成满足用户个性化需求的成果。
而通过多轮交互,再加上个性化记忆能力,新搜索也可以在「聊」这个场景下,给用户更丰富的情绪、陪伴价值,毕竟聊多了,才能更了解,更「懂」。
但光这样也还不够,要想走向更广大的用户,不光功能得丰富,门槛也得降低。文小言的「边拍边问」「边看边问」,就把搜索产品的使用门槛又往下降了降。就像看到什么东西不懂,顺口问朋友一样,打开文小言,拍张照,就能给解答的明明白白。
随着搜索从「提供信息」向「理解需求」再到「情感互动」的转变,AI 驱动的新搜索正在超越传统边界,看起来,文小言是这一趋势下的积极探索者,它的出现,也可以看作是一次搜索从工具向伙伴的进化尝试。
*头图来源:视觉中国
Posted in: 科技

MiniMax,也许做出了最接近 Sora 的文生视频产品

文|幸芙

编辑|郑玄

 

又一个国内的重要玩家,杀入「文生视频」这个今年最火的大模型风口。

几天前,MiniMax 发布了全新的视频模型 abab-video-1。用户可登录其产品「海螺 AI」的网页版,体验文生视频的功能。

尽管是一个晚入局者——继年初 OpenAI 发布 Sora 后,国内的科技公司纷纷跟进。包括大厂,比如快手的「可灵」、字节的「即梦」等;包括垂直的创业公司,比如生数科技、爱诗科技、智象未来等;也包括模型公司,比如智谱几个月前就嵌入了文生视频功能。但 MiniMax 很有信心,「这可能是目前国内最好的视频大模型。」创始人闫俊杰说。

极客公园一手体验了 MiniMax 的文生视频功能,在给定的一系列随机提示词下,MiniMax 的生成效果令人眼前一亮。而在海外社交平台 X 上,也有越来越多用户用其生成出惊艳的视频、并进行了分享。而在 MiniMax 自己释放出的样片里,可以看到这些视频已经逼近真实的商拍、乃至电影质感。

这正是 MiniMax 更晚推出该功能的原因,为了在技术上形成数倍、而不只是百分点的提升。作为一家技术导向型的公司,MiniMax 相信技术决定产品体验,这也是它们不着急的原因。

如果说 Sora 到目前还没有开放使用的机会,那目前 MiniMax 该功能已经完全对用户开放。当很多国内已经公司针对这项功能收费,MiniMax 仍在免费阶段。也就是说,用户可以免费、且一手体验这款最接近 Sora 的产品。

在年初与极客公园的一次交流中,MiniMax 创始人闫俊杰表示,Sora 对大模型公司来说是一道「选答题」。因其存在着 PGC、UGC 等不同用法,AI 公司不一定要跟上。不过似乎现在他认为,这是一道「必答题」——还是出于提高用户渗透率的考虑。

在年初的访问中,他提到随着大模型每次拓展模态,用户渗透率就会提升,因为文字只是人类信息交互中的极小一部分,声音、图片、视频等模态也同等重要。MiniMax 的愿景是让 AI 为普通人所用,提高用户渗透率是他最看重的事情。在这道「必答题」上,MiniMax 看起来交出了一份不错的答卷。

 

在不同的 prompt 评测中,MiniMax 文生视频功能都保持领先

打开 MiniMax 文生视频产品的官网,会发现它出奇的简单。如果说其他产品都给用户提供了许多选项,比如视频时长、视频比例、模式选择、运镜方式、情感氛围等。但 MiniMax 的产品非常简单:输入一段文字(prompt),直接生成视频。

笔者直接尝试了一段 prompt:「两位都市白领手里拿着星巴克咖啡,走在日光沐浴下的街道,她们本来表情平静地聊着天,突然一起笑了起来。」在这段 prompt 里,我既要求了人物的细节动作,比如手拿咖啡;也要求了场景的表现力,比如日光沐浴的街道;还有人物的表情,比如平静和微笑。这都是目前文生视频产品的技术难点。

仅就这段 prompt 的表现来看,MiniMax 的文生视频功能几乎完胜:两位人物无论是微笑的表情、还是拿咖啡的手部动作,都非常自然、没有变形,它还原了日光沐浴的场景,同时也还原了「星巴克」标识。

但再看其他产品:某热门产品生成的咖啡杯是变形的、人物的表情也是变形的;某产品虽生成很自然,但漏掉了「星巴克」标识;另外某产品也是人物完全变形、咖啡杯完全变形;某产品人物稍微变形,漏掉了「星巴克」标识;某产品生成的视频毫无稳定性,也没有清晰度可言。

 

在笔者的指令下,最上为 MiniMax 的文生视频效果;下面两张为其他国内热门文生视频产品的效果 | 图片来源:极客公园

 

此外,笔者又尝试了其他不同的 prompt,包括神情愉悦地打字的女孩等,最终 MiniMax 的文生视频功能都表现更为出色。如果说文生视频最重要的是对现实世界的模拟,那么可以看到,它对于真实世界的模拟会更好,同时也能输出更逼近真实的视频效果。

在 X 社交平台上,不少海外用户使用完 MiniMax 的文生视频产品后也评价很高。比如用户 @ryan_morrison 提到,「它的手部动作是我见过的最自然的。」用户 @hortega_andre 提到,「它的手部动作和面部表情是我见过的最自然的。」

专门探索用 AI 制作电影的用户 @Machine Mythos,则用 MiniMax 文生视频制作了一则名为《地狱之地》的微影片。该视频时长 2 分 20 秒,讲述了一个男子开车行驶的过程中,发现曾经人流交织的街道,现在已经被僵尸占据。「我的上一部电影是我迄今为止最现实的电影,我没想到它会这么快就被超越。」Mythos 这么评价道。

 

@Machine Mythos 制作的《地狱之地》微电影 | 图片来源:X

 

笔者注意到,它上一部电影发布于一个月前,是用国外领先的视频模型 Runway 的 Gen3 版本生成。但就影片真实效果而言,MiniMax 更胜一筹。

「我们内部评测,包括跑一些分,应该比国外 Runway 有更好的效果。」闫俊杰说。

 

三大核心技术指标:文本响应好、压缩率高、风格多样

在表层的用户体验之下,MiniMax 将其文生视频的优势总结为:一、压缩率高;二、文本响应好;三、风格多样;四、可以生成原生高分辨率、高帧率视频,也就是接近电影大片质感。

关于文本响应好,它指的是产品的指令遵循更好。比如笔者在 prompt 中强调了星巴克,几乎只有 MiniMax 的视频模型把这个标识体现出来了。MiniMax 称,这主要得益于其模型在文本上的不断积累。

关于压缩率高,它指的是对高动态、变化多的信息有较好的表现力。比如 @JingXiangZ 给的指示是:「广角镜头中,一个长着猴头的肌肉男,赤裸上身,骑着电动滑板车穿过城市街道,然后飞上天空。」在最终的效果里,猴头、肌肉男、赤裸上身、以及迅速穿梭于城市的街景变化都得到了展现。

关于风格多样,指的是无论电影大片场景、动画,无论是中式风格还是科幻、美漫等,它都可以驾驭。比如 AI 艺术家 @vladimircherner 生成的视频里,既有卡通动画、也有真实走秀、还有写实电影、甚至科幻电影等。

 

用户 @vladimircherner 用 MiniMax 生成的视频 | 图片来源:X

 

最重要的一点是能生成原生高分辨率、高帧率视频,这意味着视频能接近电影大片质感。目前,MiniMax 已经释放出一些通过 prompt 做出来的电影、广告片,效果令人惊艳。

比如有一段是星际大战的预告片、有一段是宣传沙发像云朵一样柔软的广告片、有一段是高速俯拍街道的电影片段、有一段是雪崩救援的记录片、还有一段是名为《魔法硬币》的科幻片——它讲述了一个小男孩通过一枚写着 MiniMax 的硬币,在不同时空进行穿梭的过程。无论是加勒比海盗的船上、还是多元宇宙、还是万里长城、还是北极熊身上、又或者是森林的豹子身上,所有的场景都非常逼真。

看完这些视频,一个很直接的感受是,已经不太能看得出它们是 AI 做出来的。这意味着在视频生成效果上,MiniMax 取得了关键性的突破。

 

极致的技术,才有极致的用户交互

闫俊杰介绍,MiniMax 之所以在文生视频赛道更晚入场,原因是公司希望在技术上形成绝对优势。在他看来,不管是视频、文本、声音,核心不是在算法上提升 5%、10%,而是要看能不能提升几倍。「如果能提升几倍就一定要做出来,如果只提升 5% 就不太值得做。这是我们做研发的思路。」他说。

在他看来,在文生视频这件事上,技术能提升几倍的核心关键是,提高压缩率的问题。训练视频生成能力时,模型需要先把视频变成 token,但这个 token 会非常长,导致复杂度很高。因此,MiniMax 团队在算法上主要解决的是,怎么把压缩率变得更高、把 token 的复杂度降低。这花了他们很多的精力,因此比同行晚了近一两个月。

团队发现,当算法变得更强的时候,产品的效果确实好了很多。在文生视频这件事情上,再次印证了闫俊杰所说的,技术决定产品。

 

MiniMax 的文生视频功能 | 图片来源:MiniMax

 

对于 MiniMax 而言,对技术重要性的认识是不断提升的。当技术水平提高时,用户的活跃度会增加;当技术出现失误,用户活跃度在降低。「当技术做不好的时候,所有东西都是问题。当技术做好了,所有问题都被掩盖了。」闫俊杰说。这两年时间,他已经意识到技术是科技公司最核心的要素。

他认为,创业公司相较于大厂而言最重要的优势只有两点:一是技术的提升,二是与用户的交互,而这两者互为表里,所谓「产模一体」,技术服务产品,产品也会反哺技术。

MiniMax 在全球拥有多元化的用户分布。据 MiniMax 介绍,其每日与全球用户进行超 30 亿次交互,处理超 3 万亿文本 token、2000 万张图片和 7 万小时语音,大模型日处理交互量居国内AI公司首位。

 

 

目前 MiniMax 公布的文生视频功能只是第一版,接下来它在产品功能上还会有更多的更新。比如现在只提供了文生视频功能,接下来还会有图生视频、文+图生成视频、可编辑的可控性等等。而等新的东西出来,以及到达更满意的状态之后,MiniMax 可能会考虑一些商业化动作。

作为国内几乎最早成立的大模型公司之一,MiniMax 从成立起就确定了要将 AI 普及普通人的目标。为此,这家公司沿着文本、音频、音乐、视频等不同模态拓展,用技术突破带来更好的用户体验。而如今,它推出惊艳的文生视频功能,也意味着它在这条路上又踏上了一个新的台阶。

 

Back to Top