Posted in: 科技

OpenAI 突然推送推送高级语音模式「Her」,又抢了谷歌风头

9 月 25 日早,Google 发布两款新模型 Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002。

在谷歌的系列模型中,Gemini Pro 属于中号模型,付费用户可以使用。而 Gemini Flash 则由 Gemini Pro 蒸馏而来,在今年 5 月的 Google I/O 上第一次亮相,目前用户可以免费在 Gemini 中使用,开发者也有一定免费的 api 使用配额。

模型升级的重点主要为 1.5 Pro 价格降低 >50%、1.5 Flash 的速率限制提高了 2 倍,1.5 Pro 的速率限制提高了约 3 倍、输出速度提高 2 倍,延迟降低 3 倍;过滤器切换为选择加入。

不过,似乎 Google 今天的宣传节点再一次被 OpenAI 提前知晓。OpenAI 同日宣布,OpenAI 的高级语音模式,将在本周对 Plus 和 Team 用户推出。

5 月,Google 发布 Gemini 模型的大更新前,OpenAI 就曾提前抢开发布会,宣布很快会带来高级语音模式,登上媒体头条「个人助理 Her 就要来了吗?」

接下来半年,高级语音模式的发布一再推迟,直至今日 Google 更新模型,OpenAI 立刻表示,本周内将推出语音模型。

除了之前已经剧透过的语音模式与人类在对话中的反应时间相近,会变换语调之外,还增加了个性化指令功能——可以直接指令模型说话说慢点,或者用一个特定的口音,同时可以记住你的名字和提前提供的信息给出更个性化的回复。

X 上有用户不禁感叹,OpenAI 已经养成了一个新爱好。等着 Google 发布一个什么东西,几个小时后马上发布一个新东西。

Google Gemini Pro 价格下降一半

从 Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002 的名字也可以看出,此次 Google Gemini 的更新,不是一个大版本的更新,更多的是一次整体模型的升级。

降低价格是一个重要的更新重点。

Gemini 1.5 Pro 的输入 token 价格降低 64%,输出 token 价格降低 52%,增量缓存 token 价格降低 64%,适用于小于 128K token 的提示语,自 2024 年 10 月 1 日起生效。再加上上下文缓存,这将继续降低使用 Gemini 构建应用的成本。

此外,1.5 Flash 的速率限制从 1000 RPM 提高到 2000 RPM,1.5 Pro 的速率限制从 360 RPM 提高到 1000 RPM。在接下来的几周内生效。

Google 1.5 Flash 得到了 2 倍输出速度和 3 倍更低延迟。

同时,Google 表示,发布的 Gemini 模型,默认不会应用过滤器,开发者可以根据其用例自行决定最佳的配置。Gemini 将继续提供一系列安全过滤器,开发者可以根据需要为 Google 的模型应用这些过滤器。

Google 还表示,此次模型在数学、长上下文窗口和视觉方面取得了一定的进步。

在更具挑战性的 MMLU-Pro 基准测试中,看到大约 7% 的性能提升。而在数学和 HiddenMath(一个内部保留的数学竞赛问题集)基准测试中,两个模型都取得了约 20% 的显著进步。对于视觉和代码使用场景,两个模型在评估视觉理解和 Python 代码生成的测试中表现也更好,提升范围在约 2-7% 之间。

8 月份发布的 Gemini-1.5-Flash-8B 实验模型也得到了新的更新。

Gemini 模型本身的亮点包括长上下文和多模态功能。由于 Gemini Flash 对开发者有部分免费额度,新更新可能对于开发某些应用有着很好的效果。

X 上的 AshutoshSrivastava 就表示,他使用 Google Flash 构建了一个应用,能够在 1 分钟内转写 13 分钟的长音频,且准确度很高(且免费)。在另一个应用中,他表示目标探测功能的表现也很不错。

OpenAI 高级语音功能今日起推出

转头看 OpenAI 这边。

凌晨两点,OpenAI 宣布高级语音模式今日起开始向订阅用户推出,周内会全量进行推送。

根据 OpenAI 的宣传片,与标准语音模式进行区分(黑色旋转球),高级语音将以蓝色旋转球表示,并增加 5 个新语音。

此次发布的一个重要亮点是,OpenAI 表示,高级语音模式可以提供个性化定义。

在视频中,OpenAI的研究员表示,用户可以自定义指令,以让模型以某种口音发音、记住事件以及用户想要如何被称呼等。

「你可以让模型用特定的语速说话,也许是非常清晰地发音,慢慢地说话,定期用你的名字或你喜欢的称呼来称呼你。」研究员表示。

另一位研究员提供了一个例子,对模型输入名字和所在城市,在向模型寻求周末的计划时,模型会根据所在城市,进行更个性化的规划。

高级语音对话目前仅适用于 ChatGPT Plus 和 Team 帐户的用户。免费用户仍然可以访问标准语音模式。

不过,Plus 和 Team 用户每天仍然有高级语音的使用限制,并且每日限制可能会发生变化。当一天的高级语音还剩 15 分钟时,OpenAI 会向用户发出通知。

同时,使用高级语音模式无法使用 GPTs,即用户设计的 OpenAI 的智能体。

高级语音模式因为对语音反应时间更敏感,在某些嘈杂的场景下,也更容易被打断。

最后,OpenAI 还用高级语音模式搞了一个活,表示 ChatGPT 目前可以用五十多种语言表示「对不起,我迟到了,我不是故意让你等这么久的。」

一个很有趣的点是,此次 Gemini 的发布,是由 Google 的 Logan Kilpatrick 主要负责对外沟通交流。

而 Logan Kilpatrick,正是 OpenAI 前开发者关系负责人。2024 年跳槽 Google。

而转头,此次 Google 发布新模型,OpenAI 就卡点发布高级语音模式。

OpenAI 此次宣布的时间点或许还有另外一个意义——此前外媒报道称,Meta 公司本周将在 Meta AI 中推出名人语调的音频对话功能。

在硅谷,AI 的战争还在热火朝天的继续。

 

 

Posted in: 科技

华为三折叠手机「黄牛价」雪崩;OpenAI「Her」语音模式推出;日本政府推 AI 相亲系统 | 极客早知道

Google 发布新模型,OpenAI 再抢风头:高级语音模式正式推出

9 月 25 日早,Google 发布两款新模型 Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002。

在谷歌的系列模型中,Gemini Pro 属于中号模型,付费用户可以使用。而 Gemini Flash 则由 Gemini Pro 蒸馏而来,在今年 5 月的 Google I/O 上第一次亮相,目前用户可以免费在 Gemini 中使用,开发者也有一定免费的 api 使用配额。

模型升级的重点主要为 1.5 Pro 价格降低 >50%、1.5 Flash 的速率限制提高了 2 倍,1.5 Pro 的速率限制提高了约 3 倍、输出速度提高 2 倍,延迟降低 3 倍;过滤器切换为选择加入。

不过,似乎 Google 今天的宣传节点再一次被 OpenAI 提前知晓。OpenAI 同日宣布,OpenAI 的高级语音模式,将今日起开始对 Plus 和 Team 用户推出。

5 月,Google 发布 Gemini 模型的大更新前,OpenAI 就曾提前抢开发布会,宣布很快会带来高级语音模式,登上媒体头条「个人助理 Her 就要来了吗?」(来源:极客公园)

华为三折叠溢价暴跌:从加价近 10 万到仅加 4000

近日,有很多数码博主发布视频称,华为三折叠手机 Mate XT 溢价暴跌,从加价六七万甚至十万,跌至加价四千、两千。

在社交平台,还有黄牛发文称,第一次当黄牛砸手里了,一天掉 4-5k,甚至到了「每小时一个价」、「你要买我肯定有货,但你要卖我打死不收」的地步。

24 日早间,「华为三折叠黄牛价雪崩」登上热搜榜。根据网友的反馈,华为三折叠手机 Mate XT 黄牛价雪崩主要有以下几个原因:一是市场需求不足。二是价格「不亲民」,作为华为高端产品,即使按照官方原价,2 万元起的售价也非很多普通消费者承担得起的。

此外,市场供需关系的变化也是导致黄牛价雪崩的重要原因。此前,天风国际分析师郭明錤发文称,按最新供应链调查数据,上调华为三折手机 Mate XT 今年出货量预测,由 50 万部调高至 100 万部。(来源:TechWeb)

 

字节跳动将在全球范围内关闭 TikTok Music

9 月 24 日消息,TikTok Music 将于 2024 年 11 月 28 日关闭,在此日期之后,对 TikTok Music 的访问,包括登录、订阅和所有其他功能,将不再可用。用户的账户信息和个人数据将在 TikTok Music 关闭后自动删除。(来源:界面)

 

Snap 将在其 AI 聊天机器人中集成谷歌的 Gemini AI

据彭博消息,Snap 与谷歌建立合作伙伴关系,Snap 将把谷歌的 Gemini AI 整合到 Snapchat AI 聊天机器人中。(来源:界面)

豆包视频生成大模型正式发布,首次突破多主体互动难关

字节跳动正式宣告进军 AI 视频生成。9 月 24 日,字节跳动旗下火山引擎在深圳举办 AI 创新巡展,一举发布了豆包视频生成-PixelDance、豆包视频生成-Seaweed 两款大模型,面向企业市场开启邀测。据介绍,豆包视频生成模型则能实现自然连贯的多拍动作与多主体复杂交互。(来源:36 氪)

 

腾讯机器人实验室推出其第五代机器人

9 月 24 日午间消息,腾讯 Robotics X 实验室最新研发成果人居环境机器人「5 号」(The Five,小五)正式亮相,官方表示,小五具备一系列创新技术和能力,目标是成为可以与人居环境和谐相处的通用机器人。

据悉,作为腾讯 Robotics X 实验室最新一代机器人,小五集合了此前多代机器人研发的核心能力,融合了四腿轮足复合设计、大面积触觉皮肤、多指灵巧手以及安全人机物理交互等多项自研技术,实验表明,小五可在真实人居环境中完成行走、搬运物体等动作,处理复杂任务,与人进行交互。(来源:新浪科技)

 

卓驭(原大疆车载)将基于英伟达 DRIVE Thor 开发智能驾驶解决方案

9 月 24 日消息,卓驭(zhuó yù)科技与英伟达于 2024 年 9 月 20 日举行合作握手仪式,宣布将基于英伟达的下一代集中式车载计算平台 NVIDIA DRIVE Thor 打造旗舰级智能驾驶解决方案。

大疆车载于今年 6 月宣布启用「卓驭」作为业务品牌名称,定位于智能驾驶供应商及服务商,目前包括大众汽车、上汽通用五菱、奇瑞汽车、中国一汽、东风汽车等品牌车型搭载了卓驭智驾技术。(来源:IT 之家)

 

中国将在月球上建无线网

9 月 24 日,国家航天局宣布,在完成嫦娥六号任务后,中国探月工程还将通过 2 次发射任务,为国际月球科研站打基础。按计划,我国在 2026 年将发射嫦娥七号,2028 年前后将发射嫦娥八号。

国家航天局副局长卞志刚表示,嫦娥七号是对月球南极的环境和资源进行勘测,嫦娥八号是要验证月球资源的就地利用技术,也要为后面的月球科研站的建设奠定一个基础。在 2035 年前后,要建设月球科研站的基本型。

那么,在月球上可以上网吗?可以生活吗?国家航天局探月与航天工程中心主任关锋指出,嫦娥八号要考虑通信的能力,在月球上肯定会有无线网、能源,至于能不能种菜,科学家们还在研究,嫦娥八号有可能会搞这方面的科学研究。(来源:央视新闻)

华为发布了 26 万的智界 R7,和即将铺开的「纯血鸿蒙」

9 月 24 日下午,华为秋季全场景新品发布会如期启动。

当天的大会上,万众期待的三折叠之后的主力机型 Mate 70 并未如期而至,在华为智慧屏、华为 WatchGT 一系列新品之外,25.9 万元起的智界 R7,成为正常发布会最硬的菜

智界 R7 之外,已经内测了有一段时间的 HarmonyOS NEXT 系统,再次成为发布会的主角。对于这套系统,一贯以「大嘴」著称的华为终端 BG 董事长、智能汽车解决方案 BU 董事长余承东再次爆金句:「我们用一年时间,走过了国外操作系统十多年的路」。

长假回来后的 10 月 8 日,「纯血鸿蒙」HarmonyOS NEXT 即将迎来公测,而智界 R7 也将和「界」字辈的产品一起,加入到车企金九银十的激烈竞争中。(来源:极客公园)

 

星纪魅族 AR 智能眼镜 StarV View 开售,首发 2399 元

9 月 24 日消息,星纪魅族 AR 智能眼镜 StarV View 今日开售,该款眼镜拥有 700nit 峰值亮度,支持 120Hz 高刷,定价 2799 元,预售价 2499 元,早鸟定金 1 元抵 101 元,首发最低 2399 元。

据介绍,星纪魅族 AR 智能眼镜 StarV View 提供星纪灰、曙光橙 2 种配色,此次开售的为星际灰配色。该眼镜采用 1.6:1.2:1 的比例,辅以弹性转轴 + 软性镜腿,重约 74g。

星纪魅族 AR 智能眼镜 StarV View 采用了视网膜级显像(PPD 51),拥有 700nits 峰值亮度、120Hz 刷新率,支持 50:1 虚实显示对比度,10 万:1 的图像对比度,可投 188 英寸画面。

该眼镜可提供 85mm / lp 清晰度,支持 10 档亮度调节,支持三档色彩模式,覆盖 108% sRGB 色域,预装 Flyme XR 2.0 空间操作系统,支持 0-600 度近视调节。(来源:IT 之家)

AI 牵线搭桥:日本东京政府推出人工智能相亲系统

9 月 24 日消息,不少人想通过互联网寻找伴侣,但又怕遭遇个人隐私泄露或诈骗。为此,日本东京都政府出手,推出官方背书的人工智能相亲系统,旨在帮助东京居民找到合适的伴侣。

据东京政府 2021 年的一项调查显示,3267 名东京居民中有 67% 希望有一天结婚,但其中 69.3% 尚未迈出寻找潜在伴侣的第一步。

这一系统名为「东京结缘」,于 9 月 20 日正式推出,面向在东京生活、学习或工作的 18 岁以上未婚人士。用户必须支付 1.1 万日元(约 540 元)购买两年使用资格,还需要多种认证并提供收入证明,接受系统工作人员的面试。实施收费措施是为了驱逐那些可能出于休闲目的使用该应用的人,从而服务于真正对寻找稳定关系、安顿下来有认真态度的人群。

成功登入系统后,用户需要接受价值观评估,以便人工智能系统为其匹配相容性较高的人选。接下来,他们可以获得全方位专业咨询服务,以解决从约会开始到婚后的整个过程中可能遇到的问题。(来源:IT 之家)

Posted in: 科技

爆火的华为「三折叠」背后,到底隐藏了多少黑科技

作为众所周知的红海市场,智能手机的销量「触顶」已经是被验证多年的事实,正是在这样的时代背景下,还未开售就已经大放异彩的华为 Mate XT 非凡大师,自然收获了更多的好奇与关注。

销量触顶的智能手机市场,需要更多新鲜空气。而最近大火的华为 Mate XT 非凡大师,凭借着独有的三折叠概念,以及极致科技带来的极致使用体验,走出了一条与让智能手机市场耳目一新的曲线。

即使这是一台起售价 19999 元的超高端旗舰手机 、但在尚未发布前预售量就超过 600 万、9 月 20 日正式开售后更是瞬间售罄。

 

三折叠的现象级爆火,背后反映出的是华为 Mate XT 非凡大师作为三折叠手机这一「科技新物种」给用户带来的新鲜感。用户在日复一日的常规形态智能手机迭代中逐渐丧失了换机的兴趣,华为 Mate XT 非凡大师最终呈现出的硬件高水准,让更多用户愿意相信,无论是从功能还是从形态上,都有潜力颠覆现有的智能手机体验。

在华为首发,将三折叠手机从概念带到用户手中背后,其实这个概念也已经伴随折叠屏技术出现多年:每年以 CES 为代表的消费电子科技展会中,都能看到不少三折叠概念机的出现。其中除了以上游屏幕厂商「炫技」为目的的概念机演示,也时有手机厂商参与其中,向外界展示自家在智能手机研发领域的技术积累。

但最终这些都没能真正推向市场,最先拔得头筹的,是华为 Mate XT 非凡大师。

究其原因,从概念机到真正成为量产产品,两者之间的难度有着天壤之别:概念机为了追求极致的震撼效果,往往在其他体验部分有着明显的短板——这些对于概念机来讲无伤大雅,但对量产手机而言,出现任何的细微问题对产品而言都足以致命。

换言之,华为最终成为真正意义上首发三折叠手机的厂商,本身就证明华为在三折叠技术有着深厚的积累,这是比「每年一款概念机」强有力的多的证据。

这幅关于「智能手机的下一次革命」的蓝图,正由华为一点点变成现实。

长期投资「终点再见」

在 9 月 10 日的华为见非凡品牌盛典中,华为消费者业务 CEO、终端 BG 董事长余承东提到华为 Mate XT 非凡大师是华为「五年集大成之作」。

 

这里所指的,显然是华为从 2019 年 Mate X 开始,迄今已经发布的、覆盖了外折、内折多种形态的十余款折叠屏手机。

作为在现有智能手机技术之上,对下一代智能手机概念的探索,三折叠从概念到最终量产,显然并非网络上传播的梗图「两个折叠屏拼起来」那样简单,其难度相比传统折叠屏手机来讲甚至可以用「几何倍增加」来形容。

极客公园了解到,在过去五年,三折叠的探索中,屏幕材质仍然是难点最为集中的硬件领域——三折叠在屏幕材质上存在的一大难题,就是柔性屏幕需要做到双向弯折

在设计屏幕外折结构时,屏幕弯折后位于整机外部,铰链设计需要重点考虑抗拉伸性能;而内折结构时,则需重点考虑抗挤压性能。这两种机械结构在传统折叠屏时代都有数款对应的材料,但却没有一款材料能够同时胜任这两种需求。

面对这种屏幕材料新需求,华为在华为 Mate XT 非凡大师的屏幕上启用了一种采用链状分子结构的多向弯折柔性材料。整体屏幕耐弯折能力提升了 25%,同时也是折叠屏屏幕量产材质首次实现从 -180° 到 +180° 的全向弯折

三折叠的另一个难点在于铰链。

铰链直接决定了折叠屏的开合手感与使用寿命,在三折叠上,由于加入了屏轴联动设计,为了保证铰链有足以支撑机身的强度,过去三折叠概念机全部采用了厚重的结构,让三折叠概念机难以满足日常使用需求。

而华为则是业内唯一一家、过去五年连续在外折叠转轴技术上坚持投资的厂商,最早可以追溯到华为首款折叠屏手机华为 Mate X。

 

在折叠屏技术刚起步的 2019 年,外折相比当时市面上更多手机品牌选择的内折方案,在厚度与重量上都有着明显的优势。但华为最终选择了「技术转向」——华为 Mate X 系列在延续三代后,从华为 Mate X3 开始,变为了当时行业主流的内折设计,外折叠旗舰从此在行业中销声匿迹。

在华为 Mate XT 非凡大师上,华为凭借着在外折与内折两种完全不同的铰链结构上的技术积累「两条腿走路」,最终实现了三折叠展开厚度仅为 3.6 毫米的惊艳表现,同时攻克了屏轴联动的匹配难题,实现了三折叠上内外开合一致的手感。

原本曾被外界普遍认定是,以及行业内独一份的外折叠鹰翼铰链技术,最终在华为 Mate XT 非凡大师上,以这种方式在终点实现了「再会」。

三折叠,不止于「大」

几乎每一个新物种诞生时,现有用户会下意识将其套入现有的产品使用逻辑中,用现有的习惯去臆想未来;也很容易忽视已经近在眼前、存在巨大潜力的契机。

2007 年,初代 iPhone 发布之后,时任微软总裁史蒂夫·鲍尔默嘲笑「智能手机没有未来」的论据是「它都没有键盘,你甚至不能用它来发邮件」。

就是在这样的嘲讽与质疑广为流传中,智能手机的时代悄然揭开帷幕,十七年转瞬即逝,如今世界上再也没有「带键盘的手机」。

智能手机这一产品形态,本身就是以「变革」立身,随着以全触控操作、应用商店、软件服务优先这些超前于时代的设计,在吸引全球无数用户成为忠实拥趸的同时,也在悄无声息地构建着下一个时代的「基础设施」。

到华为 Mate XT 非凡大师的开售,我们仍不自觉地陷入了「缺乏想象力」的窘境中:想象力匮乏是平庸的开始,众多围绕「三折叠有什么用」为主题的激烈争论,很大程度上是这种深层原因的折射。但也确实说明了华为 Mate XT 非凡大师在抢占先机的同时,也承担着解答这一问题的重要使命。

这个问题的解法,或许可以从五年前找到答案:如今的「三折叠有什么用」在具体解法上,与「折叠屏有什么用」并无太大不同,这一问题随着折叠屏技术被整个智能手机行业携手推动,针对折叠屏探索更多使用场景、开发更多专属功能,最终其「智能手机旗舰产品线」的地位也得到了稳固。

折叠屏在高端旗舰领域所取得的成功,很可能只是折叠屏技术真正大规模给智能手机形态带来改变的前哨战:目前折叠屏的杀手锏功能——应用多开、跨应用全局交互,以及应用多层级窗口同时展示这些操作,很大程度是在将原本 PC 端成熟的软件操作逻辑以更大的屏幕作为平台带到手机上

在华为 Mate XT 非凡大师发布会中,余承东也展示了为其定制的配套折叠键盘配件,并提出了「将电脑装进口袋」的口号引爆全场,这又是另一次「打破智能终端形态边界」的尝试,把 PC/Pad 装进口袋。

而华为也已经不是第一次「走入无人区」:作为最早布局折叠屏、也是迄今为止唯一量产三种形态折叠屏手机的厂商,华为在折叠屏市场份额已经高达 67%。

在硬件的基础上,华为还拥有能基于硬件深度定制的鸿蒙 OS 操作系统生态:支撑华为以及开发者在华为 Mate XT 非凡大师这一平台上,探索更多独属于三折叠的未来应用场景。

随着三折叠的量产,毫无疑问,如今的华为已经成为了行业内最有资格对「三折叠有什么用」这一问题给出正确答案并将其变为现实的手机品牌之一。

智能手机的未来

诚然,华为 Mate XT 非凡大师在社交媒体的爆火,其核心是超前其他所有手机厂商的三折叠形态。

但在大部分人的注意力都还停留在「三折叠有什么用」这个问题时,我们更不能忽视问题的本质,其实是来自用户的提问「智能手机还会怎样进化」?

比起三折叠在发售后引发的全民讨论,通过三折叠的硬件与软件的持续探索回答好这个问题,或许才是华为 Mate XT 非凡大师对于智能手机接下来注定会到来的形态变革,所能起到的最重要的意义。

智能手机时代即将迈入第三个十年,折叠屏手机作为一个曾被寄予厚望的概念,如今也随着五年的发展,随着三折叠的走向下一个转折点;谁先拿出并量产新形态智能手机,就能享受到最多的先手优势。

 

如今,关于智能手机的探索再一次走到了十字路口,三折叠所承载的不仅是「门票」,更像是在搭建舞台本身,以及对外展示华为推动行业变革的决心。

对于行业而言,华为从折叠屏探索高端化之路到三折叠的历程,既代表着智能手机形态的变革,也代表着以华为为首的中国品牌,从竞争者到引领者的变迁。

在这样的时代背景下,华为 Mate XT 非凡大师的登场,率先给出了回答;在智能手机进化的探索之路上,华为已经率先「踏入无人之境」。

 

Back to Top