Meta 多模态原班底打造感知语言模型,专为实时物理交互设计;估值 1 亿美元,Poke AI 助理无缝融入主流消息应用丨日报
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@Jerry fong,@鲍勃
01有话题的技术
1、阿里巴巴 Qwen3-ASR-Toolkit 上线:无限长音视频文件高效语音识别
阿里巴巴近日推出其 Qwen3-ASR-Toolkit(基于 Qwen3-ASR-Flash),彻底解决了传统 API 3 分钟的音频时长限制。该工具包通过智能分割与并行处理技术,能够高效处理任意长度的音视频文件,包括数小时的超长内容,为媒体、教育、客户服务等需要大规模长时语音识别的行业带来了突破性进展。
Qwen3-ASR-Toolkit 已推出,并已上线 DashScope 平台,赋能开发者和企业用户。
关键亮点
突破时长限制: Qwen3-ASR-Toolkit 解决了现有 API 的 3 分钟时长限制,支持无缝处理任意长度的音视频文件,包括数小时的超长内容。
智能分割与并行处理: 采用「Voice Activity Detection (VAD)」技术在静音间隔处智能分割音频,确保词语和句子的完整性;随后通过 DashScope 的 Qwen-ASR 接口并行处理这些片段,实现高效识别。
广泛格式支持: 兼容 mp4, mkv, mp3, wav 等多种主流音视频格式,并能自动将其转换为所需的 16kHz 单声道格式进行处理。
继承高性能优势: 该工具包继承了 Qwen3-ASR-Flash 模型在多语言高准确率和嘈杂环境下强大鲁棒性方面的卓越表现。
(@AIGCLINK)
2、Perceptron Isaac 0.1:「感知语言模型」开源,2B 参数模型性能超越 50 倍竞品,重塑物理世界 AI
Perceptron 今日推出 Isaac 0.1,一款开创性的 2B 参数开源「感知-语言模型」(perceptive-language model)。该模型由 Meta Chameleon 多模态模型团队的成员创立,专为理解和交互物理世界而设计。Isaac 0.1 以极高的效率提供了与体量大 50 倍以上模型相当甚至更优的性能,为制造业、物流和机器人等领域带来突破性的实时感知能力。
关键亮点:
极致效率,领先性能: Isaac 0.1 仅有 2B 参数,却在多项关键感知基准测试中,性能与远超其规模的 Gemini 2.5 Flash、GPT-4o 等闭源模型持平或更优。这种效率意味着大幅降低部署成本、功耗及延迟,使其成为边缘和物理世界应用的理想选择。
物理世界智能核心: 作为专为动态、多模态、实时物理环境打造的智能层,Isaac 0.1 能够实现高度精确的「视觉问答」、「接地空间智能」(Grounded spatial intelligence)和「情境感知学习」。
创新交互模式: 引入独特的「对话式指向」(Conversational Pointing),通过语言与视觉的紧密同步,实现对每个断言的视觉引用和验证,有效减少大模型的「幻觉」并提升推理的可审计性。
无需微调的感知学习: 支持「情境感知学习」(In-context learning for perception),用户只需在提示中提供少量带注释的示例(如缺陷、安全状况),模型即可适应新类别,无需传统检测器(如 YOLO)的复杂微调或自定义堆栈。
卓越细节识别: 具备强大的 OCR 及细粒度识别能力,能够可靠读取小文本和密集场景,处理各种分辨率和杂乱布局。
相关链接:
https://www.perceptron.inc/blog/introducing-isaac-0-1
(@Perceptron Blog)
02有亮点的产品
1、HyperboundAI 获 $15M Series A 融资:AI 驱动销售培训,助力团队规模化增长
由前 Meta 和 Salesforce AI 专家创立的 HyperboundAI,近日宣布成功完成 1500 万美元 Series A 轮融资,累计融资额达 1830 万美元。该公司凭借其开创性的 AI 销售角色扮演平台,在不到两年内实现了月新增 ARR 突破百万美元,正迅速成为销售技术领域增长最快的公司之一,赋能 Autodesk、Monday.com 等头部企业提升销售团队效能和规模化增长。
关键亮点
融资里程碑: 成功获得 1500 万美元 Series A 轮融资,由 Peak XV Partners 领投,Y Combinator、Snowflake Ventures、Roble Ventures 和 Fellows Fund 等知名机构参投。
爆发式增长: 实现连续两个月新增年度经常性收入(ARR)突破 100 万美元,巩固了其作为销售技术领域增长最快公司之一的地位。
AI 销售培训先驱: HyperboundAI 在 2024 年 1 月率先推出 AI 销售角色扮演,为销售团队创建了首个可扩展的实战训练场。
平台功能拓展: 平台已扩展至包括真实通话评分、定制 AI 计分卡和学习模块,覆盖 SDR、AE、客户管理和客户成功等所有营收团队成员的持续辅导需求。
广泛客户与支持: 服务于包括 Autodesk、Monday.com、Bloomberg、G2 等在内的多行业客户,并与 Force Management、Reveneer 等部署公司合作,推动大规模落地。
技术背景强大: 创始人 Sriharsha Guduguntla(前 Salesforce AI 专家)和 Atul Raghunathan(前 Meta Ads 机器学习专家)将 AI 和企业软件的深厚专业知识融入产品开发。
多语言与多方交互: 平台已支持超过 25 种语言,并近期引入了多方 AI 销售角色扮演,支持销售代表练习与多个买家角色的复杂通话。
发布计划与范围
本轮融资将用于加速 HyperboundAI 平台的技术研发和市场拓展。HyperboundAI 平台已上线,并提供免费的 AI 销售角色扮演体验。
相关链接:
https://x.com/ycombinator/status/1967633687157281170?s=46
(@HyperboundAI X)
2、Meta 正式推出全新一代智能眼镜:神经手环操控,799 美元起
Meta 正式推出全新一代智能眼镜「Meta Ray-Ban Display」,并同步亮相创新交互设备「Meta Neural Band」,为可穿戴设备带来全新形态。
据介绍,Meta Ray-Ban Display 搭载全彩高分辨率镜片显示屏,支持查看消息、预览照片、导航、实时字幕与翻译等功能,用户无需取出手机即可完成日常操作。镜框提供标准与大号两种尺寸,以及黑色与沙色两种配色,重量 69 克,续航可达 6 小时,并配备可折叠充电盒,总续航可延长至 30 小时。
随眼镜附赠的 Meta Neural Band 采用 EMG(表面肌电)技术,可通过手腕肌肉信号实现滑动、点击等操作,未来还将支持手写输入。该腕带具备 IPX7 防水等级,单次续航最长 18 小时。
售价方面,本次 Meta Ray-Ban Display 新品售价 799 美元(含眼镜与腕带),将于 9 月 30 日率先在美国部分零售渠道开售,2026 年初扩展至加拿大、法国、意大利及英国市场。Meta 表示,后续将通过软件更新加入 Instagram Reels 专用应用、EMG 手写等新功能。
The Verge 体验了这款眼镜,并表示 Meta Ray-Ban Display 是他们用过最好的智能眼镜,「这是我们距离谷歌眼镜十年前承诺的最近一步」。
(@APPSO)
3、Interaction 「Poke」获 $15M 种子轮融资:AI 助理无缝融入消息应用,估值 1 亿美元
由两位 20 多岁年轻创始人 Marvin von Hagen 和 Felix Schlegel 创立的 Interaction Company,近期推出其 AI 助理产品 「Poke」,旨在无缝融入 iMessage 和 WhatsApp 等主流消息应用。该产品已获 1500 万美元种子轮融资,公司估值达到 1 亿美元,旨在颠覆传统 AI 助理需要独立应用或设备的使用模式,让 AI 体验如同「发信息给朋友一样轻松」。
关键亮点
交互范式创新: 「Poke」摆脱了传统 AI 助理对独立 App 或设备的依赖,直接嵌入 iMessage 和 WhatsApp 等消息对话流中,让用户在不切换应用的情况下即可与 AI 互动。
多功能性与用户发现: 该「智能体」能够轻松处理预订航班、总结研究、规划行程、生成数学练习、追踪逾期发票等多样化任务。在硅谷 6,000 多名 Beta 用户(来自 OpenAI、Google、Stripe 等公司)的测试中,月均消息量超 20 万条,用户自发探索出大量创新使用场景。
「个性化」AI 助理: 「Poke」结合了 Anthropic、OpenAI、Voyage 和 Mistral AI 等主流 LLM,并辅以自研精调模型。创始人强调,个性、会话性和情感智能与技术性能同等重要,通过用户交互训练其偏好。
隐私与安全承诺: 平台遵循 SOC 2 合规标准,并提供「Maximum Privacy」模式,建立数据防火墙,工程师无法访问用户对话。用户对数据共享拥有精细化控制权。
创始人背景强大: 创始人 Marvin von Hagen(CEO)和 Felix Schlegel(CTO)在学生时代就因成功打造 Elon Musk Not-a-Boring 比赛冠军团队而闻名。Von Hagen 在 AI 安全领域亦有建树,曾揭露 Bing 搜索引擎中的 Sydney 隐性人格。
「Poke」已于近期正式推出,目前正积极推进本地化工作,计划扩展全球电话号码覆盖范围,并构建分布式基础设施以提升美国以外地区的响应速度。
相关链接:
https://observer.com/2025/09/startup-interaction-launch-ai-message-assistant/
(@Observer / Interaction)
03有态度的观点
1、华为:AGI 将是未来十年最具变革性的驱动力量
9 月 16 日,华为正式发布智能世界 2035 系列报告,包括《智能世界 2035》和《全球数智化指数 2025》报告两大研究成果。
本次成果展望了未来十年的关键技术趋势以及这些技术对教育、医疗、金融、制造、电力等行业带来的改变和影响,并帮助全球各国量化数智化发展进程。其中,《智能世界 2035》发布了面向智能世界 2035 的十大技术趋势:
AGI 将是未来十年最具变革性的驱动力量,但仍需克服诸多核心挑战,方能实现 AGI 奇点突破。因此,走向物理世界是 AGI 形成的必由之路。
随着大模型的发展,AI 智能体将从执行工具演进为决策伙伴,驱动产业革命。
开发模式迎来变革,人机协同编程成为主流。人类将更专注于顶层设计和创新思考,而把繁琐的编码执行工作,交给高效的 AI 来完成。
交互方式正从图形界面转向自然语言,并向着融合人类五感的多模态交互演进。用户通过语音、手势等方式与数字世界互动,获得深度沉浸的体验。
随着世界模型等关键技术突破,全新的 L4+ 自动驾驶汽车将会走入人们的生活,成为「移动第三空间」。
2035 年全社会的算力总量将增长 10 万倍,计算领域将突破传统冯• 诺依曼架构的束缚,在计算架构、材料器件、工程工艺、计算范式四大核心层面实现颠覆性创新,最终催生新型计算的全面兴起。
数据将成为推动人工智能发展的「新燃料」,AI 存储容量需求将比 2025 年增长 500 倍,占比超过 70%,Agentic AI 驱动存储范式改变。
通信网络的连接对象将从 90 亿人扩展到 9000 亿智能体,实现移动互联网至智能体互联网的跃迁。
能源将成为制约 AI 高速发展的核心要素。到 2035 年,可再生能源加速替代传统化石能源,新能源发电量占比将突破 50%。同时,人工智能将成为新能源系统的核心,通过 Token 管理瓦特,实时管理每一焦耳的能量,从而实现更加动态和高效的电网。
同时,报告还预测了 2035 年,AI 对人类社会的帮助:
人工智能将助力预防超过 80% 的慢性病,推动健康管理从「被动治疗」转向「主动预防」;超过 90% 的中国家庭将拥有智能机器人。
人类将逐渐进入全息生活空间的时代,家庭场景将迎来由技术驱动的沉浸式变革。
在企业领域,由 AI Agent 驱动的自主决策组织将重塑生产范式。到 2035 年人工智能应用率超过 85%,AI 可提升劳动生产率 60%,AI 正通过「感知 - 分析 - 决策 - 行动」的自主系统,彻底重构企业价值创造方式。
(@APPSO)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻