Typeless:能理解语音真实意图的转录工具;Chance AI:能够思考和行动的 Visual Agent丨日报
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@Jerry fong,@鲍勃
01有话题的技术
1、ElevenLabs「Conversational AI」正式更名为「ElevenLabs Agents」
2025 年 9 月 3 日,ElevenLabs 宣布将其「Conversational AI」更名为「ElevenLabs Agents」,推出一个全面的平台,助力用户构建、部署和监控跨电话、网络及应用程序的对话式智能代理。该平台支持智能体进行语音对话、文本输入及执行操作,标志着对话式 AI 技术的新里程碑。
ElevenLabs Agents 旨在为用户提供一个一站式解决方案。自平台推出以来,已有超过 200 万个代理被创建,累计处理超过 3300 万次对话。该平台通过连接知识库、工具和电话系统,助力企业实现复杂工作流的自动化处理,并以企业级可靠性与控制力提供更快速的解决方案。(@ElevenLabs)
2、通义实验室 AgentScope 开源发布:开发可控、可用、可落地的智能体应用
阿里通义实验室正式开源推出 AgentScope 1.0 一个以开发者为核心、专注多智能体(multi-agent)开发的框架,覆盖智能体从「开发、部署到监控」的全生命周期。其三层架构由 Core 框架、Runtime 和 Studio 构成,支持单独使用,也兼容 LangGraph、AutoGen 等主流框架,Python 编程即可上手。
实时介入控制:基于异步系统结构,智能体可在执行中安全中断、动态调整流程并恢复执行。
智能上下文管理:利用短期记忆压缩与跨会话长期记忆管理,提升对话连贯性与信息保存稳定性。
高效工具调用体系:支持工具注册、结构化管理、异步并行调用,并可在运行时动态启用/停用工具组,提升工具使用效率。
Runtime 安全沙箱:支持容器隔离、K8S 部署、沙箱内执行代码、文件操作或网页浏览,确保智能体运行安全高效。
Studio 可视监控 & 评测平台:实时追踪智能体状态、Token 消耗与流程执行,还内置开发评测工具与可视化评估模块。
架构基于 ReAct(reason + act)范式与异步设计,提供统一组件接口(消息、模型、记忆、工具),内置实用智能体示例,并支持扩展持久化评估与可追踪的开发体验。
相关链接:
https://mp.weixin.qq.com/s/7p525jsxZg3hA-qA12mKJA
(@通义大模型)
3、即梦 AI 正式上线火山引擎,企业级「一站式创意生产线」开启
2025 年 9 月 3 日,火山引擎与即梦 AI 正式官宣——即梦 AI 正式接入火山引擎平台,向企业开放接口服务(API),涵盖图像生成、视频生成与数字人生成三大类领域,展示字节跳动在 AI 内容创作领域的重要布局。
开放的模型包括:文生图 3.0/3.1、图生图 3.0、视频生成 3.0 Pro、数字人 OmniHuman,以及动作模仿 DreamActor M1,覆盖从静态图像到动态视频、拟人数字创作的完整流程。这些模型源自字节跳动自研框架,如 Seedream、SeedEdit、Seedance、OmniHuman 等,均经过多维度精细调教,以更贴合真实创作场景的需求,多维提升实际使用体验。
文生图 3.0 针对海报设计进行了排版、艺术字体与文字准确性的专项优化,生成商业级图形更统一、更专业。
文生图 3.1 在前代基础上进一步提升画面美感、场景丰富度,整体色彩、光影、构图迈向电影级水准。
图生图 3.0 支持精准文本指令编辑,如「替换背景」「调整标题」且保持人物细节与五官一致,显著改善传统 AI 修改图像易失真的问题。
视频生成 3.0 Pro 支持专业级可控运镜、1080P 高清渲染,增强多镜头叙事表达,使短片创作更加流畅自然。
数字人 OmniHuman 借助一张图像与一段音频(或视频)即可生成动态数字人,精准匹配声音、表情、口型与肢体动作,适配写实或二次元形象,具备生动表现力。
目前模型已上线火山引擎平台,企业用户可通过自助下单方式快速接入,免去繁琐申请流程,实现即刻使用;这标志着「创意内容自动化生成」进入开箱即用时代
相关链接:
https://mp.weixin.qq.com/s/P7ivTg4sKRu_f874wCweCA
(@火山引擎)
02有亮点的产品
1、Typeless:「理解语言背后的真实意图」的语音转录工具
Typeless 是一款革命性的智能语音转录工具,其核心优势在于「理解语言背后的真实意图」。与传统转录工具不同,Typeless 不仅能将语音转化为文字,还能够自动编辑、优化,将口语化的表达转化为清晰、专业的书面文本。该工具的出现旨在彻底解决会议记录、口述写作等场景中繁琐的整理和编辑工作。Typeless 可广泛应用于会议记录、内容创作、学习笔记、客户服务等多种场景,旨在通过自动化整理工作,极大地提升用户的工作效率。
智能清理口语杂质: 自动识别并删除语音中的语气词(如「嗯」、「呃」)和填充词,使转录文本干净流畅。
自动编辑与格式化: 根据语境自动修正语句,并能将口头表达的列表和要点格式化为结构清晰的文本。
多语言混合支持: 支持超过 100 种语言的转录,且能够自动检测并准确处理混合语言的表达。
个性化词典定制: 用户可添加专业术语或专有名词,提高特定领域转录的准确性。
隐私保护: 采用零数据留存策略,所有转录过程均在本地设备上完成,不上传云端,确保用户数据和隐私安全。
官网链接:
https://typeless.com(@巧用 AI)
2、Apple 推出 AI 搜索引擎整合 Siri:打造「回答引擎」新形式
彭博社报道:苹果(Apple)正在研发一款人工智能驱动的网络搜索功能,内部代号为 World Knowledge Answers。该系统将集成进 Siri,并可能扩展到 Safari 与 Spotlight,实现类似于 ChatGPT、OpenAI、Perplexity 的「AI 问答搜索引擎」功能。这项 AI 搜索功能预计随 iOS 26.4 一同上线,可能最早在 2026 年 3 月推出,且可能与 iPhone 17 系列同步发布。
核心亮点:
多模态生成能力:该系统不仅能提供文本回答,还将支持图文、视频及地产、兴趣点等丰富元素的整合呈现,带来更加直观的搜索结果体验。
模块化 AI 架构:新 Siri 将基于以下组件运作:
Planner:负责理解用户意图;
Search engine: 用于检索网络和设备内容;
Summarizer:整合并生成简明答案。
合作外援择优:苹果已与 Google 达成「正式协议」,拟在摘要能力上测试并引入 Google 定制的 Gemini 模型;同时也在评估 Anthropic 的 Claude。
详细链接:
https://www.bloomberg.com/news/articles/2025-09-03/apple-plans-ai-search-engine-for-siri-to-rival-openai-google-siri-talks-advance
(@Bloomberg)
3、DeepL 推出企业级自主 AI 助手 「DeepL Agent」,革新知识型工作方式
DeepL 今天在其创新平台 DeepL AI Labs 首次推出了 DeepL Agent 一款专为企业设计的自主 AI 助手,DeepL Agent 目前处于有限用户的 beta 测试阶段,预计将在未来几个月从 Labs 平台正式推向市场,面向更多企业客户推出。
自然语言驱动,真实操控角色:DeepL Agent 支持用户以自然语言下达指令,能够模拟键盘、浏览器和鼠标等虚拟操作,从而自主完成复杂工作流程,仿佛「亲自在操作」。
覆盖广泛的企业职能场景:不只局限于语言任务,该 AI 可广泛服务于销售、财务、市场、客户支持、HR、Localization 等部门。例如:自动生成销售目标清单、处理发票、整理文档翻译并执行发布流程等。
理解、推理、执行并持续优化:DeepL Agent 不仅能理解需求,还能推理判断、执行指令,并随着使用频率不断学习与优化,提升效率。
严谨安全与权限控制:为确保企业级安全,DeepL 构建了多层级管控机制:管理员、团队负责人等皆可实时监控 AI 执行状态,还支持「暂停并核查」功能和「人机协同批准」流程,强化结果准确性与透明度。
相关链接:
https://www.deepl.com/en/ai-labs/agent
(@DeepL)
4、Chance AI:用「好奇心镜头」重新定义视觉探索
自称为世界首款 visual agent,Chance AI 的创立源于一个简单的初衷:将好奇心作为核心驱动力,利用人工智能技术,把智能手机的摄像头变成一个能够「思考和行动」的视觉助手。「好奇心镜头」的旨在帮助用户更好地理解所见之物,通过视觉识别提供有意义的解答,而非无关的干扰信息,让知识更贴近生活。
Chance AI 的核心愿景是打造一个「好奇心镜头」,其工作流程可概括为:视觉 → 理解 → 下一步。
视觉(Visual): 用户将摄像头对准任何事物,无论是建筑、图案还是不熟悉的菜肴。
理解(Comprehension): AI 能够即时理解镜头中的内容,并提供相关的背景信息和洞察。
下一步(Next Step): 基于理解,为用户提供进一步的行动或探索建议,让知识不仅仅停留在认知层面,而是引导实际生活中的应用。
相关链接:
https://www.producthunt.com/products/chance-ai/launches/chance-ai-for-android
(@producthunt)
03有态度的观点
1、Plaud CEO:未来十年,人人都有一个可穿戴 AI 设备
近期,《福布斯》发布了一篇关于 AI 硬件厂商「Plaud」的相关报道,并且 Plaud 创始人许高接受了采访,分享了自己在做硬件以及观望未来的想法。据报道,自 2023 年以来,Plaud 已向全球销售超过 100 万台 NotePin,每台售价 159 美元 。配合每年 99 美元的 AI 转写订阅服务,Plaud 年度营收达 2.5 亿美元,且保持接近 25% 的毛利率,媲美苹果等科技巨头。
报道指出,现在也越来越多 AI 大厂选择加入「AI 硬件」这条赛道:
OpenAI 联合苹果前首席设计官 Jony Ive 打造「io」的 AI 硬件品牌,并计划明年推出首款产品;
亚马逊收购了一家名为「Bee」的笔记记录设备初创;
Meta 联合雷朋推出了畅销的 Ray-Ban Meta AI 眼镜,今年还有望推出走量的带屏眼镜「Hypernova」。
在许高看来,AI 硬件也是未来趋势。他认为,未来每个人都会佩戴 AI 可穿戴设备,这将可能成为比智能手机更广泛的普及趋势。但他也坦承,目前仍有怀疑声音认为,未来类似功能可能被智能手机或其他大厂以应用形态集成替代。
比较有趣的是,报道也提到,Plaud 似乎有自己的「一片领地」:其专注会议记录这一垂直场景,并深挖用户使用体验;若能继续提供差异化、专业化服务,即使大厂进入,也不一定能轻易撼动其市场地位。(@APPSO)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻