Typeless：能理解语音真实意图的转录工具；Chance AI：能够思考和行动的 Visual Agent丨日报

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@Jerry fong，@鲍勃

01有话题的技术

1、ElevenLabs「Conversational AI」正式更名为「ElevenLabs Agents」

2025 年 9 月 3 日，ElevenLabs 宣布将其「Conversational AI」更名为「ElevenLabs Agents」，推出一个全面的平台，助力用户构建、部署和监控跨电话、网络及应用程序的对话式智能代理。该平台支持智能体进行语音对话、文本输入及执行操作，标志着对话式 AI 技术的新里程碑。

ElevenLabs Agents 旨在为用户提供一个一站式解决方案。自平台推出以来，已有超过 200 万个代理被创建，累计处理超过 3300 万次对话。该平台通过连接知识库、工具和电话系统，助力企业实现复杂工作流的自动化处理，并以企业级可靠性与控制力提供更快速的解决方案。(@ElevenLabs)

2、通义实验室 AgentScope 开源发布：开发可控、可用、可落地的智能体应用

阿里通义实验室正式开源推出 AgentScope 1.0 一个以开发者为核心、专注多智能体（multi-agent）开发的框架，覆盖智能体从「开发、部署到监控」的全生命周期。其三层架构由 Core 框架、Runtime 和 Studio 构成，支持单独使用，也兼容 LangGraph、AutoGen 等主流框架，Python 编程即可上手。

实时介入控制：基于异步系统结构，智能体可在执行中安全中断、动态调整流程并恢复执行。
智能上下文管理：利用短期记忆压缩与跨会话长期记忆管理，提升对话连贯性与信息保存稳定性。
高效工具调用体系：支持工具注册、结构化管理、异步并行调用，并可在运行时动态启用/停用工具组，提升工具使用效率。
Runtime 安全沙箱：支持容器隔离、K8S 部署、沙箱内执行代码、文件操作或网页浏览，确保智能体运行安全高效。
Studio 可视监控 & 评测平台：实时追踪智能体状态、Token 消耗与流程执行，还内置开发评测工具与可视化评估模块。

架构基于 ReAct（reason + act）范式与异步设计，提供统一组件接口（消息、模型、记忆、工具），内置实用智能体示例，并支持扩展持久化评估与可追踪的开发体验。

相关链接：

https://mp.weixin.qq.com/s/7p525jsxZg3hA-qA12mKJA

（@通义大模型）

3、即梦 AI 正式上线火山引擎，企业级「一站式创意生产线」开启

2025 年 9 月 3 日，火山引擎与即梦 AI 正式官宣——即梦 AI 正式接入火山引擎平台，向企业开放接口服务（API），涵盖图像生成、视频生成与数字人生成三大类领域，展示字节跳动在 AI 内容创作领域的重要布局。

开放的模型包括：文生图 3.0/3.1、图生图 3.0、视频生成 3.0 Pro、数字人 OmniHuman，以及动作模仿 DreamActor M1，覆盖从静态图像到动态视频、拟人数字创作的完整流程。这些模型源自字节跳动自研框架，如 Seedream、SeedEdit、Seedance、OmniHuman 等，均经过多维度精细调教，以更贴合真实创作场景的需求，多维提升实际使用体验。

文生图 3.0 针对海报设计进行了排版、艺术字体与文字准确性的专项优化，生成商业级图形更统一、更专业。
文生图 3.1 在前代基础上进一步提升画面美感、场景丰富度，整体色彩、光影、构图迈向电影级水准。
图生图 3.0 支持精准文本指令编辑，如「替换背景」「调整标题」且保持人物细节与五官一致，显著改善传统 AI 修改图像易失真的问题。
视频生成 3.0 Pro 支持专业级可控运镜、1080P 高清渲染，增强多镜头叙事表达，使短片创作更加流畅自然。
数字人 OmniHuman 借助一张图像与一段音频（或视频）即可生成动态数字人，精准匹配声音、表情、口型与肢体动作，适配写实或二次元形象，具备生动表现力。

目前模型已上线火山引擎平台，企业用户可通过自助下单方式快速接入，免去繁琐申请流程，实现即刻使用；这标志着「创意内容自动化生成」进入开箱即用时代

相关链接：

https://mp.weixin.qq.com/s/P7ivTg4sKRu_f874wCweCA

（@火山引擎）

02有亮点的产品

1、Typeless：「理解语言背后的真实意图」的语音转录工具

Typeless 是一款革命性的智能语音转录工具，其核心优势在于「理解语言背后的真实意图」。与传统转录工具不同，Typeless 不仅能将语音转化为文字，还能够自动编辑、优化，将口语化的表达转化为清晰、专业的书面文本。该工具的出现旨在彻底解决会议记录、口述写作等场景中繁琐的整理和编辑工作。Typeless 可广泛应用于会议记录、内容创作、学习笔记、客户服务等多种场景，旨在通过自动化整理工作，极大地提升用户的工作效率。

智能清理口语杂质： 自动识别并删除语音中的语气词（如「嗯」、「呃」）和填充词，使转录文本干净流畅。
自动编辑与格式化： 根据语境自动修正语句，并能将口头表达的列表和要点格式化为结构清晰的文本。
多语言混合支持： 支持超过 100 种语言的转录，且能够自动检测并准确处理混合语言的表达。
个性化词典定制： 用户可添加专业术语或专有名词，提高特定领域转录的准确性。
隐私保护： 采用零数据留存策略，所有转录过程均在本地设备上完成，不上传云端，确保用户数据和隐私安全。

官网链接：

https://typeless.com（@巧用 AI）

2、Apple 推出 AI 搜索引擎整合 Siri：打造「回答引擎」新形式

彭博社报道：苹果（Apple）正在研发一款人工智能驱动的网络搜索功能，内部代号为 World Knowledge Answers。该系统将集成进 Siri，并可能扩展到 Safari 与 Spotlight，实现类似于 ChatGPT、OpenAI、Perplexity 的「AI 问答搜索引擎」功能。这项 AI 搜索功能预计随 iOS 26.4 一同上线，可能最早在 2026 年 3 月推出，且可能与 iPhone 17 系列同步发布。

核心亮点：

多模态生成能力：该系统不仅能提供文本回答，还将支持图文、视频及地产、兴趣点等丰富元素的整合呈现，带来更加直观的搜索结果体验。
模块化 AI 架构：新 Siri 将基于以下组件运作：
Planner：负责理解用户意图；
Search engine：用于检索网络和设备内容；
Summarizer：整合并生成简明答案。
合作外援择优：苹果已与 Google 达成「正式协议」，拟在摘要能力上测试并引入 Google 定制的 Gemini 模型；同时也在评估 Anthropic 的 Claude。

详细链接：

https://www.bloomberg.com/news/articles/2025-09-03/apple-plans-ai-search-engine-for-siri-to-rival-openai-google-siri-talks-advance

(@Bloomberg)

3、DeepL 推出企业级自主 AI 助手「DeepL Agent」，革新知识型工作方式

DeepL 今天在其创新平台 DeepL AI Labs 首次推出了 DeepL Agent 一款专为企业设计的自主 AI 助手，DeepL Agent 目前处于有限用户的 beta 测试阶段，预计将在未来几个月从 Labs 平台正式推向市场，面向更多企业客户推出。

自然语言驱动，真实操控角色：DeepL Agent 支持用户以自然语言下达指令，能够模拟键盘、浏览器和鼠标等虚拟操作，从而自主完成复杂工作流程，仿佛「亲自在操作」。

覆盖广泛的企业职能场景：不只局限于语言任务，该 AI 可广泛服务于销售、财务、市场、客户支持、HR、Localization 等部门。例如：自动生成销售目标清单、处理发票、整理文档翻译并执行发布流程等。

理解、推理、执行并持续优化：DeepL Agent 不仅能理解需求，还能推理判断、执行指令，并随着使用频率不断学习与优化，提升效率。

严谨安全与权限控制：为确保企业级安全，DeepL 构建了多层级管控机制：管理员、团队负责人等皆可实时监控 AI 执行状态，还支持「暂停并核查」功能和「人机协同批准」流程，强化结果准确性与透明度。

相关链接：

https://www.deepl.com/en/ai-labs/agent

(@DeepL)

4、Chance AI：用「好奇心镜头」重新定义视觉探索

自称为世界首款 visual agent，Chance AI 的创立源于一个简单的初衷：将好奇心作为核心驱动力，利用人工智能技术，把智能手机的摄像头变成一个能够「思考和行动」的视觉助手。「好奇心镜头」的旨在帮助用户更好地理解所见之物，通过视觉识别提供有意义的解答，而非无关的干扰信息，让知识更贴近生活。

Chance AI 的核心愿景是打造一个「好奇心镜头」，其工作流程可概括为：视觉 → 理解 → 下一步。

视觉（Visual）：用户将摄像头对准任何事物，无论是建筑、图案还是不熟悉的菜肴。
理解（Comprehension）： AI 能够即时理解镜头中的内容，并提供相关的背景信息和洞察。
下一步（Next Step）：基于理解，为用户提供进一步的行动或探索建议，让知识不仅仅停留在认知层面，而是引导实际生活中的应用。

相关链接：

https://www.producthunt.com/products/chance-ai/launches/chance-ai-for-android

(@producthunt)

03有态度的观点

1、Plaud CEO：未来十年，人人都有一个可穿戴 AI 设备

近期，《福布斯》发布了一篇关于 AI 硬件厂商「Plaud」的相关报道，并且 Plaud 创始人许高接受了采访，分享了自己在做硬件以及观望未来的想法。据报道，自 2023 年以来，Plaud 已向全球销售超过 100 万台 NotePin，每台售价 159 美元。配合每年 99 美元的 AI 转写订阅服务，Plaud 年度营收达 2.5 亿美元，且保持接近 25% 的毛利率，媲美苹果等科技巨头。

报道指出，现在也越来越多 AI 大厂选择加入「AI 硬件」这条赛道：

OpenAI 联合苹果前首席设计官 Jony Ive 打造「io」的 AI 硬件品牌，并计划明年推出首款产品；
亚马逊收购了一家名为「Bee」的笔记记录设备初创；
Meta 联合雷朋推出了畅销的 Ray-Ban Meta AI 眼镜，今年还有望推出走量的带屏眼镜「Hypernova」。

在许高看来，AI 硬件也是未来趋势。他认为，未来每个人都会佩戴 AI 可穿戴设备，这将可能成为比智能手机更广泛的普及趋势。但他也坦承，目前仍有怀疑声音认为，未来类似功能可能被智能手机或其他大厂以应用形态集成替代。

比较有趣的是，报道也提到，Plaud 似乎有自己的「一片领地」：其专注会议记录这一垂直场景，并深挖用户使用体验；若能继续提供差异化、专业化服务，即使大厂进入，也不一定能轻易撼动其市场地位。(@APPSO)

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

Typeless：能理解语音真实意图的转录工具；Chance AI：能够思考和行动的 Visual Agent丨日报