语音 AI 初创公司 Smallest.ai 融资 800 万美元；Qwen3-ASR-Toolkit：转录任意时长音视频丨日报

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@Jerry fong，@鲍勃

01有话题的技术

1、阿里通义推出 Qwen3-ASR-Toolkit，转录任意时长音视频

Qwen-ASR API 是一个高级的、高性能的 Python 命令行工具包，用于调用 Qwen-ASR API（原名 Qwen3-ASR-Flash）。该实现通过智能分割长音频/视频文件并并行处理，突破了 API 的 3 分钟音频长度限制，从而能够快速转录数小时的内容。

主要特性

打破 3 分钟限制：通过绕过官方 API 的时长约束，无缝转录任意时长的音频和视频文件。
智能音频分割：使用语音活动检测（VAD）在自然的静默间隙处将音频分割成有意义的片段，确保不会生硬地截断单词和句子。
高速并行处理：利用多线程将音频片段并发发送到 Qwen-ASR API，大幅减少长文件的总体转录时间。
智能后处理：自动检测并移除常见的 ASR 幻觉和重复伪迹，生成更清晰、更准确的文本记录。
SRT 字幕生成：基于 VAD 分段自动创建带时间戳的。srt 字幕文件，非常适合为视频内容添加字幕。
自动音频重采样：自动将任何采样率和声道数的音频转换为 Qwen-ASR API 所需的 16kHz 单声道格式。您可以使用任何音频文件而无需担心预处理。
通用媒体支持：得益于对 FFmpeg 的依赖，几乎支持任何音频和视频格式（例如 . mp4, .mov, .mkv, .mp3, .wav, .m4a) 。
简单易用：直观的命令行界面让你只需一条命令即可开始使用。

Github 链接：

https://github.com/QwenLM/Qwen3-ASR-Toolkit

(@AIBase)

2、Neuphonicspeech 开源「NeuTTS Air」： CPU 实时语音 LLM

Neuphonicspeech 近日正式发布并免费开源了「NeuTTS Air」，这是全球首个能够在标准 CPU 上实时运行的超逼真语音基础模型，并支持即时语音克隆功能。该模型基于 Qwen 0.5B LLM 主干构建，以 GGML 格式提供，旨在为社区提供创新的设备端 TTS 解决方案，为嵌入式语音智能体和合规应用开辟新纪元。

02有亮点的产品

1、Alphabet 推出 Gemini Enterprise：统一 AI 平台，全员自动化复杂任务与智能体集成

Alphabet 在「Gemini at Work」活动前发布「Gemini Enterprise」，这是一个统一的 AI 平台，旨在通过整合 Gemini AI 模型、内部及第三方智能体和生成式 AI，为企业各部门员工提供易于使用的 AI 工具。该平台赋能员工自动化复杂任务、生成内容，并无缝连接多个商业应用程序，标志着 AI 能力向全员普及迈出关键一步。

「统一 AI 平台」： Gemini Enterprise 整合了 Google 现有的多项技术，包括 Gemini AI 模型、内部和第三方智能体以及生成式 AI，打造成一个单一的统一平台。
「零配置集成」与「Playbook」核心：平台以独特的「Playbook」为核心，预置了 MCP 服务器、上下文指令、自定义命令及工具禁用规则，使用户无需复杂配置即可让 AI 快速掌握外部服务的使用方式。支持集成 Box、Microsoft、Salesforce、SAP 等主流企业软件。
丰富智能体生态：包含 Google 预设计的软件开发、数据科学、客户互动智能体，以及 Workday 等企业伙伴的智能体，覆盖数据库、CI/CD、API 管理、设计系统、安全检测与云服务等关键领域。
「无代码」赋能全员： Gemini Enterprise 让任何员工都能与公司数据互动，并跨业务系统触发工作流程，无需编程技能，使 AI 工具普惠化。
内置安全与 Genkit 深度集成：平台内置 Model Armor 功能，可检查和阻挡 AI 聊天中的请求和回应，确保企业安全性。此外，与 Genkit Extension for Gemini CLI 的深度集成，赋予命令行界面理解 Genkit 架构、执行流的能力，实现从终端直接构建、测试和迭代 AI 应用。

2、Smallest.ai 获 800 万美元种子轮融资

语音 AI 初创公司「Smallest.ai」宣布完成由 Sierra Ventures 领投的 800 万美元种子轮融资。该公司专注于开发超低延迟、高效率的语音生成模型，旨在为呼叫中心、零售和医疗等对实时交互要求极高的行业提供企业级解决方案。

极致的生成速度：其核心模型「Lightning」号称是市场上最快的文本转语音（TTS）模型，能在 100 毫秒内生成 10 秒的语音，比部分竞品快 50 倍。其最新的 4B 参数模型「Electron v2」实现了 53.25 毫秒的「首字符生成时间（TTFT）」，非常适合对延迟敏感的场景。
高效的模型架构：与传统逐个 token 生成的自回归模型不同，「Lightning」采用非自回归架构，可一次性生成多个 token 以节省时间。通过权重剪枝和压缩，模型对硬件要求极低，仅需小于 1GB 的 VRAM 即可运行，同时声称其 4B 模型能媲美 6 倍于其大小的模型的输出质量。
企业级定制与部署：平台提供灵活的语音克隆功能，仅需 15 秒的音频即可快速克隆声音，或使用 15-45 分钟的音频实现更高质量的复制。企业可创建针对特定行业（如处理信用卡号）的「智能体」，并为有严格安全需求的客户提供本地化部署（On-premise）选项。
明确的市场扩张计划：本轮融资将用于加强其在零售、医疗和科技领域的市场渗透，将技术从最初聚焦的呼叫中心场景扩展到更广泛的商业应用。

3、百度地图小度想想 2.0：行业首个深度融合端到端语音语言大模型

百度地图升级出行智能体「小度想想 2.0」，是行业首个深度融合端到端语音语言大模型的产品。

它引入独家地图出行知识库与百度实时搜索数据，强化复杂出行意图理解；构建跨端记忆体，支持多场景记忆，实现手机搜目的地后车机无缝导航；升级跨模态交互，可调度车内垂类智能体协作。同时具备 AI 搜索、真车道级 AI 导航、AI 伴行、AI 出游规划功能，目前已面向智能汽车全面开放，提升出行便捷度。

（@随心微智）

03有态度的观点

1、戴尔 CEO：AI 数据中心未来或将「过剩」，电力成最大瓶颈

据 CNBC 报道，戴尔科技 CEO 迈克尔・戴尔近日在接受采访时表示，当前人工智能算力需求「极其强劲」，但未来数据中心的建设数量可能会出现「过多」的情况。

迈克尔・戴尔指出，随着大语言模型逐步演进为多模态、多智能体系统，市场对 AI 处理能力的需求持续攀升。戴尔科技的服务器网络业务去年增长 58%，上季度更是同比大涨 69%。

目前，该公司 AI 服务器搭载英伟达 Blackwell Ultra 芯片，客户包括 CoreWeave 以及埃隆・马斯克旗下的 xAI。

不过，迈克尔・戴尔也强调，电力供应已成为制约 AI 数据中心扩张的关键因素。「许多客户会告诉我们，不要提前交付服务器，因为他们的机房还没有足够的电力支持。」

他提到，OpenAI 与英伟达在 9 月宣布合作建设至少 10 吉瓦的数据中心，相当于约 800 万户美国家庭一年的用电量。

目前，微软、谷歌、亚马逊等科技巨头均已宣布数十亿美元的 AI 数据中心投资计划。

美国能源信息署预计，2025 年美国电网将新增 63 吉瓦电力容量，而 OpenAI 与英伟达的项目 alone 就占据近 16%。

迈克尔・戴尔总结称：「如果要生成数十万亿个 token，推动经济发展，就必须依赖庞大的算力与能源。」

值得注意的是，英伟达 CEO 黄仁勋此前也在一次与 CNBC 的访谈中谈到该问题。

他认为，AI 数据中心应建设配套的离网发电能力，以「更迅捷地满足 AI 算力对电力的需求，且不会对一般居民的用电造成影响」。

(@APPSO)

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻