语音 AI 初创公司 Smallest.ai 融资 800 万美元;Qwen3-ASR-Toolkit:转录任意时长音视频丨日报

图片


开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@Jerry fong,@鲍勃

01有话题的技术

1、阿里通义推出 Qwen3-ASR-Toolkit,转录任意时长音视频
图片

Qwen-ASR API  是一个高级的、高性能的 Python 命令行工具包,用于调用 Qwen-ASR API(原名 Qwen3-ASR-Flash)。该实现通过智能分割长音频/视频文件并并行处理,突破了 API 的 3 分钟音频长度限制,从而能够快速转录数小时的内容。

主要特性

  • 打破 3 分钟限制:通过绕过官方 API 的时长约束,无缝转录任意时长的音频和视频文件。

  • 智能音频分割:使用语音活动检测(VAD)在自然的静默间隙处将音频分割成有意义的片段,确保不会生硬地截断单词和句子。

  • 高速并行处理:利用多线程将音频片段并发发送到 Qwen-ASR API,大幅减少长文件的总体转录时间。

  • 智能后处理:自动检测并移除常见的 ASR 幻觉和重复伪迹,生成更清晰、更准确的文本记录。

  • SRT 字幕生成:基于 VAD 分段自动创建带时间戳的 。srt 字幕文件,非常适合为视频内容添加字幕。

  • 自动音频重采样:自动将任何采样率和声道数的音频转换为 Qwen-ASR API 所需的 16kHz 单声道格式。您可以使用任何音频文件而无需担心预处理。

  • 通用媒体支持:得益于对 FFmpeg 的依赖,几乎支持任何音频和视频格式(例如 . mp4, .mov, .mkv, .mp3, .wav, .m4a) 。

  • 简单易用:直观的命令行界面让你只需一条命令即可开始使用。

Github 链接:

https://github.com/QwenLM/Qwen3-ASR-Toolkit

(@AIBase)

2、Neuphonicspeech 开源「NeuTTS Air」: CPU 实时语音 LLM

Neuphonicspeech 近日正式发布并免费开源了 「NeuTTS Air」,这是全球首个能够在标准 CPU 上实时运行的超逼真语音基础模型,并支持即时语音克隆功能。该模型基于 Qwen 0.5B LLM 主干构建,以 GGML 格式提供,旨在为社区提供创新的设备端 TTS 解决方案,为嵌入式语音智能体和合规应用开辟新纪元。

相关链接:

https://x.com/neuphonicspeech/status/1973760869084606854

(@neuphonicspeech@X)


02有亮点的产品

1、Alphabet 推出 Gemini Enterprise:统一 AI 平台,全员自动化复杂任务与智能体集成
图片

Alphabet 在「Gemini at Work」活动前发布「Gemini Enterprise」,这是一个统一的 AI 平台,旨在通过整合 Gemini AI 模型、内部及第三方智能体和生成式 AI,为企业各部门员工提供易于使用的 AI 工具。该平台赋能员工自动化复杂任务、生成内容,并无缝连接多个商业应用程序,标志着 AI 能力向全员普及迈出关键一步。

  • 「统一 AI 平台」: Gemini Enterprise 整合了 Google 现有的多项技术,包括 Gemini AI 模型、内部和第三方智能体以及生成式 AI,打造成一个单一的统一平台。

  • 「零配置集成」与「Playbook」核心: 平台以独特的「Playbook」为核心,预置了 MCP 服务器、上下文指令、自定义命令及工具禁用规则,使用户无需复杂配置即可让 AI 快速掌握外部服务的使用方式。支持集成 Box、Microsoft、Salesforce、SAP 等主流企业软件。

  • 丰富智能体生态: 包含 Google 预设计的软件开发、数据科学、客户互动智能体,以及 Workday 等企业伙伴的智能体,覆盖数据库、CI/CD、API 管理、设计系统、安全检测与云服务等关键领域。

  • 「无代码」赋能全员: Gemini Enterprise 让任何员工都能与公司数据互动,并跨业务系统触发工作流程,无需编程技能,使 AI 工具普惠化。

  • 内置安全与 Genkit 深度集成: 平台内置 Model Armor 功能,可检查和阻挡 AI 聊天中的请求和回应,确保企业安全性。此外,与 Genkit Extension for Gemini CLI 的深度集成,赋予命令行界面理解 Genkit 架构、执行流的能力,实现从终端直接构建、测试和迭代 AI 应用。

相关链接:

https://blog.google/products/google-cloud/gemini-at-work-2025/

(@芯研究)

2、Smallest.ai 获 800 万美元种子轮融资

语音 AI 初创公司「Smallest.ai」宣布完成由 Sierra Ventures 领投的 800 万美元种子轮融资。该公司专注于开发超低延迟、高效率的语音生成模型,旨在为呼叫中心、零售和医疗等对实时交互要求极高的行业提供企业级解决方案。

  • 极致的生成速度:其核心模型「Lightning」号称是市场上最快的文本转语音(TTS)模型,能在 100 毫秒内生成 10 秒的语音,比部分竞品快 50 倍。其最新的 4B 参数模型「Electron v2」实现了 53.25 毫秒的「首字符生成时间(TTFT)」,非常适合对延迟敏感的场景。

  • 高效的模型架构:与传统逐个 token 生成的自回归模型不同,「Lightning」采用非自回归架构,可一次性生成多个 token 以节省时间。通过权重剪枝和压缩,模型对硬件要求极低,仅需小于 1GB 的 VRAM 即可运行,同时声称其 4B 模型能媲美 6 倍于其大小的模型的输出质量。

  • 企业级定制与部署:平台提供灵活的语音克隆功能,仅需 15 秒的音频即可快速克隆声音,或使用 15-45 分钟的音频实现更高质量的复制。企业可创建针对特定行业(如处理信用卡号)的「智能体」,并为有严格安全需求的客户提供本地化部署(On-premise)选项。

  • 明确的市场扩张计划:本轮融资将用于加强其在零售、医疗和科技领域的市场渗透,将技术从最初聚焦的呼叫中心场景扩展到更广泛的商业应用。

相关链接:

https://siliconangle.com/2025/10/09/exclusive-voice-ai-developer-smallest-ai-nabs-8m-investment/

(@SiliconANGLE)

3、百度地图小度想想 2.0:行业首个深度融合端到端语音语言大模型
图片

百度地图升级出行智能体「小度想想 2.0」,是行业首个深度融合端到端语音语言大模型的产品。

它引入独家地图出行知识库与百度实时搜索数据,强化复杂出行意图理解;构建跨端记忆体,支持多场景记忆,实现手机搜目的地后车机无缝导航;升级跨模态交互,可调度车内垂类智能体协作。同时具备 AI 搜索、真车道级 AI 导航、AI 伴行、AI 出游规划功能,目前已面向智能汽车全面开放,提升出行便捷度。

(@随心微智)



03有态度的观点 

1、戴尔 CEO:AI 数据中心未来或将「过剩」,电力成最大瓶颈
图片

据 CNBC 报道,戴尔科技 CEO 迈克尔・戴尔近日在接受采访时表示,当前人工智能算力需求「极其强劲」,但未来数据中心的建设数量可能会出现「过多」的情况。

迈克尔・戴尔指出,随着大语言模型逐步演进为多模态、多智能体系统,市场对 AI 处理能力的需求持续攀升。戴尔科技的服务器网络业务去年增长 58%,上季度更是同比大涨 69%。

目前,该公司 AI 服务器搭载英伟达 Blackwell Ultra 芯片,客户包括 CoreWeave 以及埃隆・马斯克旗下的 xAI。

不过,迈克尔・戴尔也强调,电力供应已成为制约 AI 数据中心扩张的关键因素。「许多客户会告诉我们,不要提前交付服务器,因为他们的机房还没有足够的电力支持。」

他提到,OpenAI 与英伟达在 9 月宣布合作建设至少 10 吉瓦的数据中心,相当于约 800 万户美国家庭一年的用电量。

目前,微软、谷歌、亚马逊等科技巨头均已宣布数十亿美元的 AI 数据中心投资计划。

美国能源信息署预计,2025 年美国电网将新增 63 吉瓦电力容量,而 OpenAI 与英伟达的项目 alone 就占据近 16%。

迈克尔・戴尔总结称:「如果要生成数十万亿个 token,推动经济发展,就必须依赖庞大的算力与能源。」

值得注意的是,英伟达 CEO 黄仁勋此前也在一次与 CNBC 的访谈中谈到该问题。

他认为,AI 数据中心应建设配套的离网发电能力,以「更迅捷地满足 AI 算力对电力的需求,且不会对一般居民的用电造成影响」。

(@APPSO)

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

图片

素材来源官方媒体/网络新闻

注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    关键词
    // 相关帖子
    Coming soon...
    • 0
    语音 AI 初创公司 Smallest.ai 融资 800 万美元;Qwen3-ASR-Toolkit:转录任意时长音视频丨日报RTRTE_Dev_Comm