通义上线 FunAudio-ASR，噪声场景幻觉率降 70%；盒智科技推出 AI 口语练习陪伴设备 Lookee 丨日报

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@Jerry fong，@鲍勃

01有话题的技术

1、FunAudio-ASR：阿里通义实验室发布新一代语音识别大模型，幻觉率爆降 70%，重塑智能交互

阿里巴巴通义实验室近日推出其首个端到端语音识别大模型 FunAudio-ASR。该模型通过创新的「Context 模块」和数千万小时音频数据训练，显著优化了语音大模型的「幻觉」和「串语种」问题，在高噪声场景下将幻觉率从 78.5% 大幅降至 10.7%。这标志着语音识别技术正从「能听清」向「能理解」迈进，为智能交互提供了更可靠的入口。

「幻觉」问题突破性优化： FunAudio-ASR 引入创新的「Context 模块」，通过 CTC 解码器快速生成初步文本作为上下文，辅助 LLM 理解音频内容。在高噪声场景下，幻觉率从 78.5% 降至 10.7%，下降幅度接近 70%。
强大的数据与模型规模： 模型融合了数千万小时音频数据和 LLM 的语义理解能力，提升了上下文一致性与跨语言切换能力。性能超越 Seed-ASR、KimiAudio-8B 等业内知名模型。
全面落地优化与功能： 支持低延迟流式识别、中英文自然切换以及用户可自定义热词识别（通过引入 RAG 机制，大幅提升定制化词汇召回率），可广泛应用于视频会议、实时字幕、智能终端等场景。
双版本灵活部署： 提供满血版（由 0.7B 参数量编码器和 7B 参数量 LLM 组成，追求最高精度）和轻量 nano 版（由 0.2B 参数量编码器和 0.6B 参数量 LLM 组成，平衡效率与精度）。
商业化与开放平台： FunAudio-ASR 已上线阿里云百炼平台，API 定价为 0.00022 元/秒（一小时音频约 8 毛钱）。技术报告已发布，开发者可在魔搭社区体验。

FunAudio-ASR 模型已上线阿里云百炼平台和魔搭社区供开发者体验与使用。技术报告也已同步发布。目前已在钉钉的「AI 听记」、视频会议、DingTalk A1 硬件等多个阿里巴巴生态场景中落地应用。

魔搭社区体验：

https://modelscope.cn/studios/iic/FunAudio-ASR

阿里云百炼平台：

https://help.aliyun.com/zh/model-studio/recording-file-recognition?spm=a2c4g.11186623.help-menu-2400256.d_0_3_1.f43e7432ytYkAa&scm=20140722.H_2880903._.OR_help-T_cn~zh-V_1

技术报告：

https://github.com/FunAudioLLM/FunAudioLLM.github.io/blob/master/pdf/FunAudio-ASR.pdf

（@智东西 / 阿里巴巴通义实验室）

2、Groq 发布实时 AI 语音助手，集成互联网搜索能力

Groq 发布了一款名为「Compound Voice」的实时 AI 语音助手，该助手融合了 Groq 的 Compound LLM 和互联网搜索能力，旨在实现更自然、高效的人机交互。它能够处理低延迟的语音对话，并在需要时自动搜索最新信息，为用户提供更智能的服务。

关键亮点

实时语音交互： 「Compound Voice」实现了接近零延迟的语音对话，确保流畅自然的交流体验。
智能互联网搜索： 当需要最新信息时，助手能自动执行互联网搜索，并将其整合到对话中。
Groq 驱动的高性能： 核心 AI 推理能力由 Groq 提供，确保了极快的响应速度和优异的性能。
先进音频处理： 集成了语音活动检测（Voice Activity Detection）和噪声过滤功能，提升了语音输入的准确性。
跨平台响应式设计： 支持桌面和移动设备，用户可在不同平台上无缝使用。
可定制化语音输出： 支持 ElevenLabs 的多种声音选项，并兼容 LiveKit 支持的其他 TTS 服务。

GitHub:

https://github.com/build-with-groq/compound-voice

(@Groq)

02有亮点的产品

1、Taya 推出智能珠宝饰品，将语音捕捉与 AI 融入优雅设计

「Taya」推出了一款全新的智能珠宝产品，将无缝语音捕捉和 AI 处理能力集成到优雅的配饰中。它旨在通过非侵入式的方式帮助用户记录生活中的重要瞬间，挑战了传统可穿戴设备「科技感」过强、「设计感」不足的市场现状。

官网链接：

https://www.tayanecklace.com/

(@TAYA)

2、Meta 新型智能眼镜外观泄露：带有显示屏

9 月 16 日消息，据 UploadVR 报道， Meta 发布了一段未公开且现已被删除的视频，展示了一款全新的雷朋（Ray-Ban）品牌智能眼镜，该眼镜配有显示屏和腕带，方便用户控制。视频中还展示了一款全新的 Oakley 「Sphaera」智能眼镜，眼镜鼻梁上装有摄像头。这意味着 Meta 可能无意中泄露了本周 Connect 大会上的两项重大公告。

对于带显示屏的眼镜，视频中包含「Meta | Ray-Ban」和「Display」的品牌标识，因此 Meta 可能会将其命名为 Meta Ray-Ban Display。根据 UploadVR 文章中的一段简短视频，实际的显示屏位于眼镜的右侧镜片上，视频展示了这款眼镜如何让你执行各种操作，例如向 Meta AI 提问、查看眼镜上的地图以帮助你导航、翻译路标，或者用戴着腕带的手「书写」聊天回复。

今年早些时候，CNBC 报道称， Meta 代号为「Hypernova」的带显示屏眼镜腕带将使用表面肌电图（sEMG）技术来解读手部运动信号，以帮助您控制设备，因此该视频片段很可能展示了该技术的实际应用。

Meta 首席执行官马克·扎克伯格将于美国东部时间周三晚上 8 点（北京时间周四早上 8 点）主持 Connect 主题演讲，届时这款新眼镜有望正式亮相。

（@鞭牛士）

03有态度的观点

1、OpenAI 董事长：「AI 泡沫」是良性循环

据 The Verge 报道，OpenAI 董事长兼 Sierra CEO 布雷特・泰勒（Bret Taylor）近日在旧金山的一场活动中直言，当前的「AI 泡沫」与上世纪末的互联网繁荣有着惊人的相似之处。

他认为，这种泡沫并非全然负面，反而可能成为推动技术与经济发展的「良性循环」。

泰勒指出，互联网泡沫时期虽然出现了 Pets.com、Webvan 等失败案例，但也孕育了亚马逊、Google 等长期赢家。

他强调，大型语言模型等现代 AI 技术已在软件工程、客户服务等领域展现出颠覆性潜力，能够将稀缺的高技能资源转化为更普及的生产力，从而释放巨大的经济价值。

我认为我们既处在一个泡沫之中，也正见证着一场将重塑全球经济的技术革命。这两件事可以同时成立。

泰勒同时提醒，AI 行业的投资热情必然伴随风险，部分企业和资本将面临损失，但基础设施和技术成果会像互联网时代的光纤网络一样，最终被后来的赢家所利用。

(@APPSO)

04社区黑板报

招聘、项目分享、求助……任何你想和社区分享的信息，请联系我们投稿。（加微信 creators2022，备注「社区黑板报」）

1、社区项目推荐｜盒智科技 Lookee 上线：耳机盒大小的 AI 语伴，无屏化设计根除「哑巴英语」

盒智科技近日推出其首款 AI 智能口语练习陪伴产品 Lookee。这款仅耳机盒大小的便携设备旨在解决孩子英语学习缺乏持续性、易退化的问题。通过独特的无屏化设计和多模态 AI 「智能体」能力，Lookee 致力于在还原真实对话环境中，根除「哑巴英语」，成为孩子们的「如影随形的好朋友」。

创始人鲁雅琦发现，孩子英语学习最大挑战在于缺乏持续的语言环境。Lookee 旨在通过 AI 硬件，提供一个随时随地的口语练习陪伴方案，解决家长「费妈费钱」的难题。

设备重量不到 50g，仅耳机盒大小，方便孩子佩戴。机身正面带有「大眼睛」，能随对话露出不同表情，并跳跃点赞、小星星，吸引孩子主动使用。
Lookee 不仅能听能说，还内置摄像头，能感知周围环境（如孩子画的画、看的书），将真实世界转化为 AI 可理解的「Super Prompt」，并生成恰当反馈，如影随形。
团队大胆采用无屏化设计，避免屏幕文字对听力理解的抑制，还原真实交流环境，同时保护孩子视力。
抛弃传统屏幕授课，基于上万条真实孩子与外教对话数据，建立「苏格拉底式」问答引擎，柔性纠正，引导孩子持续提升英语能力，并遵循世界著名语言教育专家 Pimsleur 的理念。
引入剑桥考官作为顾问，还原考试流程和考评标准，提供真题集、模考卡、练习卡，助力 KET、PET 等剑桥英语考试备考。配套家长端 APP 可随时查看学习情况、自定义 Lookee 能力。
团队成员来自哥伦比亚大学、好未来、字节教育、华为等顶尖教育、AI 和硬件领域，且联合创始人均出身教师家庭，深刻理解教育本质。
Lookee 作为盒智科技的首款 AI 智能口语练习陪伴产品，目前已应运而生，并已成功在数百名孩子中进行内测。

（@盒智科技）

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

通义上线 FunAudio-ASR，噪声场景幻觉率降 70%；盒智科技推出 AI 口语练习陪伴设备 Lookee 丨日报