通义上线 FunAudio-ASR,噪声场景幻觉率降 70%;盒智科技推出 AI 口语练习陪伴设备 Lookee 丨日报

图片



开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@Jerry fong,@鲍勃

01有话题的技术

1、FunAudio-ASR:阿里通义实验室发布新一代语音识别大模型,幻觉率爆降 70%,重塑智能交互

阿里巴巴通义实验室近日推出其首个端到端语音识别大模型 FunAudio-ASR。该模型通过创新的「Context 模块」和数千万小时音频数据训练,显著优化了语音大模型的「幻觉」和「串语种」问题,在高噪声场景下将幻觉率从 78.5% 大幅降至 10.7%。这标志着语音识别技术正从「能听清」向「能理解」迈进,为智能交互提供了更可靠的入口。

图片

  • 「幻觉」问题突破性优化: FunAudio-ASR 引入创新的「Context 模块」,通过 CTC 解码器快速生成初步文本作为上下文,辅助 LLM 理解音频内容。在高噪声场景下,幻觉率从 78.5% 降至 10.7%,下降幅度接近 70%

  • 强大的数据与模型规模: 模型融合了数千万小时音频数据和 LLM 的语义理解能力,提升了上下文一致性与跨语言切换能力。性能超越 Seed-ASR、KimiAudio-8B 等业内知名模型。

  • 全面落地优化与功能: 支持低延迟流式识别、中英文自然切换以及用户可自定义热词识别(通过引入 RAG 机制,大幅提升定制化词汇召回率),可广泛应用于视频会议、实时字幕、智能终端等场景。

  • 双版本灵活部署: 提供满血版(由 0.7B 参数量编码器和 7B 参数量 LLM 组成,追求最高精度)和轻量 nano 版(由 0.2B 参数量编码器和 0.6B 参数量 LLM 组成,平衡效率与精度)。

  • 商业化与开放平台: FunAudio-ASR 已上线阿里云百炼平台,API 定价为 0.00022 元/秒(一小时音频约 8 毛钱)。技术报告已发布,开发者可在魔搭社区体验。

FunAudio-ASR 模型已上线阿里云百炼平台和魔搭社区供开发者体验与使用。技术报告也已同步发布。目前已在钉钉的「AI 听记」、视频会议、DingTalk A1 硬件等多个阿里巴巴生态场景中落地应用。

魔搭社区体验:

https://modelscope.cn/studios/iic/FunAudio-ASR

阿里云百炼平台:

https://help.aliyun.com/zh/model-studio/recording-file-recognition?spm=a2c4g.11186623.help-menu-2400256.d_0_3_1.f43e7432ytYkAa&scm=20140722.H_2880903._.OR_help-T_cn~zh-V_1

技术报告:

https://github.com/FunAudioLLM/FunAudioLLM.github.io/blob/master/pdf/FunAudio-ASR.pdf

(@智东西 / 阿里巴巴通义实验室)


2、Groq 发布实时 AI 语音助手,集成互联网搜索能力

Groq 发布了一款名为「Compound Voice」的实时 AI 语音助手,该助手融合了 Groq 的 Compound LLM 和互联网搜索能力,旨在实现更自然、高效的人机交互。它能够处理低延迟的语音对话,并在需要时自动搜索最新信息,为用户提供更智能的服务。


关键亮点

  • 实时语音交互: 「Compound Voice」实现了接近零延迟的语音对话,确保流畅自然的交流体验。

  • 智能互联网搜索: 当需要最新信息时,助手能自动执行互联网搜索,并将其整合到对话中。

  • Groq 驱动的高性能: 核心 AI 推理能力由 Groq 提供,确保了极快的响应速度和优异的性能。

  • 先进音频处理: 集成了语音活动检测(Voice Activity Detection)和噪声过滤功能,提升了语音输入的准确性。

  • 跨平台响应式设计: 支持桌面和移动设备,用户可在不同平台上无缝使用。

  • 可定制化语音输出: 支持 ElevenLabs 的多种声音选项,并兼容 LiveKit 支持的其他 TTS 服务。

GitHub: 

https://github.com/build-with-groq/compound-voice

(@Groq)


02有亮点的产品

1、Taya 推出智能珠宝饰品,将语音捕捉与 AI 融入优雅设计
图片

「Taya」推出了一款全新的智能珠宝产品,将无缝语音捕捉和 AI 处理能力集成到优雅的配饰中。它旨在通过非侵入式的方式帮助用户记录生活中的重要瞬间,挑战了传统可穿戴设备「科技感」过强、「设计感」不足的市场现状。


官网链接:

https://www.tayanecklace.com/

(@TAYA)

2、Meta 新型智能眼镜外观泄露:带有显示屏

9 月 16 日消息,据 UploadVR 报道, Meta 发布了一段未公开且现已被删除的视频,展示了一款全新的雷朋 (Ray-Ban) 品牌智能眼镜,该眼镜配有显示屏和腕带,方便用户控制。视频中还展示了一款全新的 Oakley 「Sphaera」 智能眼镜,眼镜鼻梁上装有摄像头。这意味着 Meta 可能无意中泄露了本周 Connect 大会上的两项重大公告。

对于带显示屏的眼镜,视频中包含「Meta | Ray-Ban」和「Display」的品牌标识,因此 Meta 可能会将其命名为 Meta Ray-Ban Display。根据 UploadVR 文章中的一段简短视频,实际的显示屏位于眼镜的右侧镜片上,视频展示了这款眼镜如何让你执行各种操作,例如向 Meta AI 提问、查看眼镜上的地图以帮助你导航、翻译路标,或者用戴着腕带的手「书写」聊天回复。

今年早些时候,CNBC 报道称, Meta 代号为「Hypernova」的带显示屏眼镜腕带将使用表面肌电图 (sEMG) 技术来解读手部运动信号,以帮助您控制设备,因此该视频片段很可能展示了该技术的实际应用。

Meta 首席执行官马克·扎克伯格将于美国东部时间周三晚上 8 点(北京时间周四早上 8 点)主持 Connect 主题演讲,届时这款新眼镜有望正式亮相。

(@鞭牛士)



03有态度的观点 

1、OpenAI 董事长:「AI 泡沫」是良性循环

据 The Verge 报道,OpenAI 董事长兼 Sierra CEO 布雷特・泰勒(Bret Taylor)近日在旧金山的一场活动中直言,当前的「AI 泡沫」与上世纪末的互联网繁荣有着惊人的相似之处。

他认为,这种泡沫并非全然负面,反而可能成为推动技术与经济发展的「良性循环」。

泰勒指出,互联网泡沫时期虽然出现了 Pets.com、Webvan 等失败案例,但也孕育了亚马逊、Google 等长期赢家。

他强调,大型语言模型等现代 AI 技术已在软件工程、客户服务等领域展现出颠覆性潜力,能够将稀缺的高技能资源转化为更普及的生产力,从而释放巨大的经济价值。

我认为我们既处在一个泡沫之中,也正见证着一场将重塑全球经济的技术革命。这两件事可以同时成立。

泰勒同时提醒,AI 行业的投资热情必然伴随风险,部分企业和资本将面临损失,但基础设施和技术成果会像互联网时代的光纤网络一样,最终被后来的赢家所利用。

(@APPSO)



04社区黑板报 

招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)

1、社区项目推荐 | 盒智科技 Lookee 上线:耳机盒大小的 AI 语伴,无屏化设计根除「哑巴英语」
图片
图片

盒智科技近日推出其首款 AI 智能口语练习陪伴产品 Lookee。这款仅耳机盒大小的便携设备旨在解决孩子英语学习缺乏持续性、易退化的问题。通过独特的无屏化设计和多模态 AI 「智能体」能力,Lookee 致力于在还原真实对话环境中,根除「哑巴英语」,成为孩子们的「如影随形的好朋友」。

创始人鲁雅琦发现,孩子英语学习最大挑战在于缺乏持续的语言环境。Lookee 旨在通过 AI 硬件,提供一个随时随地的口语练习陪伴方案,解决家长「费妈费钱」的难题。

  • 设备重量不到 50g,仅耳机盒大小,方便孩子佩戴。机身正面带有「大眼睛」,能随对话露出不同表情,并跳跃点赞、小星星,吸引孩子主动使用。

  • Lookee 不仅能听能说,还内置摄像头,能感知周围环境(如孩子画的画、看的书),将真实世界转化为 AI 可理解的「Super Prompt」,并生成恰当反馈,如影随形。

  • 团队大胆采用无屏化设计,避免屏幕文字对听力理解的抑制,还原真实交流环境,同时保护孩子视力。

  • 抛弃传统屏幕授课,基于上万条真实孩子与外教对话数据,建立「苏格拉底式」问答引擎,柔性纠正,引导孩子持续提升英语能力,并遵循世界著名语言教育专家 Pimsleur 的理念。

  • 引入剑桥考官作为顾问,还原考试流程和考评标准,提供真题集、模考卡、练习卡,助力 KET、PET 等剑桥英语考试备考。配套家长端 APP 可随时查看学习情况、自定义 Lookee 能力。

  • 团队成员来自哥伦比亚大学、好未来、字节教育、华为等顶尖教育、AI 和硬件领域,且联合创始人均出身教师家庭,深刻理解教育本质。

  • Lookee 作为盒智科技的首款 AI 智能口语练习陪伴产品,目前已应运而生,并已成功在数百名孩子中进行内测。

(@盒智科技)

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么


写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


图片

素材来源官方媒体/网络新闻​

注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    关键词
    // 相关帖子
    Coming soon...
    • 0
    通义上线 FunAudio-ASR,噪声场景幻觉率降 70%;盒智科技推出 AI 口语练习陪伴设备 Lookee 丨日报RTRTE_Dev_Comm