Hugging Face 开源本地音频模型微调工具集 smol-audio

图片


开发者朋友们大家好:


这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。


本期编辑:@koki、@鲍勃


01 有话题的技术


1、Hugging Face 发布 smol-audio:针对本地音频模型微调与多模态检索的开源工具集

图片


Hugging Face 开源了名为 smol-audio 的代码库,其中包含一系列 Notebook 和脚本。该工具包直接为开发者提供了一套开箱即用的脚手架,用于在本地环境中基于前沿音频模型进行二次开发、微调部署与多模态检索。


主流语音大模型微调支持:内置完善的脚本,支持对 Whisper、Parakeet、Voxtral 以及 Granite Speech 等前沿本地语音模型进行直接微调。


Audio Flamingo 3 适配:针对多模态音频语言模型 Audio Flamingo 3,同步提供了全量参数微调(Full fine-tuning)与 LoRA 参效微调的完整代码实现。


对话级 TTS 部署:工具库集成了 Dia-1.6B 模型,开发者可直接调用并运行对话级文本转语音任务。


零样本多模态检索:接入 Meta 的 PE-AV 模型,支持开箱即用的零样本(Zero-shot)视频与音频到文本(video + audiotext)的双向跨模态检索。


https://github.com/Deep-unlearning/smol-audio


(@Tu7uruu@X)



2、GPTImage2 成为赛博半仙,给马斯克看面相

图片


在消耗了无数张 GPU 资源、烧掉了够几座城市用一年的电力之后,OpenAI 最新推出的 AI 生图大模型 GPT-Image-2,再次迎来了它人生中的高光时刻——给人类看手相/面相。


只要拍一张自己手掌的高清照片发给 GPT-Image-2,再附上一段简单的 Prompt,它就会化身天桥底下的赛博半仙,为你生成一份排版精美、用词考究的掌纹性格与职业指南。这场由 AI 爱好者 Linus Ekenstam 率先发起的趣味测试,迅速演变成全网算命狂欢。


连 Reddit 联合创始人 Alexis Ohanian 都没忍住,乖乖把自己的手掌特写交给了 AI。然后心满意足地领走了一个「适合创业的务实理想主义者」高帽标签。


除了看手相,甚至还有看面相的版本。世界首富马斯克被测出了「理性,克制,稳健」。


不过,其实手掌、指纹属于敏感生物特征数据,随意上传公开存在泄露与滥用风险。同时,这类分析仅为娱乐参考,并非科学判断。


(@APPSO)



02 有亮点的产品

1、SOLO 上线桌面/网页端语音交互功能:支持结构化转录与功能直调,同步发布 TRAE × 影石 Insta360 联名 Mic Air

图片


图片


图片


字节跳动旗下生产力工具 SOLO(TRAE)正式在桌面端与网页端集成语音输入功能,由火山引擎提供技术支持。该功能通过 AI 实现口语到结构化文本的自动整理,并支持通过自然语言直接调用产品内部命令(Command),旨在将语音转化为可执行的工作流指令


  • 智能结构化转录算法:该功能不仅限于 STT(语音转文本),内置 AI 逻辑可自动剔除语气词、重复表达,修复语法错误,并能识别用户的自我修正(如「不是…是…」),直接输出逻辑清晰的文本内容。

  • 语义指令直调(Action-mapping):支持通过自然语言触发产品功能,目前已打通 /Plan、/Skills 等内部命令。用户无需手动输入特定字符,即可通过日常表达实现复杂功能调用。

  • 高采样率硬件协同:联名款 Mic Air 采用 48KHz 采样率与全指向拾音方案,通过 USB-C 接收器实现低延迟传输,并集成硬件级 AI 降噪模块,优化工位及嘈杂环境下的指令识别率。

  • 流式实时交互(Beta):即将上线实时语音问答功能,支持流式转录字幕同步呈现。对话结束后可自动生成结构化「会议纪要」,并支持将纪要内容直接转化为后续任务节点。

  • 混合识别能力:支持中英双语及中英混合识别。单次录音时长上限为 15 分钟,支持整理后二次编辑。


(@TRAE.ai)



2、「数字孙辈」记忆小舟:面向老年人的生活史数字化存档工具,支持非线性方言对话与结构化档案生成

图片


中国传媒大学「银发记忆工程」团队推出「记忆小舟」系统。该产品以硬件终端为入口,通过「数字孙辈」智能体实现对老年人非线性、多方言口述史的自动化采集、语义理解与结构化整理


  • 非线性对话鲁棒性: 针对老年人交流中常见的逻辑停顿、重复、叙述跳跃(Out-of-order narration)等特征,系统舍弃了传统问答式逻辑,允许 AI 追随用户节奏并实时记录线索,后期通过后端模型进行时序与逻辑重组。

  • 跨 session 长效记忆与上下文关联: 智能体具备识别并关联跨轮次对话信息的能力。系统能提取既往谈话中的关键人物和事件作为后续对话的触发锚点,提升交互的拟人性与连续性

  • 情感阈值与动态反馈机制:系统具备特定情感识别能力,在涉及负面情绪(如亲友离去)时,智能体可触发「静默陪护」模式,主动调整交互策略,避免因过度追问导致的伦理风险。

  • 方言适配与语料结构化:支持特定方言环境下的语音识别与转译。系统最终产出的不仅是转录文本,而是可供文化学术研究使用的结构化语料库与数字记忆档案。


( @APPSO)



3、蚂蚁灵光将世界模型搬上移动端,一图即可生成可交互 3D 场景

图片


昨天,蚂蚁灵光 App 正式上线「体验世界模型」功能,成为业内首个可在移动端体验世界模型的 AGI 产品。用户只需上传一张图片,即可在手机上最长 60 秒探索 AI 即时生成的 3D 世界


在交互设计层面,灵光针对移动端用户习惯引入了手游摇杆操控方式 —— 屏幕左侧摇杆控制角色在 3D 场景中的位移,右侧摇杆控制视角旋转,操控逻辑与主流 3D 手游高度一致,无需额外学习即可上手。


针对移动端世界模型算力需求大、延迟控制难、终端性能参差不齐等挑战,灵光团队采用高效低延迟的流式传输技术,将响应延迟压缩至百毫秒级


(@APPSO)



4、Helio 发布 AI 原生协作平台:构建具备独立 Context 与权限体系的「AI 同事」矩阵

图片


图片


图片


AI 劳动力平台 Helio 正式上线,提出「AI 原生原住民」概念,将 AI 智能体(Agent)深度嵌入组织架构。通过赋予 AI 独立身份、实时同步全维度 Context 以及建立分级授权护栏,Helio 旨在实现从「被动响应工具」到「主动执行同事」的任务流转化降低人类在多智能体环境下的决策负荷


  • 统一身份与全维度 Context 整合:AI 智能体拥有独立邮箱、头像及通讯录身份。系统打破沙箱限制,允许 AI 实时感知邮件线程、IM 聊天记录、文档及日历数据,实现「团队背景」与「角色定位」的高保真对齐。

  • 事件驱动型(Event-driven)自主执行:摒弃对话框交互逻辑,AI 基于时间戳和事件监听(如新邮件、订单状态变更、日历到点)主动发起任务。支持跨角色协作,例如产品 AI(Wave)与研发 AI(Coda)可自主完成从需求确认到代码测试的闭环

  • 「三重护栏」安全治理架构:工具白名单管控 AI 自主安装/调用新技能的边界。不可逆任务审批,针对支付、发送重要外部邮件、生产环境部署等高风险动作,强制引入 Human-in-the-loop(人工审批)。动态授权机制:提供 Trust(全自动免审)、Always(每次必审)、Onetime(单次授权)三档权限旋钮。

  • Context 连续性优化决策成本:通过自动整理历史记录与任务前因后果,解决「上下文断裂」导致的决策疲劳。人机交互重心从「输入指令」转向「审阅结果」与「关键点拍板」。


参考链接:https://www.helio.im/


(@Z Potentials)


03 有态度的观点

1、声网冯晓东:当供应链走向成熟,「感官体验」将成为硬件产品体验和商业化核心突破口

图片

声网 Physical AI 产品负责人 冯晓东(右)


随着人形机器人在半马赛事中大幅打破人类纪录并超越老牌企业,机器人硬件供应链的成熟度已得到验证。声网 Physical AI 产品负责人冯晓东指出,行业正经历从「技术驱动」向「价值体验驱动」的拐点。硬件本体决定了机器人的能力下限,而以音视频交互为核心的「感官体验」将成为决定产品体验上限和商业化差异的核心突破口


过去,市场普遍认为机器人的运动控制和结构设计是难以逾越的壁垒。然而,跨界入局的产品(如荣耀「闪电」机器人)在不到一年时间内便在半马赛事中超越深耕十年的老牌企业。这一现象标志着机器人底层逻辑被改写:当硬件不再是核心瓶颈,市场对机器人的追求将从「跑得快、动得稳」转向「听得懂、看得懂、融得进」


2025 年机器人产业已走过「认知启蒙」阶段,正式迈入「场景落地」与商业变现期。以自然语言交互为核心的陪伴、服务类机器人率先爆发。例如珞博「芙崽」陪伴机器人不仅销量破 25 万,更成功实现了用户为「流畅 AI 对话体验」买单的订阅制付费。消费端正从「功能尝鲜」转向「体验依赖」,大模型推动人机交互从图形界面(GUI)正式向对话式交互(CUI)跃升


尽管云端大模型赋予了 AI 强大的「大脑」,但终端设备在复杂物理世界中仍面临严重的「感官短板」(如噪音干扰大、响应滞后、无法自然打断等)。


对此,声网提出专注打造「感官智能底座」的解法。自 2024 年 10 月起,声网推出对话式 AI 引擎(Conversational AI Engine),系统解决环境降噪、人声分离、优雅打断及低延迟传输等痛点。同时通过推出 R1/R2 系列开发套件,声网帮助硬件以极低的功耗和小体积,实现从「能听会说」到「能看会动」的阶梯式升级,为 AI 装上拟人化的感知中枢。联合多家芯片原厂搭建 AOSL 开放生态,降低开发者接入门槛,不做硬件竞争者,只做行业「最可靠的感官底座」。


中国具身智能产业正站在全球浪潮的前沿。未来的机器人不仅要「跑赢数值」,更要拥有「灵魂」。随着「感官短板」被不断补齐,自然流畅的多模态交互将让 AI 真正走出「黑屋子」,全面融入人类的美好生活


( @凤凰网)

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


图片

作者提示: 个人观点,仅供参考

注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    // 相关帖子
    Coming soon...
    • 0
    Hugging Face 开源本地音频模型微调工具集 smol-audioRTRTE_Dev_Comm