Nexa SDK 支持本地运行 Kokoro 等语音模型;AI 猎头智能体 Standout:给 AI 打电话找工作丨日报
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@赵怡岭、@鲍勃
01有话题的技术
1、阿里国际开源情感语音克隆模型 Marco-Voice
阿里国际开源情感语音克隆模型 Marco-Voice 语音合成框架,通过创新性说话人-情感解耦机制,在语音克隆领域取得重要突破。该技术采用批内对比学习方法,可在同一语音样本中分别提取说话人身份特征和情感特征,实现独立调控精度达 92.3%的行业新高。
技术团队开发的旋转情感嵌入整合算法,通过向量空间连续插值技术,支持从平静到激动的平滑情感过渡。配合跨注意力机制,系统可实时分析语言文本的语义重点,自动匹配 13 种基础情感类型及其混合态,实现接近人类的情感表达自然度。
在应用场景方面,该框架展现出三大核心优势:
支持中文、英语等 9 种语言的即时语音转换
单样本克隆语音相似度突破 85%阈值
情感强度可 0-100%线性调节
目前该技术已在智能客服、虚拟助手、无障碍服务等领域完成试点,成功帮助视障用户实现跨语言自然语音交互,并显著提升 AI 助手的情绪感知能力。
相关链接:
https://github.com/AIDC-AI/Marco-Voice
(@AIBUPT,@Keelength@小红书)
2、昆仑万维开源游戏交互世界模型 Matrix-Game 2.0
8 月 13 日,昆仑万维发布自研世界模型 Matrix 系列中,Matrix-Game 交互世界模型的升级版本——「Matrix-Game 2.0」。
据介绍,Matrix-Game 2.0 相较于 Google DeepMind 前段时间所发布的交互式世界模型 Genie 3(未开源),同样实现了通用场景下的交互式实时长序列生成。并且为促进交互式世界模型领域的发展,Matrix-Game 2.0 全面开源,是业内首个在通用场景上实现实时长序列交互式生成的世界模型开源方案。
具体来看,Matrix-Game 2.0 更加侧重低延迟、高帧率的长序列交互性能,能够以 25 FPS 的速度,在多种复杂场景中稳定生成连续视频内容,且生成时长可扩展至分钟级,大幅提升了连贯性与实用性。
在推理速度显著提升的同时,模型依然保持了对物理规律与场景语义的精准理解,支持用户通过简单指令,自由探索、操控并实时构建结构清晰、细节丰富、规则合理的虚拟环境。
技术上,Matrix-Game 2.0 提出了一种全新的视觉驱动交互世界建模方案,彻底摆脱了传统依赖语言提示的生成模式,专注于通过视觉理解和物理规律学习来构建虚拟世界。
目前,Matrix-Game 2.0 已公布技术报告,并上线 HuggingFace 和 GitHub。
项目主页:
https://matrix-game-v2.github.io/
HuggingFace 地址:
https://huggingface.co/Skywork/Matrix-Game-2.0 (@智东西)
3、Pika 发布支持音频驱动的视频生成模型
Pika 宣布推出其突破性的全新音频驱动性能模型,该模型能够以近乎实时的方式生成具有超真实表情的视频。该技术支持任意长度和风格的视频制作,并能在 6 秒或更短的时间内完成高清视频的生成。Pika 表示,新模型在速度上提升了 20 倍,同时成本也大幅降低。
Pika 的愿景是让 AI 视频对更多人来说更易于访问和有趣,使其成为一种连接而非仅仅创造的方式。这款新模型将很快在 Pika 社交应用中推出。用户反馈指出,该模型功能强大,唇形同步效果完美。
特点:
支持任何长度、任何风格的视频生成;
具有更强的情感表达,丰富的面部微表情;
口型同步效果优秀;
支持动物脸;
支持英,日等多语言场景;
能够以超快速度生成高清视频(6 秒内),速度提升 20 倍,成本更低。
目前该模型处于测试阶段,即将在 Pika 社交应用中推出。
相关链接:
https://x.com/pika_labs/status/1954935844936024476
体验链接:
https://apps.apple.com/gb/app/pika-social-ai-video/id6744712684
(@橘鸭 Juya、@EverAI 酱)
4、专为设备端 AI 推理设计的通用框架 Nexa SDK,支持本地运行 Kokoro (TTS) 和 Parakeet (ASR)
Nexa SDK 是一款专为设备端 AI 推理设计的通用框架,其核心亮点在于「在任何设备上运行任何模型」。该 SDK 提供了强大的跨平台能力,支持多种模型格式与硬件后端,并集成了一系列实用功能。
现支持在 MLX 上本地运行 Kokoro (TTS) 和 Parakeet (ASR) 等语音模型:
即时语音记录:通过在终端使用 /mic 命令,用户可以实现即时语音识别,无需浏览器,方便随时捕捉灵感;
离线语音服务:利用其 TTS(文本转语音)功能,用户可以离线收听本地文档或新闻摘要,方便保护隐私;
私密 AI 交互:为用户提供了私有化的 AI 角色扮演等互动体验,保障数据安全。
GitHub:
https://github.com/NexaAI/nexa-sdk
相关链接:
https://discord.com/invite/nexa-ai(@nexa_ai@X)
02有亮点的产品
1、AI 猎头智能体 Standout:给 AI 打电话找工作
Standout 是一款通过对话为用户匹配岗位的智能求职工具,旨在为用户提供符合条件的职位。
用户给 Standout 发消息和打电话,详细描述个人情况、职业目标和职位要求。该智能体将利用这些信息,每天从超过 10 万个岗位中进行扫描和筛选,精准推荐符合条件的职位。
Standout 的核心在于其高度互联的系统,它不仅能为用户提供精选的职位匹配,还能直接为求职者引荐给初创公司的创始人。这有助于简化求职流程,减少不必要的沟通,帮助求职者更快地进入面试环节。
相关链接:
https://standout.work/ (@Product Hunt)
2、3 分钟可成片,B 站测试 AI 视频创作工具「花生 AI」
《读佳》获悉,B 站正在测试全新的 AI 视频创作工具「花生 AI」,这是一个主要以视频内容创作为主的 AI 工具,现阶段还在测试中。
通过「花生 AI」,输入文案或音频,即可自动生成画面,极大节省了素材查找和剪辑时间。
从 UP 主的反馈体验来看,使用「花生 AI」时,只需准备好文案文章或录好的口播音频,就能借助它快速生成成片,具体有两种方式可供选择。若想让视频画面更丰富,可直接使用智能匹配素材功能,AI 会依据文案匹配相应素材,大约 3 分钟就能输出一段视频。要是追求简洁高效,那么直接使用模板即可快速完成成片制作。(@读佳)
3、AI 视频创企 OpenArt 推出「一键故事」功能
8 月 12 日报道,由两名前谷歌员工 Coco Mao(联合创始人兼 CEO)和 John Qiao(联合创始人兼 CTO)于 2022 年创立的 AI 视频初创公司 OpenArt,近期上线「一键故事」功能测试版,让用户从一句话、一个脚本或一首歌,生成一分钟故事短片。
未来,OpenArt 还计划推出支持双角色对话的视频生成功能,以及移动端 App。
OpenArt 聚合 50 余个 AI 模型(包括 DALLE-3、GPT、Imagen、Flux Kontext、Stable Diffusion),目前新功能支持三类模板:
角色 Vlog:上传角色图片+提示词生成带情节的视频;
音乐视频:上传歌曲后解析歌词并匹配动画场景;
解说视频:可制作解释性内容或广告短片。
OpenArt 采用积分订阅制:基础版 14 美元/月(约合人民币 100 元/月,4,000 积分,可生成 4 个「一键故事」、40 个视频、4,000 张图片、4 个角色);进阶版 30 美元/月(约合人民币 215 元/月,12,000 积分,12 个「一键故事」);无限版 56 美元/月(约合人民币 402 元/月,24,000 积分);团队版 35 美元/月/人(约合人民币 251 元/月/人)。
(@智东西 AI 前瞻、@The TechCrunch)
03有态度的观点
1、商汤科技联合创始人:多模态是 AGI 的必经之路
昨日,商汤科技联合创始人、首席科学家林达华发布了一篇长文,其深度解析了公司在多模态通用智能道路上的一些思考与实践。
开头,林达华指出,AI 是—场长跑。从大语言模型(LLM)的兴起到真正意义的通用人工智能(AGI),还有很多开放性的问题有待解决。而商汤认为,多模态是从 LLM 到 AGI 的必经之路。
林达华提到,人工智能的核心目标是通过计算来构建智能,而智能是一个复杂的多维度概念。其认为,智能的核心就是与外界(包括世界或者其他人)进行自主交互的能力,同时这也是一种综合能力——可以被归纳为多种能力维度,包括感知、推理、决策、学习等。
同时,林达华也表示,语言只是人类智能演进过程中的一种产物,但不是智能的本源;语言是描述世界的工具,但不是世界本身。「单靠语言模型并不能构建真正意义的 AGI。」
「但之所以大模型浪潮会首先源自于语言模型的突破,是因为在人类数千年的历史中积累了海量的语料,这些语料在信息时代被广泛地数字化,从而成为最容易规模化获取的数据形态。」林达华指出:
大语言模型是朝着 AGI 迈出的重要一步,但不是终局。随着现存的文本语料被快速耗尽,人工智能下一阶段的突破必然要超越语言,回到智能的本源——和世界的交互。
其认为,世界的信息以多元形态存在,人工智能若要具备通用性,必须能像人类通过感官接收信息那样,将这些原始模态转化为可计算的内部表征。「因此,多模态信息感知与处理的能力是 AGI 的核心要求,也是从语言模型迈向 AGI 的必由之路。」(@APPSO)
2、GitHub 的独立时代正式结束
GitHub 的独立时代正式结束,CEO Thomas Dohmke 宣布辞职,微软决定不再任命新 CEO,直接将 GitHub 并入其新成立的 CoreAI 部门。
当地时间 8 月 11 日,GitHub CEO Thomas Dohmke 发文官宣离职,并宣布将会再次创业——「再次成为一名初创公司创始人」。
在 2018 年微软以 75 亿美元收购了 GitHub 之后,一直都让 GitHub 继续作为社区,平台和业务公司独立运作。只不过随着这次 CEO 离职,GitHub 的独立性将会被大幅减弱。
目前,GitHub 拥有超过 10 亿个仓库和分支,1500 万以上开发者,用户数更是达到了 2000 万。Thomas Dohmke 表示,「GitHub 从未像今天如此强大。」
Thomas Dohmke 在文中透露,GitHub 及其领导团队将作为微软 CoreAI 组织的一部分继续履行使命,更多细节将很快公布。 这似乎意味着微软并未打算为 GitHub 寻找新的 CEO。
除此之外,Thomas Dohmke 表示自己将会留任至 2025 年年底以便完成工作交接。(@果比 AI、@APPSO)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。