不只做语音,ElevenLabs 推出图像和视频生成平台;博通推出语音 AI 芯片,实现端侧 TTS 和实时翻译丨日报
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@鲍勃
01有话题的技术
1、StrawGo:专为 Go 开发者打造的低延迟、可扩展语音 AI 应用框架
StrawGo 是一个高度成熟、可用于生产环境的框架。它专门面向需要构建低延迟、高可扩展性的语音 AI 应用的 Go 开发者。
帧(Frame)驱动架构:提供清晰、模块化的管道(Pipeline)组合方式,便于构建和管理。
高性能:充分利用 Go 原生并发能力(goroutines 与 channels),实现极致性能。
集成语音通话:内置支持 Twilio 和 Asterisk WebSocket,轻松实现语音呼叫功能。
传输与序列化器模式:采用类似 Pipecat 的设计,构建灵活且易于扩展的架构。
多样化 AI 服务集成:无缝对接 Deepgram(语音转文本 STT)、ElevenLabs(文本转语音 TTS)以及 OpenAI 和 Gemini(大型语言模型 LLMs)。
灵活音频处理:支持 mulaw 直通(passthrough)或 PCM 管道,满足多样化处理需求。
生产级就绪:具备完善的错误处理机制和生命周期管理,确保稳定运行。
极简依赖:仅需 gorilla/websocket,轻松集成,降低复杂性。
https://github.com/square-key-labs/strawgo-ai
(@Github)
2、CAMB.AI 与 Broadcom 合作,将语音 AI 能力推向终端设备
AI 本地化平台 CAMB.AI 正与半导体巨头 Broadcom 合作,将其先进的语音 AI 模型移植到 Broadcom 的 SoC 芯片上。此次合作旨在实现设备端的文本转语音和未来可能的实时翻译功能,从而提升性能、隐私性和用户体验。
设备端 TTS 能力: CAMB.AI 推出了可在 Broadcom SoC 集成的 NPU 上运行的 TTS 功能,能够将多语言文本转化为自然语音,无需云连接。
隐私与低延迟: 本地化处理消除了对云的依赖,确保了超低延迟、增强用户隐私,并降低了带宽和电力成本。
优化的性能: 结合 Broadcom 高效的芯片架构和 CAMB.AI 的轻量级 AI 模型,实现了出色的性能功耗比。
未来潜力: 双方正在探索将 CAMB.AI 的实时多语言翻译模型移植到 Broadcom 设备端 NPU 的可行性,这将支持超过 150 种语言的端到端翻译。
应用场景拓展: 该能力将首先应用于 Broadcom 在家庭娱乐和连接领域的设备,如机顶盒和网关,为用户提供更便捷、个性化的内容体验,并赋能无障碍访问。
端侧音频描述 demo:
https://vimeo.com/1127700800/29c9f4491b
(@CAMB.AI)
3、Cloudflare 收购 Replicate
Cloudflare 今日宣布已收购 Replicate,这是领先的 AI 模型运行平台。此次收购旨在将 Replicate 强大的模型目录和部署能力集成到 Cloudflare 的开发者平台中,为开发者提供更便捷、更高效的 AI 模型运行和应用开发体验。
无缝集成与模型目录扩展: Replicate 平台及其超过 50,000 个模型(包括开源和微调模型)将全面集成到 Cloudflare 的 Workers AI 服务中,为开发者提供前所未有的模型选择。
增强的 Workers AI 功能: Replicate 的加入将为 Workers AI 带来微调和运行自定义模型的能力,同时受益于 Cloudflare 全球网络的性能和可靠性提升。
统一的 AI 开发体验: Cloudflare 将 Replicate 的模型库与自身的 AI Gateway、Vectorize、R2 等数据和编排工具相结合,构建一个一站式的 AI Cloud,简化端到端 AI 应用的开发与部署。
社区与生态系统融合: Cloudflare 将继续投资 Replicate 社区,将其打造成 AI 模型发现、分享和实验的首选目的地,并利用 Cloudflare 的网络加速用户体验。
更灵活的模型部署: 除了将 Replicate 模型迁移至 Workers AI,双方还将共同努力,使开发者能够通过 Replicate 的 Cog 工具轻松地将自定义模型部署到 Cloudflare 的网络上。
(@Cloudflare Blog)
4、陈天桥团队推出 EverMemOS,或有望解决 AI「失忆」问题
昨天,陈天桥领导的盛大团队宣布正式发布其旗舰产品 EverMemOS。这是一款面向 AI 智能体的长期记忆操作系统,旨在为未来智能体提供持久、连贯、可进化的数据基础设施。
EverMemOS 在 LoCoMo 与 LongMemEval-S 等主流长期记忆评测集上分别取得 92.3% 与 82% 的成绩,显著超越此前 SOTA 水平,成为新的行业标杆。该系统已率先被 AI Native 产品 Tanka 采用。
当前,大模型受限于固定上下文窗口,难以在长时程任务中保持一致性,导致「失忆」与事实矛盾。行业巨头如 Claude 与 ChatGPT 已将长期记忆作为战略功能推出,凸显记忆能力在 AI 演化中的关键地位。EverMind 团队提出,长期记忆是 AI 从「工具」走向「智能体」的分水岭。
EverMind 表示,EverMemOS 的设计灵感源自人类大脑记忆机制:
四层架构设计:代理层、记忆层、索引层与接口层,分别类比人脑前额叶、皮层、海马体与感官接口;
记忆处理器:突破传统「记忆数据库」局限,能主动影响模型推理与回应;
分层记忆提取:将语义块组织为情景记忆单元,解决文本相似度检索的上下文缺陷;
模块化框架:支持不同场景下的多样化记忆需求,兼顾企业协作与陪伴式交互。
目前,EverMemOS 已在 Github 开源,团队计划在今年晚些时候推出云服务版本,为企业用户提供更完善的支持与扩展体验。
官网: http://everm.ai
Github:
https://github.com/EverMind-AI/EverMemOS/
( @appso)
02有亮点的产品
1、ElevenLabs 整合多模态模型,推出 Image & Video 平台
ElevenLabs 正式发布其全新的「Image & Video」(Beta 版)平台,将业界领先的图像和视频生成模型与 ElevenLabs 强大的音频处理能力整合,为创作者和营销人员提供一站式多模态内容创作解决方案。
一站式多模态创作:集成 Veo, Sora, Kling, Wan, Seedance 等顶级模型,支持生成图像和视频,并可导出至 ElevenLabs Studio 进行音频、音乐和音效的后期制作。
强大的图像生成能力:内置 Nanobanana, Flux Kontext, Wan, Seedream 等模型,用户可快速创建、优化图像,用于故事板、缩略图或视频素材。
高级音频与视频增强:提供图像和视频的 Topaz 超分辨率放大功能,并支持为生成的视频添加唇形同步(lipsync),确保旁白与画面完美匹配。
专业级音频后期制作:Studio 环境允许用户调整时间线,使用 ElevenLabs 的自有声库或语音克隆技术替换/优化旁白,并叠加音乐和音效,最终导出高质量内容。
未来发展:ElevenLabs 致力于构建一个由顶尖多模态 AI 驱动的统一创意平台,未来将引入更多图像和视频模型。
(@ElevenLabs@X)
2、BeFreed 推出个人化音频学习智能体,支持实时问答和对话式交互
BeFreed 发布了一款名为「BeFreed」的个人音频学习智能体,该智能体能根据用户需求,连接并分析大量知识源,提供定制化的音频学习体验。它旨在通过实时问答和对话式交互,彻底改变传统的被动学习模式,让学习过程更加个性化和高效。
按需音频知识:BeFreed 能够检索公开及自有知识源,为用户提供即时、定制化的音频学习内容,满足用户在不同场景下的学习需求,例如旅行时了解目的地历史。
对话式交互学习:用户可以在学习过程中随时提问、深入探讨或寻求具体建议,将单向内容输出转变为双向的对话式学习。
「Focus Mode」沉浸式学习:提供「Focus Mode」,用户可设定关注的主题,BeFreed 会智能搜索、分析并连接相关知识,用户只需点击即可继续学习,无缝衔接。
集成化学习工具:集成了抽认卡(flashcards)、个性化推荐和情境化问答等内置工具,进一步提升学习的个性化和直观性。
技术驱动的定制体验:核心技术基于专有的内容模型,能够理解、分析并评估跨平台的知识,实现真正个性化的音频学习。
BeFreed 目前已在 iOS 平台上线。
(@Product Hunt)
03有态度的观点
1、Anthropic CEO 阿莫代:AI 大权握在我们几个人手里,深感不安
Anthropic 首席执行官达里奥・阿莫代(Dario Amodei)近日坦言,他对包括自己在内的少数几位科技领袖在人工智能未来发展上所掌握的巨大权力深感不安。
「我内心深处对这些重大决策仅由少数几家公司、少数几个人来做出,深感不安。」阿莫代在当地时间上周日播出的《60 分钟》节目中接受安德森・库珀(Anderson Cooper)采访时如是表示。
对此,库珀追问:「比如,谁选举了你和山姆・奥尔特曼(Sam Altman)?」阿莫代坦率回应:「没人。真的,没人。」
阿莫代于 2021 年离开 OpenAI 后联合创办了 Anthropic,并将该公司定位为一家以安全与透明为核心使命的初创企业,即便这意味着主动披露其技术潜在的阴暗面。
今年 6 月,Anthropic 在一项受控实验中发现,其 AI 模型 Claude 曾在实验室测试中试图勒索一位虚构高管,该测试旨在探究模型在面临被关闭威胁时的反应行为。
阿莫代向库珀强调:「需要明确的是,这些行动均已被我们及时终止;而我们在中止攻击后,也主动、公开地披露了相关事件,因为人工智能是一项全新技术。就像它自身会出问题一样,也极易被犯罪分子及恶意国家行为体滥用。」
尽管风险严峻,阿莫代仍坚信,AI 终将「在大多数或所有方面比大多数人甚至所有人都更聪明」。他表示,AI 有望助力科学家攻克癌症、预防阿尔茨海默病,甚至将人类寿命延长一倍 —— 他称之为「压缩的 21 世纪」:一个世纪的医学进步,可能在短短十年内实现。
然而,他也警告称,这项技术也可能以前所未有的速度剧烈冲击劳动力市场。
今年 5 月,他在接受 Axios 采访时表示,AI 可能在五年内取代高达 50% 的初级白领岗位,或将推高失业率至 10%–20%;而目前产业界与各国政府仍在「粉饰」即将到来的现实冲击。
他对库珀进一步解释道:「若审视初级咨询顾问、律师、金融从业者等群体,即众多白领行业的入门级职位,AI 模型如今已能高效完成其中大量工作。若无主动干预,很难想象这些领域不会遭受显著就业冲击。我更担忧的是,这场变革的广度与速度,或将远超以往任何技术革命。」
在 Anthropic 位于旧金山的总部,逾 60 个研究团队正全力识别潜在威胁并开发防护机制。阿莫代将公司使命形容为「为这场实验安装缓冲装置与护栏」。
他表示,向公众透明披露风险「至关重要」:「否则,我们可能重蹈烟草公司或阿片类药物企业的覆辙,它们早已知晓危害,却选择沉默,更未采取任何预防措施。」
据 Business Insider 本月初报道,谷歌正与 Anthropic 展开初步磋商,拟深化投资。此轮融资或将使阿莫代所执掌的公司估值突破 3500 亿美元。
(@Appso)
04社区黑板报
招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)
1、招聘实习生丨加入我们,共建 RTE 开发者社区
RTE 开发者社区·运营实习生(实时互动 / Voice AI 方向,本招聘长期有效)
地点:北京·朝阳区望京南/上海·杨浦区五角场
这份实习将给你带来:
产品与技术成长:深入学习垂类 AI 产品从技术到落地的全生命周期,构建全面的产品视角。
社区运营实战:与高潜力的开发者和创业者深度交流,共同探索行业前沿;并亲身体验顶级 AI 大会,拓展行业视野。
【你的职责】
Voice AI / RTE 情报官:每日关注 Voice AI /实时互动领域的最新动态,提炼整理并分享行业洞察,定期撰写学习笔记,帮助团队和社区保持信息前沿。
社区连接者:负责 RTE 领域开发者、初创企业等核心群体的社群运营,主动建立并深化联系,鼓励并协助他们融入社区,共同维护社区的活力与生态。
活动协作者:深度参与 RTE Open Day、Meetup、Dev Talk 等线上线下活动的全流程运营,包括前期策划、中期执行、后期复盘,从实践中提升组织和协调能力。
行业洞察者:协助开展 RTE 相关行业及应用场景调研、产品竞争力分析,整理相关资料,形成对业务的深入理解和独到见解。
【希望你】
本科及以上学历,商业、技术、产品、媒体专业或经验背景优先,具备良好英文能力;
对 RTE / Voice AI 有浓厚兴趣和求知欲;具备优秀的信息收集与整合能力,乐于快速学习新事物,并具备严谨的逻辑思维。
能保证每周至少 4 天的工作时间,持续 3 个月以上。
【薪资】
180-220 元/天
【投递方式】
实习地点北京或上海,请将简历发送至 rtedevcommunity@gmail.com ;邮件标题请注明:【社区运营实习-姓名-学校-毕业年份-到岗日期-城市】

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。c
素材来源官方媒体/网络新闻