豆包推出输入法,支持语音输入与实时通话场景;Google「Search Live」上线:实时 AI 语音与视觉搜索 丨日报
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@Jerry fong,@鲍勃
01有话题的技术
1、字节跳动发布 X-Streamer:具有视听交互的统一人类世界建模
X-Streamer 是一个端到端的、多模态的人类世界建模框架,它能够基于单张人像,生成可无限流式传播的数字人。该框架实现了在文本、语音和视频之间的智能、实时、多轮的交互响应。X-Streamer 的出现,为构建统一的、可交互的数字人世界模型奠定了坚实的基础。
据作者介绍,该框架的核心在于利用大型语言模型实现了跨模态的同步生成与对齐,即同时生成音频、文本和视频,从而构建高度协调一致的数字人。
作者表达了对 X-Streamer 未来发展的极大热情,尤其看好其向更丰富交互的扩展。「最令我兴奋的是其巨大的潜力:未来可以将数字人能力从简单的『说话的头像』扩展到全身动作、丰富的环境交互,乃至与我们周围世界的互动。」
相关链接:
https://byteaigc.github.io/X-Streamer/
(@gutianpei_@X)
2、Claude Sonnet 4.5 发布:连续工作超 30 小时,编程性能登顶业界
Anthropic 正式推出新一代大模型 Claude Sonnet 4.5,在多项基准测试中刷新纪录,被称为「史上最卷 AI」。据介绍,Claude Sonnet 4.5 在 SWE-bench Verified 测试中成绩位列第一,展现出顶尖的真实编程能力,该模型能够连续专注工作超过 30 小时,远超此前 Claude Opus 4 和 Codex 的 7 小时上限。
在 OSWorld 基准测试中,Claude Sonnet 4.5 取得了 61.4% 的成绩,相比四个月前 Sonnet 4 的 42.2% 有显著提升。Anthropic 表示,新版模型在构建复杂智能体、操作电脑、推理和数学等方面均有大幅增强。
在安全性上,Claude Sonnet 4.5 被称为 Anthropic 迄今对齐度最高的模型,显著减少了阿谀奉承、欺骗和幻觉等问题,并在防御提示注入攻击和内容误判方面取得突破。
值得注意的是,Anthropic 同步推出了临时研究预览功能「Imagine with Claude」,用户可实时体验模型生成软件的过程,该功能将在未来五天内向 Max 订阅用户开放。Anthropic 联合创始人 Jared Kaplan 透露,更先进的 Opus 模型预计将在今年晚些时候推出。
(@APPSO)
02有亮点的产品
1、Paid 获 2160 万美元种子轮融资,以「结果导向计费」模式重塑 AI 智能体商业化
Manny Medina(曾创立 Outreach)创办的 AI 智能体计费初创公司 Paid,近期完成了 2160 万美元的种子轮融资。该公司提供一种创新的「结果导向计费」模式,让智能体开发者能够根据其智能体为客户节省的边际利润来收费,而非传统的按用户或按固定额度收费,旨在解决当前 AI 智能体商业化落地难的问题。
创新商业模式: Paid 专注于为 AI 智能体提供「结果导向计费」基础设施,允许开发者根据其智能体为客户创造的实际价值(如节省的成本)进行收费,这与 SaaS 时代的按用户或按使用量收费模式截然不同。
解决 AI 落地痛点: 传统的按用户或固定额度收费模式对智能体开发者而言风险较高,因为模型和云服务的使用费用可能吞噬利润,同时客户也不愿为低价值的 AI 输出买单。Paid 的模式旨在直接将收入与 AI 创造的价值挂钩。
雄厚融资实力: 加上去年 3 月的 1000 万欧元(约合 1080 万美元)pre-seed 轮融资,Paid 在尚未进行 A 轮融资前已累计筹集超过 3300 万美元,估值已超过 1 亿美元。本轮融资由 Lightspeed 领投,FUSE 和 EQT Ventures 参投。领投方 Lightspeed 的合伙人 Alexander Schmitt 认为,Paid 的模式在 AI 智能体计费领域是独一无二的,解决了目前市场上多数 AI 试点项目无法有效衡量和证明其价值的问题。
(@TechCrunch)
2、Vocal Image 获 360 万美元种子轮融资:AI 个性化语音训练
爱沙尼亚初创公司「Vocal Image」近期成功完成 360 万美元种子轮融资,其 AI 驱动的语音及沟通训练应用旨在帮助用户提升表达能力。凭借快速增长的 1200 万美元年度经常性收入 (ARR) 和独特的语音数据积累,该公司正在重新定义个人沟通技能的训练方式。
完成 360 万美元种子轮融资:本轮融资由法国教育科技风投 Educapital 领投,爱沙尼亚 Specialist VC 和德国 Generations Fund 参投。
AI 赋能个性化语音训练:应用提供包含绕口令、呼吸练习和姿态建议的互动库,并利用 AI 提供自动化反馈和个性化指导,帮助用户提升专业、领导力及公开演讲技能。
用户与业务快速增长:目前已拥有 400 万下载量,16 万活跃用户和 5 万付费订阅者,年度经常性收入 (ARR) 达到 1200 万美元。
构建独特语音数据集:每日处理约 3.5 万次录音,已积累超过 100 万条真实语音样本,并通过「Voice Rating」社区功能进行标注,为未来 AI 发展奠定基础。
获行业巨头认可:入选 Hugging Face、Meta 和 Scaleway 共同发起的「欧洲 AI Startup Program」五大优胜者之一。
「Vocal Image」应用已上线并支持英文、西班牙文、德文、法文、乌克兰文和俄文等多语言版本。新资金将用于扩大其开发团队并推出更多本地化支持。
( @TechCrunch)
3、Google「Search Live」上线:实时 AI 语音与视觉搜索
Google 正在将全新的「Search Live」功能推广至美国所有用户,这项功能允许用户通过与 AI 助手进行实时对话来搜索信息。当您使用「Search Live」时,它不仅能即时回答您的问题,还能从网络上抓取相关链接。
您可以打开 Android 和 iOS 上的 Google 应用,在搜索栏下方找到并选择新的「Live」按钮,即可体验这项功能。届时,您可以直接大声提问,如果希望搜索内容包含您眼前所见之物,还可以选择开启相机。此外,「Search Live」的图标也新增到了 Lens 应用中,方便您在共享相机画面的同时,与之进行多轮对话。
此前,「Search Live」仅作为 Google Labs 的一项内测功能推出。目前,该功能仅支持英语。
举例来说,Google 介绍说,您可以使用「Search Live」来学习制作抹茶:只需将您购买的制作工具展示给它,并询问每个工具的用途。您也可以在设置新电子设备时使用「Search Live」,只需将相机对准特定线缆,就能即时询问它该连接到哪里。
(@The Verge)
4、Prosper AI 获 500 万美元融资,用语音 AI 智能体赋能医疗管理
Prosper AI 近日宣布完成 500 万美元种子轮融资,旨在通过其专为医疗健康领域定制的语音 AI 智能体,解决该行业日益增长的行政成本和人员短缺问题。这些智能体能够进行类似人类的电话沟通,自动化处理患者预约、账单、保险核实等前后台任务,显著提升医疗机构的运营效率和患者满意度。
完成种子轮融资: Prosper AI 成功募集 500 万美元种子资金,由 Emergence Capital 领投,Y Combinator、CRV 和 Company Ventures 参投。资金将用于团队扩张(工程、机器学习和销售)和平台扩展。
医疗专用语音 AI 智能体: 公司开发能够与患者和健康保险公司进行「类人」电话沟通的 AI 智能体,能够安全、高质量地基于机构数据处理任务。
解决核心痛点: 旨在应对医疗机构面临的行政成本高昂(占总支出的 40% 以上)和人员短缺问题,致力于通过自动化实现「普遍可及的医疗服务」。
广泛的应用场景: 智能体可处理患者调度、账单查询、保险福利核实、预授权等行政任务。对于付款方,它能辅助福利核实、预授权和理赔跟进。
显著的运营效率提升: 报告显示,其智能体可实现 50% 至 70% 的入站呼叫自动化率,并能以 99% 的准确率导航交互式语音应答(IVR)系统,有效减轻呼叫中心压力,提高患者满意度。
已获市场验证: 目前拥有 15 家客户,覆盖超过 20 万名医疗服务提供者,其中包括 Synergy Health Associates、Providence 旗下的医院以及上市医疗账单公司 Firstsource。
(@SiliconANGLE)
5、豆包推出输入法,iOS 已开启体验招募
据 AIPress 报道,昨天,字节旗下的「豆包输入法」正式开启用户体验招募,目前,用户可通过 TestFlight 加入测试并下载体验。官方表示,本次体验将重点展示两大核心功能:
「豆包」同款语音识别能力,支持语音输入与实时通话场景,识别效果随使用不断优化;
越用越准的键盘输入与词语联想,目前暂时仅支持 9 键与 26 键输入模式。值得注意的是,官方承诺不会获取用户日常使用过程中的打字及语音相关数据,强调隐私与安全保障。对于已经习惯使用「豆包」语音输入和实时通话功能的用户而言,这款输入法有望成为新的高频工具。官方也鼓励用户积极报名参与体验,进一步完善产品表现。
(@APPSO)
03有态度的观点
1、 Haivivi 创始人:IP 是 AI 玩具市场的首要购买因素
日前,爱范儿采访了 Haivivi(跃然创新)创始人李勇。在对话中,他表示:「站在玩具品类的角度,IP 确实是用户购买决策的第一优先级。」李勇认为,相比功能和硬件参数,消费者更看重角色的情感连接。「孩子们买的不只是一个玩具,而是他们喜欢的奥特曼、小猪佩奇或其他角色。」在这一过程中,AI 技术的作用是强化互动体验,让角色「活」起来,进而提升粘性。他同时强调,Haivivi 选择「IP + AI」的双轨策略,一方面依靠与奥特曼等全球顶级 IP 的合作,另一方面孵化自有 IP。李勇告诉爱范儿,这种模式能够构建差异化优势,「IP 带来的是入口,AI 带来的是留存,两者结合才可能让玩具跨越周期。」
相关阅读:
对话 Haivivi 创始人李勇:为了把 AI 玩具做得「没用」,我们思考了很多丨多样性公司 08
(@APPSO)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻