400万美元ARR,小企业和个人AI客服Beside融资3200万美元;KalpaLabs:不到1000美元训练语音模型丨日报

图片


开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@Jerry fong,@鲍勃

01有话题的技术

1、KalpaLabs 推出「通用语音模型」:不到 1000 美元训练 800M 参数模型

由前 Google Assistant 核心 ML 负责人 Prashant 和高频交易基础设施专家 Gautam 共同创立的 KalpaLabs,正在构建一款「通用语音模型」。该模型旨在打破当前语音 AI 智能体领域碎片化的现状,整合语音转文本 (STT)、文本转语音 (TTS)、语音输入/语音输出推理及跨模态任务,并引入 LLM 级别的可控性和上下文工程能力。此举旨在将文本 LLM 的成功范式复制到语音领域,解决上下文感知不足、指令遵循能力弱和专业化限制等核心痛点,彻底改变人机语音交互方式。

  • 颠覆碎片化语音 AI 智能体现状:针对当前语音技术(STT、TTS、语音设计、会话智能体等)模型和供应商碎片化、上下文传递差、缺乏系统级可控性等问题,KalpaLabs 提出以「通用模型」替代。

  • 引入 LLM 级可控性与上下文理解: 核心目标是为语音 AI 智能体带来 LLM 级别的「系统提示词」可控性,使其能够理解情感/韵律线索、适应口语上下文历史、遵循指令(如「为年长用户慢速说话」、「使用中性美国口音,除非用户在印度」)。

  • 消除「长音频瓶颈」: 创新地重新设计了音频分词 (RVQ) 和解码堆栈,使训练音频的成本与文本相当,同时保留长距离上下文。这使得模型能够一次性生成数小时的音频,并处理非常长的交错文本和音频系统提示词。

  • 模型规模与成本效益: 已预训练了从 800M 到 4.8B 参数的语音模型,使用 2M 小时混合领域音频。其 800M 参数模型训练成本低于 1000 美元,展现出极高的成本效益。

相关链接:

https://kalpalabs.ai/

(@ycombinator)

2、ElevenLabs Scribe v2 Realtime 问世:150 毫秒内跨 90+ 语言

Elevenlabs 推出 Scribe v2 Realtime——最精准的实时语音转文字模型。

专为语音智能体、会议记录者和实时应用程序设计,它可在 150 毫秒内跨 90 多种语言进行转录,包括英语、法语、德语、意大利语、西班牙语、葡萄牙语、印地语和日语。

Scribe v2 Realtime 为实时准确性设立了新标准,超越了所有低延迟 ASR 模型。

Scribe v2 Realtime 专为智能体使用场景而设计。在包含背景噪音和复杂信息的硬样本中,它的表现显著优于所有其他模型。

主要特点:

  • 领先的准确性

  • 覆盖 90 多种语言

  • 符合 SOC 2、ISO27001、PCI DSS L1、HIPAA、GDPR 标准

  • 欧盟和印度本地化部署

  • 零数据保留模式。

(@Elevenlabs)

3、百度开源多模态思考模型 ERNIE-4.5-VL-28B-A3B-Thinking
图片

百度开源了多模态思考模型 ERNIE-4.5-VL-28B-A3B-Thinking。该模型是一款激活参数仅为 3B 的轻量级模型,基于 ERNIE-4.5-VL-28B-A3B 架构构建,通过在中期训练阶段引入海量高质量视觉语言推理数据,显著提升了视觉与文本模态间的语义对齐能力,并在多项基准测试中表现接近或超越业界旗舰模型。

该模型通过大规模多模态强化学习,实现卓越的视觉推理、多步分析与因果推断;可解析照片中的 STEM 问题(如电路分析与电阻计算);增强视觉定位,支持语义到坐标精准映射;创新 Thinking with Images 机制,借助图像缩放与搜索捕捉细粒度视觉信息;具备动态工具调用(如图像搜索)与视频时序理解能力,全面赋能复杂视觉任务。

根据官方基准测试图表,ERNIE-4.5-VL-28B-A3B-Thinking 在文档和图表理解等多项任务上,其性能表现可与 Gemini 2.5 Pro 和 GPT-5 High 等顶尖模型相媲美,甚至在部分指标上实现超越。

模型采用 Apache License 2.0,允许商业使用。

相关链接:

https://huggingface.co/baidu/ERNIE-4.5-VL-28B-A3B-Thinking

(@橘鸭 Juya)



02有亮点的产品

1、2 万付费客户、400 万美元 ARR:聚焦小企业与个人 AI 客服,Beside 获 3200 万美元融资

AI 语音初创公司 Beside 近日宣布完成 3200 万美元融资,并正式从隐身模式中亮相,推出了专为小企业设计的「AI 智能体前台」。这款 AI 智能体旨在弥补中小企业无法负担全职助理的空白,通过接听电话、记忆客户细节、预约和跟进等自动化服务,已每月处理数百万通电话,彻底重塑小企业的客户沟通方式,帮助其捕捉更多业务机会。

图片

  • 3200 万美元重磅融资与亮眼数据: 完成 2000 万美元 A 轮融资(由 EQT Ventures 领投,Index Ventures 及 Slack 创始人 Stewart Butterfield 等天使投资人参投)及 1050 万美元种子轮融资。在隐身模式下(以 M1 为名)已实现 400 万美元 ARR (年经常性收入),拥有 2 万付费客户,且用户活跃度极高。

  • 「AI 智能体前台」核心功能:通过一个连接到现有电话号码的应用程序,AI 智能体能够自动接听电话、记忆客户细节、预约、处理后续事宜,并支持自定义语音克隆及文本对话。所有交互均被转录和可搜索,为小企业建立「第二大脑」。

  • 聚焦小企业与个人专业人士: 目标市场为无法负担全职助理的小企业主、合同工、房地产经纪人、理发师、调度员等,旨在解决他们因电话无人接听(如英国小企业接听率低于 40%)而错失业务的痛点。

  • 端到端电话基础设施重建: Beside 从零开始重建电话基础设施,而非在现有系统上叠加 AI 智能体,以确保高质量通话和复杂的合规性。长期目标是成为一个拥有 SIM 卡级别集成的完整移动运营商。

(@FORTUNE)

2、OpenAI 正测试 ChatGPT 群聊功能,支持文件上传与图像生成
图片

昨天,博主 Tibor Blaho 在 X 发帖称,OpenAI 在 ChatGPT 网页端首次预览「群聊」功能。

该功能在顶部导航栏新增「发起群聊」按钮,用户可生成链接并邀请他人加入群聊。加入者不仅能查看群聊历史消息,还可在侧边栏的「群聊」区域进行互动。

该博主指出,群聊的自定义指令与个人 ChatGPT 的指令相独立,且不会调用个人记忆。

用户可选择让 ChatGPT 自动回应,或仅在被提及时参与。

此外,该博主曝光的图片还显示,该功能支持消息回复、表情反应、举报、输入状态提示,以及文件上传、图像生成和网页搜索等扩展能力。

(@APPSO)

3、Karumi 推出 AI 智能体实时演示平台:个性化「无限」客户体验

由前 StackAI 核心团队成员 Toni 和 Pablo 共同创立的 Karumi,近日发布了其创新的 AI 智能体驱动的演示平台。该平台旨在颠覆 SaaS 行业过时且低效的产品演示模式,通过提供 24/7 全天候、多语言、高度个性化的实时视频演示,有效解决传统演示中高意向潜在客户等待时间长、小账户被忽视等痛点。Karumi 让 AI 智能体拥有浏览器访问能力,能够实时导航产品,结合客户背景数据,提供媲美人类销售代表的清晰和互动体验,从而提高转化率并缩短销售周期。

  • 革新演示体验:AI 智能体实时互动视频:Karumi 的核心是提供一个由 AI 智能体驱动的实时、互动视频通话演示,而非预录视频。该智能体能媲美人类销售代表的清晰度和参与度。

  • 24/7 全天候多语言可用性: 无论时区,Karumi 都能随时提供演示,并支持任何语言,极大扩展了服务范围和效率。

  • 浏览器访问与超个性化: AI 智能体能够像人类一样打开标签页、导航产品,并结合潜在客户画像和产品知识,提供超个性化的对话。

  • 解决 SaaS 销售痛点: 帮助 SaaS 公司避免高意向潜在客户等待、服务不足的小账户,并缩短销售周期,通过结合发现、资格认证和演示步骤,将落地页访问到会议的转化率。

Demo 体验:

https://www.karumi.ai/meet/start/d461afa6-f0d8-4bbe-83ac-ee88a7dbc303

网站:

https://www.karumi.ai/

(@ycombinator)



03有态度的观点 

1、黄仁勋:AI 并非泡沫,算力需求真实存在
图片

据 Wccftech 报道,英伟达 CEO 黄仁勋近日在接受采访时回应了外界关于「AI 热潮是否类似互联网泡沫」的质疑。他强调,当前 AI 的算力需求是真实存在的,与上世纪末互联网泡沫时期的「暗光纤」现象截然不同。

黄仁勋指出,在互联网泡沫时期,大量光纤被铺设但长期闲置,造成了虚假的需求。而如今,几乎所有 GPU 都在被实际使用,企业的计算需求和 AI 查询数量正在指数级增长。

他表示:「今天的情况与当年的互联网泡沫不同,AI 的发展建立在真实的算力需求之上。」

报道提到,尽管大众对 AI 的认知仍停留在 ChatGPT 或图像生成等应用层面,但技术已发展到能够进行研究和「自我思考」的阶段,尚未全面普及。黄仁勋认为,这意味着产业仍有巨大成长空间。

(@APPSO)

2、DeepSeek 高级研究员警告:人工智能十年内恐取代大部分人类工作

在中国世界互联网大会(WIC)乌镇峰会上,中国人工智能初创公司 DeepSeek 的高级研究员陈德利罕见地公开露面,发表了针对人工智能社会影响的严峻警告,敦促科技公司承担起「人类守护者」的角色。陈德利的言论凸显了中国科技界对人工智能可能带来的社会颠覆日益增长的担忧。

图片

陈德利在小组讨论中表示,人工智能目前正处于提高生产力但仍需要人类监督的「蜜月期」。但他预测,在未来 五到十年内,人工智能可能会发展到足以取代许多人类工作,从而导致大范围失业和社会紧张。他进一步悲观地预测,在 10 到 20 年内,人工智能可能会取代大部分剩余的人类工作,给社会带来「巨大挑战」,届时科技公司必须扮演「吹哨人」的角色,帮助重塑社会结构。

这一时间表和论调与西方人工智能领军人物普遍展现的乐观态度形成鲜明对比,反映了中国创新者更为谨慎的态度。陈德利强调,AI 开发者必须将安全和社会福祉置于无节制发展之上,呼吁科技公司在人工智能快速发展之际重新评估发展重点。

DeepSeek 自 2025 年初成立以来,一直保持低调,但在全球 AI 领域迅速崛起,以开发出可与美国同行媲美、且对芯片性能要求远逊于美国同类产品的高性价比 AI 模型而闻名。正如《商业时报》和彭博社等媒体所强调的,DeepSeek 的成就不仅使其处于中国人工智能自主研发的前沿,在推动国内芯片技术发展方面发挥了关键作用,其免费或低成本的应用也已导致美国科技公司遭受巨大的市场损失,甚至引发了硅谷对低预算高性能 AI 普世化将加剧失业的恐慌。

陈德利的警告不仅限于中国。随着 DeepSeek 模型的普及和强大,全球各行各业都面临变革。该公司技术已利用海量数据集进行训练,并在海关、制造业和化学品监管等领域实现了部分工作的自动化。此次陈德利出席官方支持的大会并发表这一悲观论调,标志着官方对平衡创新与社会挑战的谨慎态度表示支持。

(@AIBase)

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

图片

素材来源官方媒体/网络新闻

注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    关键词
    // 相关帖子
    Coming soon...
    • 0
    400万美元ARR,小企业和个人AI客服Beside融资3200万美元;KalpaLabs:不到1000美元训练语音模型丨日报RTRTE_Dev_Comm