Mark 发布智能书签:划线和语音捕获想法,低干扰沉浸式阅读;Vapi 完成 5,000 万美元 B 轮融资丨日报
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@koki、@鲍勃
01 有话题的技术
1、Jina AI 新模型 jina-embeddings-v5-omni 支持文本图像音视频混合检索
ina AI 推出 jina-embeddings-v5-omni 系列模型,支持文本、图像、音频和视频四种模态的统一嵌入。该模型采用「冻结 Tower + 轻量级投影器」架构,在实现高性能多模态对齐的同时,保持了与前代 v5-text 文本向量的字节级一致性,允许开发者在不重建现有文本索引的情况下直接升级多模态搜索能力。
Frozen-encoder 组合架构: 核心 Text Backbone(基于 Qwen3 或 EuroBERT)、视觉编码器(SigLIP2)和音频编码器(Whisper-large-v3)保持完全冻结,仅训练占总权重 0.35% 的连接组件(Projector)。
极致训练效率: 相比全参数重训,Projector-only 模式使训练速度提升 1.8x 至 3.9x,显存占用降低 42% 至 64%,有效解决了多模态学习中的灾难性遗忘。
存量索引零成本升级: 模型产生的文本 Embedding 与 jina-embeddings-v5-text 完全相同,这意味着 Elasticsearch 等数据库中的现有索引无需重新计算即可与新模态向量进行跨模态检索。
高密度性能表现: Small 版本(1.57B)在多模态基准测试中平均分达到 53.93,以 1/5.7 的参数量追平 8.93B 规模的 LCO-7B;在图像聚类任务中,其 84.57 的得分位居开源模型首位。
Matryoshka 维度缩减与长文本支持: 支持 32 到 1024 维度的弹性向量截断;Small 版本支持高达 32,768 tokens 的上下文长度。
https://jina.ai/news/jina-embeddings-v5-omni-multimodal-embeddings-for-text-image-audio-and-video
https://huggingface.co/collections/jinaai/jina-embeddings-v5-omni
(@jina.ai.news)
2、Google 发布 Android 版 Gemini Intelligence:支持跨应用多步自动化与 Rambler 实时多语言转录
Google 正式推出安卓版 Gemini Intelligence,标志着 Android 从底层操作系统向原生智能系统的演进。该系统通过深度集成模型能力,实现了基于视觉上下文的多步任务自动化、生成式小部件(Generative UI)以及针对自然语言口语优化的 Rambler 转录功能。
跨应用多步任务自动化(Vision-to-Action):系统针对 Galaxy S26 和 Pixel 10 进行了深度微调,支持通过长按电源键唤起 Gemini 识别屏幕或图像上下文。模型可提取视觉信息并调用第三方应用(如 Expedia、外卖及网约车应用)执行连续动作,无需手动复制数据。
Rambler 语音转录引擎:集成于 Gboard,采用多语言模型实现实时语义纠错与冗余词过滤。支持在单条信息中无缝切换语言(如英语与印地语混合),仅进行实时转录而不存储原始音频数据。
生成式 UI(Create My Widget):用户通过自然语言描述需求,系统可动态构建自定义小部件。例如根据「高蛋白餐食食谱」或「特定气象参数(风速/降雨量)」实时生成专用仪表盘,并支持在 Android 和 Wear OS 间同步。
智能填充与 Chrome 代理(Agentic Browsing):Google 自动填充(Autofill)接入 Gemini,可调用关联 App 内的结构化数据自动填充复杂表单;Chrome 浏览器新增 Gemini 插件,支持代表用户执行预订停车位、预约行程等主动操作。
设计语言升级至 Material 3 Expressive:采用全新的视觉系统和动画交互逻辑,旨在配合智能体(agent)任务执行时的进度提示(Notification-based tracking),减少系统级交互对用户焦点的干扰。
https://blog.google/products-and-platforms/platforms/android/gemini-intelligence/
(@google.blog)
02 有亮点的产品
1、Mark 发布智能阅读书签:通过划线和语音轻录捕获想法,低干扰沉浸式阅读
硬件厂商 Mark 推出同名智能阅读硬件,旨在通过物理划线和语音录入实现非侵入式摘录。该工具通过自动化索引将纸质与电子阅读内容整合为可搜索、可交互的个人知识库。
多介质 OCR 与手写识别:支持纸质印刷品、研究论文、Kindle、iPad 及手写体文本采集,内置对 100+ 种语言的识别支持。
基于 ISBN 的元数据自动关联:通过移动端扫描 ISBN 码快速锚定书目,所有采集的片段、语音想法将自动与特定书籍建立索引关系。
结构化知识系统与语义交互:采集内容自动按主题、场景进行分类;支持基于采集数据的对话式探索(Chat with your highlights),实现类似 RAG 的个人知识库应用。
低干扰采集逻辑:支持通过划线(Highlight)和语音轻录(Whisper)同步捕获想法,核心交互流程无需脱离当前阅读介质或操作手机。
https://www.thinkwithmark.com/preorder
(@thinkwithmark@X)
2、Google 发布 Googlebook:Android 与 ChromeOS 深度融合,Gemini 驱动系统级智能体交互
谷歌推出全新笔记本产品线 Googlebook,旨在通过整合 Android 技术栈与 ChromeOS 核心能力,打造原生支持 Gemini 智能体的 AI 硬件生态。该产品通过重构光标交互与跨端协议,实现了系统级的 AI 实时辅助与移动端应用的深度协同。
底层架构融合:系统深度整合 Android 与 ChromeOS,利用 Android 技术栈处理 AI 负载并运行 Google Play 应用,同时保留 Chrome 浏览器核心。
Magic Pointer 交互逻辑:由 Google DeepMind 协作开发,通过「晃动光标」激活 Gemini 智能体;具备屏幕上下文感知能力,支持识别邮件内容自动生成日程,或对屏幕内多个视觉元素进行合成预览。
Create your Widget 动态组件:用户可通过自然语言指令(Prompt)调用 Gmail、Calendar 等应用接口,在桌面实时生成定制化的信息聚合组件。
无缝跨端协同:支持在笔记本端直接镜像操作手机 App;新增 Quick Access 功能,允许文件管理器在免传输状态下直接访问、搜索和调用关联 Android 手机内的本地文件。
硬件规范与标识:首批设备由宏碁、华硕、戴尔、惠普和联想生产,统一配备名为「glowbar」的交互式发光条作为 AI 笔记本的产品标识。
(@AI 寒武纪)
3、Vapi 完成 5,000 万美元 B 轮融资:累计通话量突破 10 亿次,主打低延迟、可配置语音智能体平台
语音 AI 初创公司 Vapi 宣布完成 5,000 万美元 B 轮融资,由 Peak XV 领投,微软旗下 M12 等参投。该公司通过提供 API 原生的语音智能体平台,解决了传统 IVR 系统僵化的问题,并实现企业级 ARR 10 倍增长。
低延迟与模型无关架构:Vapi 提供可配置的语音智能体架构,支持开发者灵活更换底层模型和供应商(如 LLM、TTS/STT 引擎),并针对实时通话的低延迟表现进行了底层优化。
电话栈深度封装 (Telephony Abstraction):该平台通过 API 屏蔽了复杂的电话系统内部结构,允许工程团队在不具备电信技术背景的情况下,于数日内将原型部署至生产环境。
百万级开发者生态数据:目前平台拥有超过 100 万名开发者,累计创建 270 万个独立智能体,处理通话量已超过 10 亿次。
企业级治理与可预测性:新阶段重点转向生产级保障,包括负载下的可预测延迟、对话级监控、智能体合规护栏(Guardrails)以及自动向人工座席升级的路径管理。
全场景语音覆盖能力:支持入站客服、外呼催收、候选人筛选及自主式 IVR 导航等,典型案例 Amazon Ring 在两周内完成了从零到全量入站流量的生产级切换。
(@globenewswire)
4、LumiaHealth 发布 Lumia 2 智能耳钉:头部血流健康监测,5 天内筹集金额超 130 万美元
LumiaHealth 推出全球首款模块化智能耳钉 Lumia 2,通过将高精度传感器集成于不足 1 克的耳钉背托中,并引入可热插拔电池设计,解决了可穿戴设备因充电导致的数据断流痛点。该产品在 Kickstarter 上线 5 天内筹集金额超 130 万美元,主打全天候无感生理信号追踪。
SwitchBack
模块化系统与微型化工程:核心硬件压缩至咖啡豆大小,重量不足 1g(体积仅为 AirPods 的 1/5)。该专利系统兼容所有标准直针耳钉,并提供钛金属耳夹版本,将传感器从特定形态设备转化为通用的首饰配件。第二代 PreciseLight 传感器与头部血流监测:利用耳垂血管浅且靠近大脑的生理特性,该传感器可获取更高信噪比的血流信号。临床数据显示,其与超声波测量结果的皮尔逊相关系数达 0.91,支持每 3 分钟一次的数据采样。
无缝续航架构与热插拔电池:采用可分离的微型电池模块,单块续航 5–7 天。通过热插拔机制,用户可在不摘除传感器模块的情况下更换电池,实现 24/7 连续睡眠及生理数据采集,避免了 Oura Ring 等竞品在充电期间产生的监测真空期。
20+ 维度生理指标监测与医疗级材料:设备支持 HRV(心率变异性)、静息心率、体温信号及女性生理周期感应。硬件外壳采用钛、铂金及医疗植入级防过敏镀层,针对全天候佩戴(含洗澡、睡眠)进行了皮肤兼容性优化。
(@Rich出海)
03 有态度的观点
1、「vibe coding」概念提出者:AI 输出终局是「交互式神经视频」,现在先试试 HTML
「vibe coding」概念提出者、OpenAI 创始成员 Andrej Karpathy 昨日在 X 上发文,公开力挺 Claude Code 团队成员 Thariq 提倡的「以 HTML 取代 Markdown」做法。
Karpathy 认为,大模型的输出格式正在逐步升级:纯文本难以阅读,Markdown 好一些,HTML 则更进一步,支持更丰富的排版、图表和交互。他预测未来还将经历多轮迭代,终点是由 AI 直接生成的「交互式神经视频」。
Karpathy 指出,人类大脑约三分之一专门用于处理视觉信息,视觉是接收信息效率最高的通道。因此,人类向 AI 「说话」用语音最自然,AI 向人类「展示」结果则应尽量用视觉呈现。
他同时承认,现有的输入方式还不够用 —— 光靠语音或文字,缺少「指着屏幕某处说话」这种空间感。在更好的方案出现之前,他建议用户直接在提示词末尾加上「将回复结构化为 HTML」,然后在浏览器里打开查看。
( @APPSO)
04 社区黑板报
招聘、活动、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)
1、Google I/O 大会后,聊聊你的第一手观察
Google I/O 又要来了!
Gemini 会发布新模型吗?Google 旗下的 ToC 应用又会有什么大动作?Android 17 会带来哪些新功能?
每次 I/O,可能都是对 AI 创业的一次「洗牌」。
但信息量太大,共识太多,往往是真正交流最少的时候。
Founder Park 决定在大会结束后,搞一场 Meetup 闭门交流活动,和大家聊聊:What Google I/O didn't tell you?
把这两天的信息输入,变成大家当晚交流碰撞的素材。高密度且自由的聊聊,各自在 Google I/O 大会的第一手观察、观点。
时间:5 月 21 日 18:00 - 21:30
地点:加州山景城(具体地点后续通知)
我们欢迎这样的你:
硅谷本地 AI 创业者与技术研发人员
探索全球化路径的国内 AI 创业者、决策层和技术人
将 AI 应用于创新场景的的企业伙伴
欢迎扫描海报上的二维码报名,加入我们!

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
作者提示: 个人观点,仅供参考