RTE 开发者社区｜实时互动 & 对话式 AI & Voice Agent 开发者平台

技术分享

讨论区

音视频杂谈
#Sora#AIGC
从苹果放弃造车想到的
Jacky 发布于 2024-02-29
音视频杂谈
#video#media-sdk#network
视频深度学习（第二部分）：双流架构的兴起
用于视频理解的双流架构本文是视频数据深度学习系列的第二篇文章。本系列文章概述视频深度学习的发展历程，为有志于从事该领域的研究人员或从业人员提供相关背景知识。在本系列的第一篇文章中，我概述了视频深
声网技术社区发布于 2023-07-05
创新应用

开发者实践

开源技术

讨论区

音视频杂谈
#实时音视频
TEN Framework 入坑记
TEN Framework 是一个开源的多模态实时音视频和AI框架，很好用，很强大。最近，我们使用XSwitch打通了跟TEN的对接，在折腾的过程中有不少汗水也有不少收获，小记一下备忘。如果对大家有帮助，也很欣慰。
dujinfang 发布于 2024-10-08
音视频杂谈
声网高纯：领域和方向要聚焦，用最专业的方法做最专业的事丨人物专访
本期「声网开发者 x 人物专访」的受访者，是声网高级架构师 @高纯。
声网开发者社区发布于 2023-11-22
音视频杂谈
#media-sdk#network
视频深度学习（第三部分）：深入探讨 3D CNN
分离 3D 卷积运算本文是视频深度学习方法系列的第三篇文章。写这一系列文章是为了概述视频深度学习的发展历程，为该领域的研究人员或从业者提供相关背景知识。因为视频数据在实际应用中大量增加（例如，物联
声网技术社区发布于 2023-07-17
音视频杂谈
#videotech#ai#video
早期的视频深度学习（第一部分）
本系列文章将探讨视频数据的深度学习。在先前研究的基础之上，我概述了深度学习方法大规模普及之前对视频数据的处理方式，并历数了视频深度学习的演变。本文通过概述视频深度学习的发展历程，为视频深度学习领域的
声网技术社区发布于 2023-06-03
音视频杂谈
#内容共建
Android 音视频采集那些事
LoveYFan 发布于 2022-12-12
音视频杂谈
什么是 RTE？
1、简短版实时互动（Real-Time Engagement，RTE），指的用来解决在远程条件下沟通互动的双方能够实时性的真实、无缝还原线下互动的场景和信息传递体验的相关活动，涉及的典型场景包括音视频通话、直播、实时指令、互动工具、虚拟…
cy 发布于 2022-08-25
音视频杂谈
基于对象的实时空间音频渲染
本文为「Dev for Dev 专栏」系列内容，作者为声网音频算法工程师李嵩。随着元宇宙概念的引入，空间音频这项技术慢慢映入大家的眼帘。关于空间音频的基础原理，我们做过一期科普视频 —— 「空间音频背后的原理」，想要了解的朋…
声网开发者社区发布于 2022-07-29
音视频杂谈
#video-practice#speech-recognition#intermediate-sr
用Python将采访数据从视频转录成文本
用语音识别将音视频转换为文本，添加GUI并使用线程来提高性能图片来自Pexels的Anna Shvets 我偶尔需要访谈很多转录研究项目的参与者，这类项目的拨款通常会包括转录费用。目前，人类转录仍是这类工作的黄金标准。当然，你也…
声网技术社区发布于 2022-03-08