技术分享

  1. TEN Framework 是一个开源的多模态实时音视频和AI框架,很好用,很强大。最近,我们使用XSwitch打通了跟TEN的对接,在折腾的过程中有不少汗水也有不少收获,小记一下备忘。如果对大家有帮助,也很欣慰。
    dujinfang
    发布于
  2. 音视频杂谈
    #video#media-sdk#network
    用于视频理解的双流架构 本文是视频数据深度学习系列的第二篇文章。本系列文章概述视频深度学习的发展历程,为有志于从事该领域的研究人员或从业人员提供相关背景知识。在本系列的第一篇文章中,我概述了视频深
    声网技术社区 发布于
  3. 本期「声网开发者 x 人物专访」的受访者,是声网高级架构师 @高纯。
    声网开发者社区 发布于
  4. 音视频杂谈
    #media-sdk#network
    分离 3D 卷积运算 本文是视频深度学习方法系列的第三篇文章。写这一系列文章是为了概述视频深度学习的发展历程,为该领域的研究人员或从业者提供相关背景知识。因为视频数据在实际应用中大量增加(例如,物联
    声网技术社区 发布于
  5. 音视频杂谈
    #videotech#ai#video
    本系列文章将探讨视频数据的深度学习。在先前研究的基础之上,我概述了深度学习方法大规模普及之前对视频数据的处理方式,并历数了视频深度学习的演变。本文通过概述视频深度学习的发展历程,为视频深度学习领域的
    声网技术社区 发布于
  6. 音视频杂谈
    #内容共建
    LoveYFan 发布于
  7. 1、简短版 实时互动(Real-Time Engagement,RTE),指的用来解决在远程条件下沟通互动的双方能够实时性的真实、无缝还原线下互动的场景和信息传递体验的相关活动,涉及的典型场景包括音视频通话、直播、实时指令、互动工具、虚拟…
    cy 发布于
  8. 本文为 「Dev for Dev 专栏」 系列内容,作者为声网音频算法工程师 李嵩。 随着元宇宙概念的引入,空间音频这项技术慢慢映入大家的眼帘。关于空间音频的基础原理,我们做过一期科普视频 —— 「空间音频背后的原理」,想要了解的朋…
    声网开发者社区 发布于
  9. 音视频杂谈
    #video-practice#speech-recognition#intermediate-sr
    用语音识别将音视频转换为文本,添加GUI并使用线程来提高性能 图片来自Pexels的Anna Shvets 我偶尔需要访谈很多转录研究项目的参与者,这类项目的拨款通常会包括转录费用。目前,人类转录仍是这类工作的黄金标准。当然,你也…
    声网技术社区 发布于