技术分享

  1. TEN Framework 是一个开源的多模态实时音视频和AI框架,很好用,很强大。最近,我们使用XSwitch打通了跟TEN的对接,在折腾的过程中有不少汗水也有不少收获,小记一下备忘。如果对大家有帮助,也很欣慰。
    dujinfang
    发布于
  2. 音视频杂谈
    #video#media-sdk#network
    用于视频理解的双流架构 本文是视频数据深度学习系列的第二篇文章。本系列文章概述视频深度学习的发展历程,为有志于从事该领域的研究人员或从业人员提供相关背景知识。在本系列的第一篇文章中,我概述了视频深
    声网技术社区 发布于
  3. 本期「声网开发者 x 人物专访」的受访者,是声网高级架构师 @高纯。
    声网开发者社区 发布于
  4. 音视频杂谈
    #media-sdk#network
    分离 3D 卷积运算 本文是视频深度学习方法系列的第三篇文章。写这一系列文章是为了概述视频深度学习的发展历程,为该领域的研究人员或从业者提供相关背景知识。因为视频数据在实际应用中大量增加(例如,物联
    声网技术社区 发布于
  5. 音视频杂谈
    #videotech#ai#video
    本系列文章将探讨视频数据的深度学习。在先前研究的基础之上,我概述了深度学习方法大规模普及之前对视频数据的处理方式,并历数了视频深度学习的演变。本文通过概述视频深度学习的发展历程,为视频深度学习领域的
    声网技术社区 发布于
  6. 音视频杂谈
    #内容共建
    LoveYFan 发布于
  7. 本文为 「Dev for Dev 专栏」 系列内容,作者为声网音频算法工程师 李嵩。 随着元宇宙概念的引入,空间音频这项技术慢慢映入大家的眼帘。关于空间音频的基础原理,我们做过一期科普视频 —— 「空间音频背后的原理」,想要了解的朋…
    声网开发者社区 发布于
  8. 音视频杂谈
    #video-practice#speech-recognition#intermediate-sr
    用语音识别将音视频转换为文本,添加GUI并使用线程来提高性能 图片来自Pexels的Anna Shvets 我偶尔需要访谈很多转录研究项目的参与者,这类项目的拨款通常会包括转录费用。目前,人类转录仍是这类工作的黄金标准。当然,你也…
    声网技术社区 发布于
  9. 音视频杂谈
    #精选文章#videotech
    1 什么是错帧同步? 一般 Android 系统相机的最高帧率在 30 FPS 左右,当帧率低于 20 FPS 时,用户可以明显感觉到相机画面卡顿和延迟。 我们在做相机预览和视频流处理时, 对每帧图像处理时间过长(超过 30 ms…
    字节流动 发布于