技术分享
- 用于视频理解的双流架构 本文是视频数据深度学习系列的第二篇文章。本系列文章概述视频深度学习的发展历程,为有志于从事该领域的研究人员或从业人员提供相关背景知识。在本系列的第一篇文章中,我概述了视频深声网技术社区 发布于
- 分离 3D 卷积运算 本文是视频深度学习方法系列的第三篇文章。写这一系列文章是为了概述视频深度学习的发展历程,为该领域的研究人员或从业者提供相关背景知识。因为视频数据在实际应用中大量增加(例如,物联声网技术社区 发布于
- 本系列文章将探讨视频数据的深度学习。在先前研究的基础之上,我概述了深度学习方法大规模普及之前对视频数据的处理方式,并历数了视频深度学习的演变。本文通过概述视频深度学习的发展历程,为视频深度学习领域的声网技术社区 发布于
- 本文为 「Dev for Dev 专栏」 系列内容,作者为声网音频算法工程师 李嵩。 随着元宇宙概念的引入,空间音频这项技术慢慢映入大家的眼帘。关于空间音频的基础原理,我们做过一期科普视频 —— 「空间音频背后的原理」,想要了解的朋…声网开发者社区 发布于
- 用语音识别将音视频转换为文本,添加GUI并使用线程来提高性能 图片来自Pexels的Anna Shvets 我偶尔需要访谈很多转录研究项目的参与者,这类项目的拨款通常会包括转录费用。目前,人类转录仍是这类工作的黄金标准。当然,你也…声网技术社区 发布于
- 1 什么是错帧同步? 一般 Android 系统相机的最高帧率在 30 FPS 左右,当帧率低于 20 FPS 时,用户可以明显感觉到相机画面卡顿和延迟。 我们在做相机预览和视频流处理时, 对每帧图像处理时间过长(超过 30 ms…字节流动 发布于