小谈音视频质量检测

| 2021-11-08

图0: undefined小谈音视频质量检测

本人从一位测试的角度出发，基于目前项目中摄像头的直播和语音对讲业务，正寻求音视频的质量测试及一些监控分析手段。工作中发现达到一定的并发程度之后，就会出现延时、卡顿、丢帧、马赛克等问题。所以最近在网上看看专家的直播和专栏，学习一下行业内的好的测试方法。

这不，前几天有幸参与了声网的音频算法工程师赵晓涵的关于《实时语音质量监控系统的过去、现在和未来》的在线直播和讨论。本次直播旨在介绍一下声网实时语音质量监控系统的进展，并和大家交流了一下未来的演化方向。

整理了一下，本次直播主要的内容主要涵盖了以下几个模块：

1、过去：语音质量评估算法

2、现在：线下测试的线上化

3、未来：感知、反馈和监控一体化

一、过去：语音质量评估算法

其中，过去的语音质量评估算法主要介绍了有参考客观评价方法、无参考客观评价方法和主观评价方法。

一千个观众会有一千个哈姆雷特，主观评价方法暂且不论。有参考客观评价方法中应用最广泛的有 P.862 PESQ、PESQ-WB 这两种。12 年左右推出了最新的有参考评价方法 P.863 POLQA，它是基于 PSQM 的升级改造。它们都主要依赖无损的参考信号。而无参考客观评价方法无需参考信号。其中的 ANIQUE+据作者称，其准确度超过有参考的 PESQ，这一点也很有意思。

客观评价方法的痛点：

1、有参考方法：只能用在上线前

2、无参考方法-传统信号域：应用场景窄，鲁棒性差

3、无参考方法-传统参数域：仅在有限弱网条件下可以保持精度

4、无参考方法-深度学习：应用场景和语料有限，复杂度高（信号域）

在语音质量评估算法这一方面，我们真的是小白。基于目前业务的，主要覆盖还是功能测试、接口测试和流媒体的部分性能测试。利用现有算法对语音质量进行评估，暂时可能还不会做。