音频的一些基础概念

2020-05-09 rtc rtc 0 评论

后续要开始做一些音频相关的内容
在此记录一些基础的音频知识吧
人耳可以听到的声音频率在20HZ~20kHz之间的声波，称为音频。
音频采样，是把声音从模拟信号转换为数字信号

参考

采样率

量化。音频量化的量化位数常用的有：
-8bit (也就是1字节) 只能记录 256 个数, 也就是只能将振幅划分成 256 个等级;
- 16bit (也就是2字节) 可以细到 65536 个数, 这已是 CD 标准了;
- 32bit (也就是4字节) 能把振幅细分到 4294967296 个等级, 实在是没必要了.

量化位数又叫做采样位数、位深度、分辨率，它是指声音的连续强度被数字表示后可以分为多少级。N-bit的意思声音的强度被均分为2^N级。16-bit的话，就是65535级。这是一个很大的数了，人可能也分辨不出六万五千五百三十五分之一的音强差别。也可以说是声卡的分辨率，它的数值越大，分辨率也就越高，所发出声音的能力越强。这里的采样倍数主要针对的是信号的强度特性，采样率针对的是信号的时间（频率）特性这是两个不一样的概念。

二进制编码。也就是把量化所得的结果，即单个声道的样本，以二进制的码字进行存放。其中有两种存放方式：
- 直接以整形来存放量化结果，即Two’s complement code；
- 以浮点类型来存放量化结果，即Floating point encoding code。

大多数格式的PCM（脉冲编码调制 - Pulse Code Modulation,PCM）样本数据使用整形来存放，而在对一些对精度要求高的应用方面，则使用浮点型来表示PCM 样本数据
pcm详解

即声音的通道的数目，一般分为单声道和双声道可以理解为在声音采集时从一个点进行收集，双声道从两个点进行收集
常有单声道和立体声之分，单声道的声音只能使用一个喇叭发声（有的也处理成两个喇叭输出同一个声道的声音），立体声可以使两个喇叭都发声（一般左右声道有分工），更能感受到空间效果，当然还有更多的通道数。

音频在量化得到二进制的码字后，需要进行变换，而变换（MDCT）是以块为单位（block）进行的，一个块由多个（120或128）样本组成。而一帧内会包含一个或者多个块。帧的常见大小有960、1024、2048、4096等。一帧记录了一个声音单元，它的长度是样本长度和声道数的乘积。FFmpeg中 AVFrame 结构体中的 nb_samples 代表的就是一帧中单个声道的音频样本数量。

这个主要是针对双声道或多声道音频来说的，对于一个双声道音频来说，它的组合方式可能有以下两种：
- 交错（interleaved）。以stereo为例，一个stereo音频的样本是由两个单声道的样本交错地进行存储得到的。
- 平面（planar）。各个声道的样本分开进行存储。

组合方式

FFmpeg音频解码后的数据是存放在AVFrame结构中的。
Packed格式，frame.data[0]或frame.extended_data[0]包含所有的音频数据中。
Planar格式，frame.data[i]或者frame.extended_data[i]表示第i个声道的数据（假设声道0是第一个）, AVFrame.data数组大小固定为8，如果声道数超过8，需要从frame.extended_data获取声道数据。

每秒的传输速率(位速, 也叫比特率)。如705.6kbps 或 705600bps, 其中的 b 是 bit, ps 是每秒(per second)的意思，表示每秒705600bit的容量。压缩的音频文件常常用倍速来表示，譬如达到CD音质的MP3是128kbps/44100HZ。注意这里的单位是bit而不是Byte,一个Byte等于8个bit(位),bit是最小的单位，一般用于网络速度的描述和各种通信速度，Byte则用于计算硬盘，内存的大小。
- Mbps 即：Milionbit per second(百万位每秒)；
- Kbps 即： Kilobit per second（千位每秒);
- bps 即：bit per second (位每秒)，相应的换算关系为：
1Milionbit=1000Kilobit=1000000bit；1Mbps = 1000 000bps; 再次强调这里是速度单位，指每秒传输的二进制位数，数据传输速率的衡量单位K是十进制含义，但数据存储的K是二进制含义。例如：
通常描述的1M带宽就是1Mbps = 1000 000 bps = 1000 000 / 8 / 1000 = 125; 所以1M带宽的下载速率一般不超过125KB/s
100M宽带也就是100 000 000bps = 100 000 000 / 8 / 1000 / 1000 = 12.5, 所以100M带宽的下载速率最大可达到12.5MB/s
当然了，以上只是理论速率，实际上最大的下载速率可能还达不到那么多，主要还会受到各种损耗的影响，一般100MB宽带下载速率能达到10MB就算不错了。

例：根据一个文件的大小推算出文件时长
譬如 “Windows XP 启动.wav” 的文件长度是 424,644 字节, 它是 “22050HZ / 16bit / 立体声” 格式(这可以从其 “属性->摘要” 里看到),
那么它的每秒的传输速率(位速, 也叫比特率、取样率)是 22050162 = 705600(bit/s), 换算成字节单位就是 705600/8 = 88200(字节/秒),
播放时间：424644(总字节数) / 88200(每秒字节数) ≈ 4.8145578(秒)。
但是这还不够精确, 包装标准的 PCM 格式的 WAVE 文件(*.wav)中至少带有 42 个字节的头信息, 在计算播放时间时应该将其去掉,
所以就有：(424644-42) / (22050162/8) ≈ 4.8140816(秒). 这样就比较精确了。也就是：
- （文件总大小 - 头信息）/ (采样率 * 采样位数 * 通道数 / 8) [也就是比特率] ≈ 文件时长。

本文链接： https://overtalk.site/2020/05/09/rtc-basic/

版权声明： 本博客所有文章除特别声明外，均采用 CC BY 4.0 CN协议许可协议。转载请注明出处！

当你发现自己的才华撑不起野心时，就请安静下来学习吧！