音频初步学习

声音：由物体振动产生的声波。因此也有频率和振幅的特征，频率对应于时间轴线，振幅对应于电平轴线。采样：波是无限光滑的，采样的过程就是从波中抽取某些点的频率值，即把模拟信号数字化。如下图所示： [image] [image]

蓝色代表模拟音频信号，红色的点代表采样得到的量化数值

模拟信号->抽样->量化->编码->数字信号采样率：录音设备在一秒钟内对声音信号的采样次数，采样频率越高声音的还原就越真实越自然。采样频率一般共分为22.05KHz、44.1KHz、48KHz三个等级，8KHz - 电话所用采样率, 对于人的说话已经足够，22.05KHz只能达到FM广播的声音品质，44.1KHz则是理论上的CD音质界限，48KHz则更加精确一些。

采样位数：是记录每次采样值数值大小的位数。采样位数通常有8bits或16bits两种，采样位数越大，所能记录声音的变化度就越细腻，相应的数据量就越大。

声道数：声道数是指支持能不同发声的音响的个数，它是衡量音响设备的重要指标之一。单声道的声道数为1个声道；双声道的声道数为2个声道；立体声道的声道数默认为2个声道；立体声道（4声道）的声道数为4个声道。

码率：码率 = 采样率 * 采样位数 * 声道数如果是CD音质，采样率44.1KHz，采样位数16bit，立体声(双声道)，码率 = 44.1 * 16 * 2 = 1411.2Kbps = 176.4KBps，那么录制一分钟的音乐，大概10.34MB。

音频帧：音频数据是流式的，本身没有明确的一帧帧的概念，在实际的应用中，为了音频算法处理/传输的方便，一般约定俗成取2.5ms~60ms为单位的数据量为一帧音频。这个时间被称之为“采样时间”，其长度没有特别的标准，它是根据编解码器和具体应用的需求来决定的。

Audio Learning

CATALOG

FEATURED TAGS

FRIENDS