音频初步学习

Audio Learning

Posted by Elliot on December 18, 2017

版权声明:本文皆摘抄自网络,仅用于学习参考;如有侵权,请随时联系。

声音:由物体振动产生的声波。因此也有频率和振幅的特征,频率对应于时间轴线,振幅对应于电平轴线。 采样:波是无限光滑的,采样的过程就是从波中抽取某些点的频率值,即把模拟信号数字化。如下图所示: [image] [image]

蓝色代表模拟音频信号,红色的点代表采样得到的量化数值

模拟信号->抽样->量化->编码->数字信号 采样率:录音设备在一秒钟内对声音信号的采样次数,采样频率越高声音的还原就越真实越自然。采样频率一般共分为22.05KHz、44.1KHz、48KHz三个等级,8KHz - 电话所用采样率, 对于人的说话已经足够,22.05KHz只能达到FM广播的声音品质,44.1KHz则是理论上的CD音质界限,48KHz则更加精确一些。

采样位数:是记录每次采样值数值大小的位数。采样位数通常有8bits或16bits两种,采样位数越大,所能记录声音的变化度就越细腻,相应的数据量就越大。

声道数:声道数是指支持能不同发声的音响的个数,它是衡量音响设备的重要指标之一。 单声道的声道数为1个声道;双声道的声道数为2个声道;立体声道的声道数默认为2个声道;立体声道(4声道)的声道数为4个声道。

码率:码率 = 采样率 * 采样位数 * 声道数 如果是CD音质,采样率44.1KHz,采样位数16bit,立体声(双声道),码率 = 44.1 * 16 * 2 = 1411.2Kbps = 176.4KBps,那么录制一分钟的音乐,大概10.34MB。

音频帧:音频数据是流式的,本身没有明确的一帧帧的概念,在实际的应用中,为了音频算法处理/传输的方便,一般约定俗成取2.5ms~60ms为单位的数据量为一帧音频。这个时间被称之为“采样时间”,其长度没有特别的标准,它是根据编解码器和具体应用的需求来决定的。