一直以来,很多Hi-Fi发烧友在聊音乐的时候,经常会谈论到关于音乐文件采样、位深、码率的相关技术参数。44.1kHz/16bit、96kHz/24bit、192kHz/24bit这种PCM波形规格到底意味着什么?DSD这种全新的规格音质有何优势?随着越来越多初烧开始接触数字音乐,本期就以纯理论的角度为大家对比一波WAV和DSD两种文件给大家进行参考。
相信不少的朋友都知道44.1kHz是采样率参数,但却不知道到底什么是采样率。所谓采样率,则是录音设备每秒采集声音样本信息的频率。44.1kHz采样率,即是在录音时,设备每秒记录44100次。
为什么无损音乐的采样率会被定位44.1kHz?这其实并非偶然。根据奈奎斯特采样定理(为了不失真地恢复模拟信号,采样频率应该不小于模拟信号频谱中最高频率的2倍),采样率44.1KHz的数字音频格式可以无损地记录22.05KHz以下频率的音频信号,其刚好超过了人耳的听力范围20kHz。对于PCM波形来说更高的采样率意味着曲线更加接近真实。
DSD64的采样率为2.8244MHz,相等换算的话就是CD的44.1kHZ的64倍采样率,也就是2824400次/秒。与PCM脉冲编码调制不同的是,DSD在录制时使用PWM脉冲宽度调制,因此在图像呈现上来看也与PCM有所不同,具体笔者会在下面讨论。
上面提到采样率是每秒记录声音的次数。对于用数字波形记录声音的方式来说,如果横轴是时间,想要出现完整的波形,那么就需要一个纵轴参数来为波形的“高度”进行设定。对于音频来说,这个高度信息,就是Bit(位深)。
所谓16Bit,其真实含义是用16位的二进制数来表示采样点的电平(纵轴高度)。在PCM波形中,纵轴高度越高、听感的响度就越高。位深对音乐文件的动态表现一般直接挂钩,16比特整数可以储存2的16次方(65536)个不同的数值,每增加1比特代表纵轴的精密度翻一倍。
相比于DSD来说,PCM技术于很早之前就应用于音频领域,因此其文件有很多的变种。正常的无损无压缩PCM波形的文件是WAV,我们日常下载到的flac、ape这种无损格式都是将WAV文件“无损伤压缩”的音乐档案,再次解压缩后数据基本不受影响(但不少数字音乐档案发烧玩家发现声音有“打折扣”的情况)。mp3、wma等格式为有损压缩格式,再次解压为WAV后会造成数据损失。
PCM和DSD在录音时使用的就是两种完全不同的系统;PCM脉冲编码调制:首先将连续的模拟信号(音乐原声)离散并抽样量化,根据瞬时点参数构建PCM波形。简单、直观、文件占用空间低是它的优势,其劣势在于量化误差较大。
DSD在录制时使用了另外一种调制——PWM脉冲宽度调制:它是将模拟信号转换为脉波的一种全新的记录方式。在记录时,DSD的模数转换A/D部分并非如WAV一样,而是通过采样点实现增/不变/减的判断。打个比方吧,让PCM和PWM(DSD调制技术)一起记数字,PCM在记录一串数字时是1,2,3,4,3,而PWM则是0,1,1,1,-1(只取差值)。
PCM波形的横轴为采样点、纵轴为位深,在做放音的数模转换D/A时,数字波形中的每个点会转换成其独有的二进制编码被指定的DSP或者CPU进行处理实现转换。对于PCM波形来说,由于每次采样都有严格的时间限制,因此PCM系统在声音回放时对晶振的需求的极高,如果解码时两方出现任何误差都会导致失真。同时,由于采样率远低于DSD,其在取样时的受量化误差影响,其理论上的信噪比也远低于DSD。
DSD文件的PWM波形在横纵轴设置上与PCM相同。不同的是,PWM波形的采样点深度仅为1bit,播放方式为录制的逆过程(具体参考2.1)。相对于PCM来说,DSD的优势是有效的防止了晶振问题,且动态响应也更加精准。不过由于其过于精准的特性,音乐的响度一般来说也是偏低的,这也是为什么不少Hi-Fi产品会专门为DSD播放专门做一个增益功能。还有就是DSD的文件占用空间巨大、解析耗电量大,非常吃硬盘资源。
和CD技术一样,DSD(Direct Stream Digital,直接比特流数字编码)同样是由索尼和飞利浦两大技术巨头联手开发的数字音频技术。那么两者之间有什么因缘和异同呢?
首先,我们可以把数字音频文件的基本数据单元,理解为“采样点”,播放数字音频文件的本质,就是读取每个采样点上记录的数据。在同一个数字音频文件中,每个采样点间的时间间距,都是相同、固定的,因此,每一秒内采样的次数越多,就意味着采样频率越高,记录的数据量也就越大,重放音乐的信息量和音乐品质也就越好(理论上)。
当然,不同的音频技术,采用的数据记录方式也是不同的;以我们日常接触最多的CD为例,本质是一种PCM(Pulse-Code Modulation,脉冲编码调制)音频的载体,所以这里也先简单介绍PCM技术的编码原理。在对音频信息进行记录时,PCM的做法,是先按照一定的数据位深(数据值数量),设定一组电平值数据规则,然后按这个规则,对每个采样点的电平值进行单独记录;从中我们可以理解:
1. 每个采样点,都是单独度量各自采样时刻的电平绝对值,采样点之间相互独立,无关联也无影响;
2. 数据位深越大,意味着电平值规则的数据量越大,每个采样点的数据记录也就越精细、丰富;
3. 采样频率越高,也就是采用的采样率越高,同样意味着采样数据更丰富,更接近原音原貌。
常规的CD文件是16bit 44.1kHz的PCM音频,也就是每秒钟取样44100次,并且用一组65536个值(=2的16次方=16bit)的规定电平,测量和记录采样时刻的电平值。
而DSD,可以理解为是一种PDM(Pulse-Density Modulation,脉冲密度调制)技术,在每个采样点,DSD文件只进行2个值(=1bit)的数据记录,记录的内容则是相比上一个采样点记录数值的信号电平变化(增大还是减小)。
相比PCM技术,DSD每个采样点只需做1bit位深的“1/0”记录,同时采样点之间数据互相关联,整首音频从开始到结束都可以视为是一个连贯、连续的整体(而不是如PCM那样每个采样点的数据本质各自独立);当然,DSD也采用了远远高于PCM的采样频率,例如常规使用的DSD64,采样率是2.8224MHz,也就是每秒钟进行2824400次的采样记录,采样密度是CD的64倍。
两者相比,PCM和DSD其实各有千秋。一方面,DSD技术的数据采样记录方向更为“线性”,时间密度也更高,采集到的数据量也先天较大,因此即便是SACD所采用的(最常规、入门的)DSD64音频,对比CD这样的传统PCM音频,在多个方面也都已经具有优势;而另一方面,无论PCM还是DSD,最终的声音品质其实还是取决于数据量,而数据量又直接取决于使用的采样率和位深,因此采用更高采样率和数据位深、数据容量更大的PCM音频,在听感上其实也一样可达到“极高清”;并且,音频的后期制作,编码、解码时芯片的时钟精确度等技术问题,也都会对音频的最终播放品质造成影响。
事实上,对于消费者们来说,对待PCM和DSD音频,其实也没必要一定要分出个结果。目前市面上的高清音频,依然是以各类PCM音频为主流,但也不乏以DSD形式发行的作品,因此,一台能够同时玩转PCM和DSD读解播放的高品质数字播放器,无疑将会是发烧玩家们不可缺少的数字音源。
相比于WAV,DSD虽然是理论上的信息量升级,但也为解码设备的性能带来了更大的挑战。不开玩笑的说,有一套能够发挥真正DSD实力音响设备的人,笔者身边的专业用户都很少,更别提便携听音了。Hi-Fi设备并非玄学,它也是一分钱一分货的。就像很多人玩手游都能充个万八千一样:如果舍不得钱一步玩到位,那就一点一点升级Hi-Fi设备。如果把自己限制在一定范围内,永远无法发现外面世界的美好。