聲音的本質是空氣的振動。要把這些振動變成數位檔案,電腦需要在極短的時間間隔內「取樣」——記錄那一瞬間的聲波狀態。取樣越頻繁、記錄越精確,還原出來的聲音就越接近原始聲音,但檔案也越大。
音訊壓縮的目的就是在「音質」和「檔案大小」之間找到平衡。想像你在畫一幅畫:原始 WAV 就像把每一個像素都完整畫出來的超高解析度畫作;而 MP3 就像一幅保留了所有重要細節,但省略了一些你不太會注意到的微小差異的畫作。
音訊壓縮分為兩大類,它們的運作方式截然不同:
有損壓縮會永久刪除一些音訊資料來縮小檔案。被刪除的資料通常是人耳不容易察覺的細節——超高頻率、被遮蔽的微弱聲音等。這種壓縮的好處是檔案可以變得非常小。
常見的有損壓縮格式:MP3、AAC、OGG Vorbis、WMA。
重要的是,有損壓縮是不可逆的。一旦壓縮完成,被丟掉的資料就永遠回不來了。即使你把 MP3 轉回 WAV,音質也不會變好。
無損壓縮透過更聰明的資料排列方式來縮小檔案,不會丟掉任何資料。解壓縮後的音訊和原始檔完全一模一樣。原理類似 ZIP 壓縮檔——壓縮後解壓,檔案內容完全不變。
常見的無損壓縮格式:FLAC、ALAC(Apple Lossless)、APE。
無損壓縮的壓縮率不如有損壓縮,通常只能縮小到原始大小的 50~70%,但好處是品質零損失。
位元率是單位時間內音訊資料的數量,單位是 kbps(kilobits per second,每秒千位元)。你可以把它想像成水管的粗細——管子越粗(位元率越高),能通過的水(音訊細節)就越多。
| 位元率 | 音質描述 | 適合場景 |
|---|---|---|
| 64 kbps | 明顯失真,聲音模糊 | 語音備忘錄、低品質預覽 |
| 96 kbps | 可接受,細節較少 | 語音通話品質 |
| 128 kbps | 堪用,一般聆聽足夠 | 串流音樂(基本品質) |
| 192 kbps | 良好,大部分人滿意 | 日常聽音樂 |
| 256 kbps | 優秀,接近原始品質 | iTunes Store 預設品質 |
| 320 kbps | 極優,MP3 的最高品質 | 高品質收藏 |
位元率和檔案大小呈正比。簡單的計算公式:
檔案大小(MB)= 位元率(kbps)x 時長(秒)/ 8 / 1024
例如:128kbps x 240秒(4分鐘)/ 8 / 1024 ≈ 3.75 MB
取樣率代表每秒鐘對聲波「拍照」的次數,單位是 Hz(赫茲)。根據 Nyquist 定理,取樣率必須至少是最高頻率的兩倍,才能準確還原聲音。
不一定。人耳最高只能聽到約 20,000 Hz 的聲音(而且隨年齡會下降),所以 44,100 Hz 的取樣率在理論上已經足以捕捉人耳能聽到的所有頻率。更高的取樣率主要用於專業場景——在錄音和混音過程中,超高的取樣率可以避免數位處理產生的失真。
如果取樣率決定了「拍照的頻率」,那位元深度就決定了「每張照片的解析度」。位元深度越高,每次取樣能記錄的音量精度就越細緻。
動態範圍是最大聲和最小聲之間的差距。16 bit 的 96 dB 動態範圍意味著可以同時記錄非常輕柔的鋼琴弱音和震耳欲聾的搖滾。對於一般音樂聆聽,這已經足夠了。
壓縮音訊時,還有一個重要的選擇:使用固定位元率(CBR)還是可變位元率(VBR)。
整首歌使用相同的位元率。無論是安靜的段落還是複雜的段落,都用一樣多的資料來記錄。
根據音訊的複雜度動態調整位元率。簡單的段落(如靜音、純人聲)用較低的位元率,複雜的段落(如交響樂高潮)用較高的位元率。
| 用途 | 格式 | 位元率 | 取樣率 |
|---|---|---|---|
| 日常聽音樂 | MP3 | 256~320 kbps | 44,100 Hz |
| Podcast 發布 | MP3 | 96~128 kbps (mono) | 44,100 Hz |
| 手機鈴聲 | MP3 / M4R | 192 kbps | 44,100 Hz |
| 影片配樂 | WAV / AAC | 無壓縮 / 256 kbps | 48,000 Hz |
| 錄音室作業 | WAV | 無壓縮 | 48,000~96,000 Hz |
| 音樂備份 | FLAC | 無損 | 原始取樣率 |
| 網頁音效 | MP3 / OGG | 128 kbps | 44,100 Hz |