디지털 음원 파일 (1) PCM과 WAV
디지털 음원 중 가장 대표적인 것을 고르자면, 지금은 비록 사양의 길을 걷고 있지만 전세계에 2,000억장이 넘게 팔린 CD일 것이다. CD는 2진 부호로 디지털화된 음원을 담고 있는데, 구체적으로는 PCM(Pulse Code Modulation)이라는 방식으로 기록되어 있다.
PCM을 설명하기 전에 먼저 신호의 변조 방식에 대해 간략하게 알아보자. 라디오 방송에서 전송 효율을 높이고 노이즈의 영향을 덜 받게 하려는 시도는 오래 전부터 있어 왔다. 특히 라디오 방송에서 우리 귀의 ‘가청 대역’에 해당하는 소리를 전송하기 위해서는 특별한 기술이 필요하다. 소리의 중요한 성질 중 하나는 주파수에 따라 ‘지향성’이 다르다는 점이다. 즉 주파수가 높을수록 직진성이 강해지는데, 예를 들어 일반적인 스피커에서 높은 고역은 고역 유닛의 앞에서만 들을 수 있고, 스피커의 뒤에 서있으면 벽에 반사된 음 외에는 잘 들리지 않는다. 반면에 저역은 음이 사방으로 퍼져 나가는 성질이 있으므로 스피커의 뒤쪽에서도 잘 들린다. 이 이야기는 주파수가 높은 고음이 더 멀리 전달될 수 있음을 의미한다. 같은 크기의 소리라면 고역은 지향성이 좁은 대신 더 멀리 전달되고, 저역은 지향성이 넓은 대신, 멀리 전달되기 어렵다는 것이다.
따라서 라디오 방송에서 전파의 형태로 신호를 멀리 전송하기 위해서는 우리가 듣는 그대로의 소리를 보내서는 곤란하고 주파수를 크게 높여서 보내야만 했고, 신호를 받은 후에는 원래 신호로 변환해야만 했다. 고주파를 받아서 우리가 들을 수 있는 원래 신호로 변환하는 것이 바로 라디오다. 방송에서 이렇게 신호를 변환하는 방식은 몇 가지가 있다. 지금은 방송국이 있어도 거의 듣지 않지만, 우리가 1970년대까지 즐겨 듣던 라디오 방송은 AM(Amplitude Modulation, 진폭 변조) 방식이었다. 우리의 귀로 들을 수 있는 주파수 대역이 20Hz~20kHz의 범위인데, AM 방식은 원래의 음성 신호에 고주파를 결합하여 전송하는 주파수 대역을 300~3000kHz로 끌어 올린 것이다. 즉, AM 방송국들은 원래의 신호에 방송국마다 다른 고유한 주파수 - 이를 반송파(Carrier)라고 한다 - 를 결합시켜 방송한다. 예를 들어 서울에서 AM으로 639kHz에 맞추면 KBS2 방송이 잡히는데 639kHz가 바로 반송파에 해당하는 것이다. 아래 그림을 보면 AM 신호에서 고주파 진폭의 끝을 연결하면 원래의 신호에 해당하므로 진폭 변조 방식이라는 이름이 붙게 되었다.
원 신호와 이를 변조한 AM, FM 신호. 원래의 파형과 비교할 때 고주파로 변형되는 것을 알 수 있다. (그림 출처 위키피디아)
하지만 이 방식은 전송 과정에서 잡음이 유입되기 쉬워서 음질에 문제가 많았다. 그래서 도입된 방식이 FM(Frequency Modulation) 방식이다. 이 방식은 원 신호에 반송파를 결합하여 고주파로 만드는 것은 AM 방송과 같은데 신호의 크기에 따라 주파수를 변조시켜서 대응시키는 것이다. 이 방식은 방송 신호의 진폭이 일정하며, 주파수 영역도 100MHz 수준으로 AM에 비해 훨씬 높기 때문에 잡음이 유입되기 어렵고, 방송국간의 주파수 간격도 AM에 비해 월등히 넓어서 서로 혼입될 우려가 없다는 장점이 있었다. 역시 방송국마다 독특한 반송파를 갖는데, 서울에서 MBC FM은 91.9MHz의 반송파를 사용하므로 라디오를 이에 맞추면 MBC FM을 들을 수 있는 것이다. 한편 AM이나 FM은 주파수를 끌어올리기 위해 신호를 변조시켰지만, 아날로그 전송 방식이다.
이런 변조 방식 외에 소리를 조밀한 시간 간격의 2진 부호로 바꾸어 전송하는 방식이 바로 PCM 방식으로서, 이는 이전 칼럼에서 설명한 디지털 부호와 동일한 것이다. 즉, 음성 신호를 2진 디지털 신호로 변환하여 전송하고, 전송이 끝난 후에는 받는 측에서 2진 디지털 신호를 다시 아날로그 신호로 바꾸어 사용하는 것이다. 이 아이디어는 아주 오래 전, 1930년대부터 고안되었으나, 막대한 비용과 기술의 미비로 인해 1960년대부터 비로소 사용되기 시작했는데, 1980년대 이후 컴퓨터의 발달로 인해 조금씩 각광을 받게 된다. 다만 처음 등장했을 때는 컴퓨터가 지금처럼 보급되기 전이므로 ‘디지털’이라는 이름이 붙지 않았을 뿐이다. 아날로그 신호를 ‘01001100’ 과 같은 2진 부호로 바꾸면 아래 그림과 같이 신호가 ‘1’인 부분에서 펄스가 공급되므로 ‘펄스 부호 변조’라는 어려운 이름이 붙게 되었다.
한편 FM 방식은 PC 초기에 사운드 카드에서도 도입되었다. 컴퓨터를 오래 접한 독자들은 기억하시겠지만, 애드립(AdLib)에서 (거의 최초의) 사운드 카드를 개발하면서 FM 음원을 탑재했던 것이다. 이는 각 악기의 소리를 FM 음원으로 미리 저장해 둠으로써 이를 조합하여 음악이나 효과음을 출력하는 방식이었는데, 당시 하드웨어나 기술의 부족으로 인해 컴퓨터를 통해 마땅한 사운드를 듣지 못하던 유저들에게 사운드 카드의 대명사로 불릴 정도로 큰 인기를 끌었다. 하지만 몇 년 사이에 PC의 하드웨어는 눈부시게 성장했고, 미리 저장된 음원의 한계로 인해 애드립은 PCM을 도입한 사운드 블래스터(Sound Blaster)에게 업계 표준 자리를 내어주게 되었다. 국내에서 큰 인기를 끌었던 ‘옥소리’ 사운드카드도 사운드 블래스터의 호환 기종이었다.
앞에서도 언급한 것과 같이 CD에는 해상도는 16비트이고 샘플링 주파수는 44.1kHz인 좌우 2채널의 PCM 음원이 실려 있다. 물론 이는 그대로 PC에서 사용할 수 있는 디지털 데이터다. 하지만 PC는 훨씬 다양한 일을 할 수 있는 기기이므로 컴퓨터는 PCM 뿐 아니라 더 다양한 상황에서 쓸 수 있는 파일 형식이 필요했다. 그래서 마이크로소프트와 IBM에서 표준 형식으로 만든 형식이 WAV(Waveform Audio File)이다. WAV 파일은 16비트 외에 8비트나 4비트의 음원, 또는 44.1kHz 외에 22kHz나 88.2kHz 등 다양한 음원을 포괄하는 개념이다.
따라서 CD의 PCM 음원은 컴퓨터로 옮기면, WAV와 같은 컴퓨터용 파일 포맷으로 변경되는 것이다. 물론 파일의 형식만 바뀌는 것이지, 2진 부호화된 데이터의 내용은 완전히 동등한 것이다. WAV는 PCM보다 다양한 기능을 갖고 있는데, 2000년대가 되면서 AV 멀티채널의 정보를 담는 헤더가 추가되었고(CD는 좌우 2채널 밖에 재생 못한다), 음원을 압축하는 기능도 제공한다.
음악이라는 것이 늘 복잡한 파형을 갖고 있는 것이 아니고, 사용된 악기에 따라 또는 음의 높낮이에 따라 파형이 다르므로 이를 적절히 압축하면 음질에 손상을 입히지 않으면서 파일의 크기를 현저하게 줄일 수 있다. 예컨대 PCM에서는 피아노 독주곡에서 음 사이의 정적 - 사실상 데이터가 없는 부분에서 그 빈 시간만큼 0이 들어 있어야만 하는데 이를 소프트웨어에서 효과적으로 인식시킬 수 있다면 그만큼 파일 공간이 줄어들 것이고, 음의 변화가 크지 않은 저음에서는 소리에 지장을 주지 않으면서 샘플링을 적게 하여 파일의 크기를 줄일 수 있을 것이다.
다만 WAV 파일은 애호가들 사이에서 CD의 PCM을 그대로 가지고 온 것이고, 단지 이름만 바뀐 것이라고 생각하는 경향이 있다는 것을 명심하자. 실제로 WAV 파일에서 압축 기능을 쓰는 경우는 우리가 앞으로 진행할 PC-Fi에서는 없다고 해도 과언이 아니다. 즉 PC-Fi에서 WAV라는 확장자의 의미는 CD에 담겨 있는 PCM 데이터를 고스란히 가지고 오는, 단지 컴퓨터에서 사용할 수 있도록 이름만 바꾼 형식이라고 생각해도 좋은 것이다.
한편 WAV가 마이크로소프트와 IBM에서 함께 만든 형식인데 반해 애플에서는 AIFF(Audio Interchange File Format)라는 형식을, 그리고 아미가(Amiga)에서는 8SVX 독자적인 형식을 쓴다. 이는 모두 WAV처럼 PCM이라는 데이터의 측면에서는 동일하지만, 운영체제에 따라 데이터를 다루는 형식에 있어서만 조금씩 다르다.