헤드폰, 이어폰, 스피커의 이해 1/2

헤드폰, 이어폰, 스피커의 이해 1/2

Part.1 헤드폰과 이어폰, 그리고 스피커의 차이점

 


세 줄 요약

  • 인체의 귀는 소리의 수평면, 특히 정면 60° 간격의 음원 위치 인지에 최적화되어 있다.
  • 스테레오 스피커는 이를 적극적으로 이용, 오랫동안 표준으로 살아남았다.
  • 헤드폰과 이어폰은 스피커의 하위호환이 아니다. 나름의 독자적인 기능성을 갖고 있으며 입체감의 표현까지도 가능하다.

   

사람이 소리를 듣는 방식, 정확히는 두 귀를 우리의 뇌가 해석하는 방식에 대해 궁금해본 적이 있는가? 혹은 사람이 실제 소리를 듣는 것과 스피커를 통해서 재생하는 것을 듣는 것 사이의 차이에 대해 생각해본 적이 있는가? 스피커와 헤드폰, 그리고 이어폰은 뭐가 어떻게 다른 것인가? 이러한 주제들이 궁금한 독자라면 이번 글이 꽤 재미나게 읽힐 것이다. 다만 이런 것들을 제대로 이해하기 위해서는 일정 수준의 수학적 및 물리적 지식이 있어야만 한다. 하지만 이 글에서는 이러한 요소를 최대한 배제하고 쉽게 설명을 할 것이다.

스테레오 스피커 배치는 매우 정밀한 위치 인지를 실현한다. DPA 제공.

인체가 소리를 듣는 방법

보통 우리는 소리를 듣는 기관을 ‘귀’라고만 생각한다. 그리고 이 귀는 일반적으로 지칭할 때에는 보통 ‘귓바퀴’를 의미하지만 ‘소리를 듣는 기능’에 집중할 때에는 고막, 그리고 그 안에 있는 청신경을 의미할 때가 많다. 물론 이는 대부분 맞는 말이다. 하지만 그게 다가 아니다.
먼저 간단한 실험을 하나 해볼 것이다. 독자들의 한 쪽 귀를 꼭 막아보자. 그 상태에서 나머지 손으로 머리 주위를 돌며 다양한 방향으로 스냅 소리를 내보자. 왼쪽 귀를 막은 상태, 즉 오른쪽 귀가 열린 상태에서도 머리 왼쪽에서의 스냅 소리가 너무나 선명하게 잘 들리는 것을 확인할 수 있다. 심지어 음량 차이도 거의 나지 않는다. 실제로 우리의 귀는 마이크로폰으로 따지자면 전 방향의 소리를 동일하게 받아들이는 ‘무지향성 마이크’에 가깝다. 그렇다면 우리 귀는 어떻게 음원의 방향성을 느끼는 것일까? 비밀은 귓바퀴의 형상, 그리고 머리 및 상체의 크기와 형상, 마지막으로 가장 중요한, ‘귀가 두 개’라는 사실에 있다.

소리는 저음의 경우 파장이 크고 고음으로 갈수록 파장이 짧아진다. 그리고 긴 파장의 진동은 장애물을 쉽게 넘어간다. 이러한 자연 현상을 ‘회절’이라고 한다. 소리의 이 같은 성질과 두 귀의 거리차이, 그리고 머리의 물리적 크기는 음원의 위치에 따라 두 개의 귀가 받아들이는 소리의 차이를 만들어낸다. 예컨대 어떤 소리가 왼쪽에서 난다고 하면 저음은 머리 정도의 크기는 쉽게 회절을 통해 넘어가기 때문에 양 쪽 귀의 소리 차이는 없다. 다만 양 귀의 거리(약 17cm 이내)는 차이가 있기 때문에 소리의 도달 시간에서는 미세한 차이가 생길 것이다. 하지만 고음의 경우에는 머리의 물리적 크기를 넘지 못해 왼쪽 귀에서 확연히 크게 들리게 된다.
말하자면 양 쪽 귀의 물리적인 거리차이, 그리고 머리의 물리적 크기라는 요소는 음원의 위치에 따라 두 귀에 도달하는 정보의 차이를 발생시키며 뇌는 이를 감지하여 음원의 위치를 순간적으로 계산하는 것이다.  종합하자면 인체는 소리의 위치를 감지할 때 저음은 양 쪽 귀의 시간차이를, 그리고 고음은 양 쪽 귀의 음량 차이를 통해 감지하게 된다.

인체 귀의 구조. 고막 안쪽의 내이(Inner Ear)뿐 아니라 귓바퀴까지의 외이(Outer Ear)까지 소리 듣기에 관여하는 중요한 기관이다.

이렇게 수평면의 위치 감지 메커니즘을 알았다면 이제 소리의 앞-뒤, 그리고 위-아래의 위치 감지 메커니즘이 궁금할 것이다. 이는 수평면 위치보다는 훨씬 간단한 메커니즘과 부정확한 방법으로 이뤄진다. 바로 귓바퀴, 그리고 상체의 형상으로 인한 주파수의 왜곡을 이용하는 것이다. 예컨대 정면에서 들리는 소리와 후면에서 들리는 소리는 귓바퀴 및 인체 상체의 형상으로 인해 서로 다른 주파수 특성을 가진다. 음원 위치의 상-하 차이 역시 마찬가지다. 말하자면 수평면 위치 감지에 비한다면 두 개의 센서를 유기적으로 이용하는 것이 아닌, 하나의 센서를 이용하는 것이기에 훨씬 부정확할 수 밖에 없다.
사람은 이 문제를 성장 과정에서의 경험을 통한 학습을 통해 배워서 해결하고 있다. 예컨대 소리의 위치를 파악할 때 자신도 모르게 머리를 이리저리 돌려가며 다양한 정보를 얻으려고 한다는 식으로 말이다. 실제로 어떠한 잔향이나 반사정보도 얻을 수 없는 무향실 내부에서 자연에서는 듣기 힘든 단일 주파수 소리만 들려주고 블라인드 테스트를 해보면 대부분의 사람들은 거의 음원의 위치를 감지하지 못한다고 한다. 즉, 사람은 많이 들어본 자연음일수록, 그리고 수평면 위치일수록 음원의 위치를 훨씬 정밀하게 감지한다.

 

오랫동안 스피커의 스테레오 배치가 살아남은 이유

오디오의 역사에 대해 재미있는 이야기가 있다. 처음 토마스 에디슨으로부터 시작되었던 오디오의 역사는 1877년부터 시작되었다. 당시에는 오디오의 스피커가 한 개인 것이 너무나 당연했고 이상한 일이 아니었다. 그도 그럴 것이 사람과 다양한 악기들을 보면 ‘단일 음원’으로 취급되기 때문이다. 사람의 입은 하나라는 당연한 사실을 떠올려보도록 하자.
우리에게 익숙한 스테레오 기술은 1930년대부터 연구가 시작되었고 2차 세계대전이 끝난 1950년대가 되어서야 보편화되었다. 모노의 시대는 무려 60년이나 이어진 셈이다. 처음에 스테레오 방식이 도입되었을 때에는 소비자들을 이해시키는 것이 쉽지 않았다고 한다. 스피커 한 개로도 소리가 훌륭히 나는데 완전히 똑 같은 스피커를 두 개나 구매해야 한다니 납득이 가지 않았다는 것이다.

이렇게 시작한 스테레오는 모노 이상으로 역사가 길다. 대중화의 시기로만 따져봐도 이미 스테레오의 역사는 70년이 넘어가고 있으며 서라운드나 3D 사운드가 대중화된 지금도 여전히 음악 분야에서는 스테레오가 주류이며, 포맷의 간소함이나 편리성을 생각한다면 앞으로도 아주 오랫동안 대세가 될 것이 분명하다.
이렇게 오랫동안 스테레오가 살아남은 이유는 ‘음악을 표현하는데 매우 적합’하기 때문이다. 실제로 우리가 콘서트장을 간다고 생각해보자. 99%의 콘텐츠들은 눈 앞의 무대 위에서 펼쳐진다. 이는 음악이든 연극이든 뮤지컬이든 전부 똑같다. 이렇게 앞에 펼쳐진 무대의 너비는 묘하게도 인체가 가장 소리를 정밀하게 인지하는 너비와 대체로 일치한다. 인체는 전면 좌우 60° 범위 내라면 굉장히 높은 정확도로 음원의 위치를 파악할 수 있다. 앞서 언급했던 ‘인체의 귀는 수평면, 특히 전면의 음상 위치 인지에 특화되어있다’를 떠올려보라. 많은 연구 끝에 개발된 스테레오는 이에 착안하여 스피커를 좌우 60°의 범위에 두어 인체의 머리와 두 스피커가 정삼각형의 배치를 이루도록 권장하고 있다.
다만 이러한 스테레오 스피커의 배치는 상-하의 공간감을 제공해주지는 못한다. 하지만 실제 공연장, 특히 클래식 음악을 위한 콘서트홀, 오페라홀은 오케스트라의 후면과 상단에 반사판을 두어 소리의 상-하의 폭을 넓히는 동시에 프로세니움 양 쪽에도 복잡한 형상으로 사운드 디퓨저를 건축적으로 설계하여 음원의 좌-우 폭을 더욱 과장되게 극대화하고 있다.

스테레오 스피커 배치 역시 이러한 요소를 적용하면 감동적인 음악 감상에 있어서 매우 긍정적인 역할을 한다. 실제로 많은 음향용 벽체 마감재 제조사들은 소리를 흡수하는 흡음재 뿐 아니라 소리를 적극적으로 반사하는 디퓨저를 생산하고 있으며 좋은 청취룸은 이 디퓨저와 흡음재를 적절히 조합해야만 만들어진다. 많은 애호가나 비전문가들이 생각하듯 지나치게 흡음이 된 곳은 오히려 올바른 음악 감상에 전혀 도움이 되지 않는다.

라이브 사운드 엔지니어들에게 가장 사랑받는 Sennheiser HD-25

스피커와 이어폰, 헤드폰의 차이는?

인체의 두 귀를 적극적으로 이용한다는데 있어서 스테레오 배치의 스피커와 헤드폰, 이어폰은 모두 궤를 같이 한다. 하지만 세세한 점을 들여다보면 서로 큰 차이가 있다. 먼저 스피커는 짧게 요약하자면 ‘두 스피커 사이에 무대가 위치한다’라고 보면 된다. 공간의 인테리어적 요소와 더불어 약간의 오디오 프로세싱을 통해 스피커 바깥으로 표현의 폭을 어느정도 넓히는 것은 가능하지만 오히려 원음을 해칠 때가 종종 있으며 한계가 명확하다.
하지만 좋은 스피커를 올바른 공간에 제대로 배치하여 이상적인 위치, 즉 ‘스윗-스팟’에서 청취한다면 셋업에 따라 공연장에 실제로 와 있는 것 이상의 감동을 즐기는 것도 가능하다. 물론 실제 콘서트의 그 분위기만큼은 재현이 어렵겠지만 실제 공연장도 대부분 현장의 스피커와 각종 음향 시스템을 통해 만들어진 사운드라는 점을 생각해보자. 어떻게 보면 한계점이 명확하며 현실과 타협해야 하는 공연장의 음향 시스템보다 정성들여 만든 내 방의 스테레오 스피커 셋트가 훨씬 더 좋은 음을 내줄 수 있는 것이다. 그리고 이 오디오 시스템들의 구성을 바꾸고 튜닝을 하는 식으로 자신만의 소리를 찾아나가는 것도 좋은 취미가 된다. 많은 사람들에게 과도한 오해를 받는 ‘오디오 취미’가 바로 이러한 영역이다.

이어폰과 헤드폰은 어떨까? 먼저 장점부터 이야기해보자. 스피커는 공간의 영향을 절대적으로 받는다. 공간의 영향을 받지 않는 스피커는 이 세상에 존재하지 않는다. 하지만 이어폰과 헤드폰에는 ‘공간의 반사음과 잔향’이라는 요소가 전혀 존재하지 않는다. 따라서 자칫 나쁜 공간에서의 부정적 영향은 사전에 완벽하게 차단된다. 이어폰과 헤드폰은 원음을 고막으로 다이렉트로 꽂아버리기 때문에 중간에 왜곡이 끼어들 틈이 없다. 따라서 원음의 완벽한 재현이라는 관점에서 바라본다면 이어폰과 헤드폰이 답일지도 모른다.

단점은 명확하다. 엄밀히 말하자면 이어폰과 헤드폰은 스테레오 스피커가 극단적으로 서로 180°의 위치에 있어서 서로 바라보는 꼴이다. 그런데 인체는 오랫동안 전면 60°의 소리 위치 인지에 최적화되어 진화해왔다. 이로 인해 이어폰 및 헤드폰의 스테레오 공간감은 잘 셋팅된 스피커 시스템에 비해 자연스럽지 않고 어색하기 짝이 없다. 실제로 믹싱 과정에서 패닝에 실패하면 스피커에서는 멀쩡하게 재생되던 것이 이어폰이나 헤드폰에서는 가운데가 빈다던가 혹은 음상이 머리 위로 떠버리는 현상이 벌어진다. 또한 스피커에서 쉽게 경험할 수 있는 전면에 펼쳐지는 자연스러운 스테이징이 이어폰과 헤드폰을 사용한다면 양쪽 귀 사이에서, 그저 머릿 속에서 어지럽게 펼쳐지는 비현실적인 스테이징이 되어버리는 경우가 많다.
이는 실제 발매된 음악 앨범으로도 확인이 가능하다. 1970년대까지만 해도 믹싱 과정에서 극단적인 패닝을 실현한 앨범들이 많았다. 이는 스피커 환경에서 재생한다면 그다지 어색하지 않다. 실제로 우리가 자그마한 클럽에서 재즈 공연을 본다면 무대의 양쪽 구석에 드럼과 콘트라베이스가 배치되는 식이 될 테니 말이다. 그런데 당시의 음악을 이어폰이나 헤드폰으로 들을 때는 심하게 말해서 기괴하게 느껴지기까지 한다. 음악이 연주되는 내내 드럼 소리가 한 쪽 귀에서만 들린다고 상상해보라. 아마 처음에는 기기 고장을 의심할 정도일지도 모른다. 실제로 이어폰 및 헤드폰이 대중화된 1980-90년대 이후의 앨범 믹싱은 극단적인 음원 패닝은 지양하고 전반적으로 자연스러운 패닝을 실시하며 대신 비현실적인 효과음의 경우 양념처럼 강하게 패닝하는 경우가 대다수다. 또한 음원보다는 공간 잔향의 스테레오 감을 더욱 신경써서 스테이징을 넓히고 화려하게 하는 방법을 쓴다.

아주 엄밀히 말하자면 이어폰과 헤드폰은 스테레오에 속하지 않으며 다만 실무에서의 믹싱시 사운드 엔지니어들은 스피커 청취와 이어폰 및 헤드폰 청취 양쪽에 있어서 서로 큰 위화감이 없도록 서로 호환성을 갖도록 작업하고 있을 뿐이다.
이어폰과 헤드폰은 그래서 스피커와는 서로 다른 영역이라고 봐야한다. 휴대성, 그리고 공간에 영향받지 않은 정확하고 정밀한 음의 모니터링에 있어서는 이어폰과 헤드폰의 압승이다. 하지만 자연스러운 음의 표현과 스테이징, 그리고 프로듀서 및 뮤지션의 의도대로 음악을 듣는다는 면에서는 스피커가 압승일 수 밖에 없다. 그런데 최근 이어폰과 헤드폰의 새로운 가능성이 주목되고 있다.

완전무선 이어폰인 Sony WF-1000XM4

이어폰과 헤드폰은 입체 음향의 표현이 가능하다

다소 놀라운 이야기일 수 있지만 이어폰과 헤드폰은 입체음향의 표현이 가능하다. 그것도 수평면 뿐 아니라 수직면, 그러니까 상-하의 공간감마저도 꽤 높은 정밀도로 표현이 가능하다. 이 기술을 바이노럴(Binaural)이라고 한다. 단지 두 개의 아주 작은 스피커가 양쪽 귀에 밀착된 이 단순한 물건들에서 어떻게 입체음향을 가능하게 할까?
앞서 가장 첫 번째 챕터에서 ‘인체가 소리를 인지하는 방법’에 대해 자세히 설명했었다. 수평면의 경우 저음은 좌-우의 극히 미세한 시간차이, 그리고 중고음은 좌-우의 음량 차이로 인해 음원 위치를 인지하며 수직면 및 앞-뒤의 위치 인지의 경우 상체와 귓바퀴가 만들어내는 미묘한 주파수 반응의 변화를 통해 인지할 수 있다는게 그 요지였다. 그렇다면 이 변수들을 미리 측정을 통해 알아둔 다음 음원 패닝에 이를 정밀하게 적용하면 되지 않을까?

이어폰과 헤드폰은 마침 고막까지 일체의 어떠한 환경 변수 없이 스트레이트로 왜곡없는 원음을 꽂아버리는 물건이다. 게다가 ‘크로스토크(Crosstalk)’라고 하는 좌-우 음원의 소리 섞임 현상마저도 전혀 없다. 말하자면 바이노럴 기술을 실현하기에는 최적화된 형태라는 것.
바이노럴 기술은 아주 오래 전부터 연구되어왔다. 하지만 이를 적용한 오디오 콘텐츠를 만드는 것은 대단히 어려운 일이었다. 불과 십 수년 전만해도 기껏 시도되었던 것은 실제 공연장 환경에 바이노럴 마이크를 둬서 녹음하거나, 혹은 믹싱된 음반을 스튜디오 환경에서 바이노럴 마이크로 재녹음하여 CD 겉면에 ‘Binaural’이라고 하는 작은 글씨를 써두는게 전부였다. 이렇게 만들어진 콘텐츠는 이어폰 및 헤드폰 전용으로, 스피커에서 재생한다면 극히 왜곡된 음을 듣기 마련이다. 따라서 가요나 팝 음악의 경우 음원 소비자들의 80% 이상이 이어폰이나 헤드폰을 통해 감상을 한다고 하더라도 입체감과 현장감을 살린 바이노럴 음원은 거의 구경하기가 어려웠다. 호환성에 큰 문제가 있기 때문이다.

이런 현실은 고도의 디지털 프로세싱 기술의 발달로 큰 변화의 국면을 맞이했다. 바이노럴 마이크 없이 바로 DAW(Digital Audio Workstation) 소프트웨어에서 믹싱을 하며 바이노럴 결과물을 낼 수 있는 플러그인(Plug-in) 소프트웨어들이 등장하기 시작하더니 Dolby Atmos , Auro 3D, DTS:X 등의 3D 사운드 믹싱 워크플로우가 실무에 적용되면서 가상의 3D 스피커 배치를 이어폰 및 헤드폰으로 듣는다는 개념의 바이노럴이 등장한 것이다.

애플 공간음향 서비스는 자사의 에어팟 시리즈에 최적화되어있다.

그리고 무엇보다도 이 흐름에 급물살을 타게 한 것은 단연 애플의 ‘공간음향’의 보급이다. 애플의 공간음향은 Dolby Atmos를 기본 뼈대로 사용한다. 컨슈머용으로 배포되는 Dolby Atmos 마스터 음원에는 다양하게 분리된 멀티 음원들이 묶여 있으며 이 음원들이 어떤 스피커에 언제, 어떻게 배치될지가 기록된 ‘메타데이터’가 포함되어 있다. 애플은 이 음원을 자사가 직접 만든 바이노럴 데이터 셋과 결합하여 이어폰 및 헤드폰에 공간음향을 제공한다. 음원의 상-하-좌-우-앞-뒤의 제각기의 위치에 따라 적절한 시간차 및 음량차, 주파수 왜곡을 넣는 것이다. 이렇게 하면 이어폰과 헤드폰에서도 마치 스피커와 같은 자연스러운 소리를 재생할 수 있게 되며 활용에 따라 Dolby Atmos와 같은 입체음향도 구현할 수 있는 것이다.