헤드폰, 이어폰, 스피커의 이해 2/2

헤드폰, 이어폰, 스피커의 이해 2/2
K-Pop Dolby Atmos Music 콘텐츠 생산의 산실, GLAB 스튜디오.

Part.2 헤드폰과 이어폰에서는 어떻게 입체감을 표현할까?


세 줄 요약

  • 헤드폰과 이어폰은 소리를 듣는 새로운 방법으로 스피커와는 완전히 다르다.
  • 헤드폰과 이어폰이 충분히 좋다면 입체 음향을 들을 수 있다.
  • 많은 회사들은 헤드폰과 이어폰에서 좋은 입체 음향을 만들기 위해 엄청난 투자 중이다.

앞선 기사에서는 스피커가 왜 오랫동안 2개인지, 그리고 이어폰 및 헤드폰, 그리고 스피커 사이에는 어떤 차이와 공통점이 있는지도 알아봤다. 독자들이 앞선 기사를 굳이 찾아봐도 되지 않도록 간단히 정리하자면 ‘전면에 가상의 무대가 위치하는 상황을 가정하면 단 2개의 스피커 조합의 스테레오만으로도 매우 좋은 결과를 얻을 수 있다’, ‘이어폰과 헤드폰은 스피커로 따지면 이상적인 배치가 아니기 때문에 스테레오라고 보긴 어렵다’, ‘이어폰과 헤드폰은 고막에 직접 소리 정보를 전달하기 때문에 ‘바이노럴’이라는 기술을 통해 입체음향 구현이 가능하다’ 정도일 것 같다.
많은 독자들이 궁금할 점은 아마도 마지막에 언급한 점일 것 같다. ‘과연 이어폰과 헤드폰으로 입체음향을 즐기는 것이 가능할까?’
결론부터 이야기하자면 상당히 높은 수준으로 가능하며 이를 위해 새로 설계된 전용의 이어폰이나 헤드폰이 아닌, 기존의 것으로도 매우 훌륭한 입체감을 느낄 수 있다.
이번 기사에서는 이어폰 및 헤드폰에서 어떻게 입체감을 느낄 수 있는지 비전문가도 알기 쉽게 기술적인 부분을 전반적으로 설명할 것이며, 이를 통해 첫 번째로는 헛된 마케팅에 속지 말고 합리적인 제품 구매를 하기 바라며, 두 번째로는 이 분야에 관심을 갖고 입문을 해보려는 독자들에게는 좋은 가이드가 되길 바란다.

인체가 소리를 듣는 방법을 거꾸로 거슬러 올라가다

사람이 듣는 소리는 두 귀에 도달한 정보의 합으로 뇌가 자동으로 연산한 결과물이다.

간단한 사고실험을 해보자. 나의 상체모양, 머리의 모양, 그리고 귓바퀴 및 외이도의 모양과 인체의 피부의 질감과 탄력까지 적절히 모사한 모형의 고막 위치에 좋은 성능의 마이크를 두고 이 마이크의 출력을 그대로 이어폰이나 헤드폰에 직결해 내가 들으면 과연 어떻게 느낄 것인가?
이러한 실험은 실제로 Binaural(바이노럴)의 가장 초창기 시절에 연구되던 것이었다. 그리고 독자들도 쉽게 유추할 수 있겠지만 이렇게 하면 굉장히 실감나는 소리를 들을 수 있다. 예컨대 마이크가 달린 예의 그 모형을 다른 방에 두고 시그널 케이블을 연결해 헤드폰을 듣는다고 해도 그 방의 소리, 분위기를 거의 고스란히 느낄 수 있다. 마치 ‘바로 그 곳’에 있는 것처럼 말이다.
이에 착안해서 처음에는 마이크로폰을 바이노럴 방식으로 만드는 작업들이 이뤄졌다. 좀 큰 제품은 상체까지 모사하고, 또 어떤 제품은 머리만, 그리고 또 어떤 제품은 귓바퀴만 모사하는 등 다양한 바이노럴 마이크들이 출시되었다. 그리고 이들은 꽤 실감나는 소리를 만들어주긴 했다. 그러나 결점이 많아서 실제로는 특수한 일부 용도 외에는 널리 쓰이진 못했다.

가장 유명한 바이노럴 마이크인 Neumann KU100

가장 중요한 단점으로는 ‘이어폰과 헤드폰에서만 작동’한다는 것이었다. 전반적인 자연적인 소리라든가 정위감, 홀의 울림 등을 잡아낼 때는 상당히 우수한 성능을 내지만 스테레오 배치의 스피커에서는 이러한 장점들이 완전히 소용없을 정도로 정위감과 자연스러운 소리가 온통 뭉개져 전혀 사용할 수 없게 되어버리는 것이다.
이는 상당히 결정적인 문제였는데 왜냐하면 당시만 해도 이어폰과 헤드폰은 대중화되지 못했기 때문이다. 그래서 이들은 빠르게 두 개의 마이크를 사용하는 ‘스테레오 마이크 배치 기법’으로 대체되었다.
바이노럴 마이크는 이처럼 매우 특수한 용도 외에는 소용이 없었는데 간혹 매우 드물게 이어폰 및 헤드폰 전용의 ‘바이노럴 앨범’이 발매될 때 이 바이노럴 마이크가 사용되었다. 이 때는 오케스트라의 지휘자 위치나 혹은 녹음 부스 안 연주자들 앞에 마이크를 두어 녹음했으며 또 어떤 경우에는 일반적으로 스테레오 믹싱된 음원을 믹싱룸이나 잔향이 고려된 리스닝룸에서 양질의 스피커로 재생한 후 이를 다시 바이노럴 마이크로 받아내는 식으로 작업이 이뤄졌다.
이처럼 주류에서 완전히 밀려난 듯 보였던 바이노럴 마이크는 재미있게도 2010년대 들어서 화려하게 부활했다. 먼저는 VR콘텐츠와 관련된 것, 그리고 유튜브에서 엄연한 하나의 장르로 완전히 자리잡은 ‘ASMR(Autonomous Sensory Meridian Response)’ 콘텐츠 덕분이었다.
최근에 일반적으로 쓰이는 바이노럴 마이크는 머리나 상체를 모두 모사한 것보다는 귓바퀴의 구조, 그리고 양 귀의 거리 정도만 간략하게 모사한 버전이 주로 사랑받는다. 물론 저렴한 가격과 휴대의 간편함 덕분이지만 이것만으로도 이어폰 및 헤드폰에서는 꽤 괜찮은 퀄리티를 누릴 수 있게 된다.

3DIO는 저렴한 가격에 간편하게 쓸 수 있는 바이노럴 마이크를 만들었으며 이는 음악 녹음용으로는 다소 부족한 품질이지만 ASMR 제작용으로는 큰 인기를 얻고 있다.

바이노럴 마이크의 한계를 극복하기 위한 시도-HRTF의 발전

바이노럴 마이크는 들이는 노력이나 솔루션의 가격 대비 매우 괜찮은 결과물을 쉽게 얻을 수 있지만 앞서 언급한 것 외에도 가장 큰 단점이 존재한다. 바로 멀티트랙 믹싱 작업에서는 거의 사용할 수 없다는 점이다.
현대적인 음악 믹싱 작업은 각 악기와 보컬, 효과음 등을 전부 별도의 트랙으로 나눠서 따로 녹음하거나 소스를 만든 후 이를 최종적으로 합쳐서 섞는 방식으로 이뤄진다. 이 방법은 각 소스별로 쉽게 음색 특성을 바꿀 수 있으며 패닝 노브를 통해 각 소스의 수평 위치를 너무나 편리하게 바꿀 수 있기 때문에 이 방식이 개발된 이후로는 빠르게 표준적인 음악 앨범 제작 워크플로우로 굳어지게 되었다.
이 방식의 패닝은 오로지 음량차만을 이용한 것이기에 입체감을 주기 어렵다는 단점이 존재한다. 하지만 수준 높은 잔향 처리 기술의 발전으로 이는 어느정도 극복되었고, 현재도 스테레오의 수평 패닝은 100%라고 해도 좋을 정도로 음량차만을 이용한 패닝이 이뤄지고 있다. 이 방식은 스피커를 이용한 스테레오 믹싱에는 매우 적합하지만 이어폰 및 헤드폰에서는 상당한 주의가 필요하며 바이노럴 마이크와 같은 입체감이나 자연스러운 울림의 실현은 거의 불가능하다. 특히 이어폰 및 헤드폰용의 바이노럴 음원을 만드는 작업은 워크플로우상 아예 불가능한 영역이다.

이어폰이나 헤드폰으로 가상의 3차원 음향을 제공하기 위한 핵심 기술이 바로 HRTF다.

이는 컴퓨터를 통한 사운드 프로세싱이 가능해지면서 변화의 국면을 맞았다. 바로 HRTF(Head Related Transfer Function; 머리전달함수)의 등장이다. 여기서부터는 상당히 어려운 개념이 되지만 기본 원리만 이해하면 간단하다. 인체의 상체, 머리, 귓바퀴 등은 각 음원의 3차원 방향에 따른 시간차 및 주파수의 변화를 만들어낸다. 그렇다면 최대한 많은 방향에서 어떻게 변화가 생기는지 데이터를 얻어낸 후 이를 역보정하여 독립된 음원에 적용하면 우리 인체는 그 음원이 ‘마치 그 위치’에 있는 것처럼 느끼지 않을까?
HRTF는 이러한 원리에서 출발한다. 이 함수 셋을 만들어내는 방식도 꽤 직관적이다. 실제로 무향실에 바이노럴 마이크를 가져다놓고 스피커의 위치를 옮겨가며 광대역 주파수가 포함된 테스트 시그널을 재생해서 그걸 녹음하여 기록하는 방식으로 이뤄지는데 현실적으로 스피커 위치를 정밀하게 옮기기는 어려우므로 반원 형태의 그리드에 다량의 스피커를 설치한 후 바이노럴 마이크를 수평으로 회전시켜가며 데이터를 취득한다.
처음의 HRTF는 주파수의 변화 및 귀의 좌우 도달 시간의 변화의 데이터 정도만 담았지만 현재는 소리의 주파수축 뿐 아니라 시간축 변화까지 정밀하게 측정하는 IR(Impulse Response) 데이터를 담아내는 방식으로 진화하고 있다.

실제로 무향실에서 HRTF를 취득하는 방법.

HRTF의 개인화까지 발전하다

앞서 바이노럴 마이크의 단점에 있어서 필자가 빠뜨린 중요한 한 가지가 있다. 바이노럴 방식을 통해 얻어지는 입체감은 물론 상당한 수준이지만 결코 완벽할 수 없다는 것이다. 이제와서 무슨 뚱딴지 같은 얘기냐고?
맨 앞에 설명한 바이노럴 방식의 원리를 다시 떠올려보자. 바이노럴은 가장 완벽하려면 바이노럴 마이크가 ‘나’의 신체적 형상과 최대한 흡사해야만 한다. 하지만 전 세계 사람들의 체형, 머리의 크기나 형상, 귓바퀴의 모양 등은 전부 다르다. 각 개인은 성장 과정에서 자연스럽게 ‘내’가 가진 신체의 스펙에 따라 소리의 입체감을 듣는 방법에 적응한다. 당연히 ‘나’는 적당히 비슷하게 만든 바이노럴 마이크와는 소리를 듣는 방식이 다를 수 밖에 없다. 그래서 현대의 바이노럴 마이크는 적당한 근사값을 취해 설계할 수 밖에 없다. 그렇다면 바이노럴 마이크를 통해서 만드는 HRTF 역시 마찬가지 운명일 수 밖에 없다는 결론이 난다.
‘나’에게 완벽한 HRTF를 만들려면 내 모습을 그대로 본딴 바이노럴 마이크를 사용하여 HRTF 데이터를 취득하거나 혹은 내가 직접 무향실에 들어가 고가의 고성능 미니어처 마이크를 고막의 위치 바로 앞까지 위치시켜 HRTF 데이터를 취득하는 고통스러운 과정을 겪을 수 밖에 없다. 이는 거의 불가능할 수 밖에 없으며 만약 가능하더라도 ‘단 1인’에게만 특화된 HRTF 데이터이기에 전혀 범용성을 가질 수 없다. 반대로 범용 HRTF는 태생적으로 ‘누구와고도 맞지 않는’ 특성을 가질 수 밖에 없다.
이를 극복하기 위해 애플, 구글, 삼성, 메타 등의 글로벌 공룡 기업들은 전 세계의 다양한 성별, 나이별, 인종별 HRTF 데이터를 취득하여 노하우를 쌓음과 동시에 HRTF를 개인화하기 위한 독자적인 방법들을 개발하고 있다.
이 분야에서 가장 앞서가는 것은 역시 애플이다. 이들은 아이폰에 장착된 고성능 카메라와 ‘페이스ID’ 기능을 위한 적외선 카메라까지 총 동원하여 사용자의 얼굴과 머리, 귓바퀴를 포함한 상체 모양을 3D로 스캔한다. 이후 HRTF를 생성하는 프로세싱이 어떻게 이뤄지는지 구체적으로 알려지지는 않았지만 많은 전문가들은 아마 적게는 수 십여개부터 많게는 수 백여개의 HRTF 데이터가 이미 준비되어 있고 취득된 3D 화상 데이터와 가장 흡사한 HRTF를 선택하는 방식으로 작동할 것이라고 추측하고 있다.

지금 우리가 바이노럴을 듣는 방법

이처럼 현대의 바이노럴에는 HRTF가 핵심적이라는 것을 이해했다면 이제 또 궁금한 것이 생겼을 것이다. 그렇다면 지금의 Dolby Atmos랑 바이노럴은? 그리고 애플 입체음향은 무슨 상관이며 서로 어떤 관계가 있는 것일까? 우선 Auro 3D나 Dolby Atmos와 같은 3D 사운드 포맷에 대해서는 [https://device-port.kr/feature-3/]의 2회에 걸친 시리즈 기사에서 다뤘으니 자세한 것이 궁금한 독자들은 링크를 참고하기 바란다.

첫 째로 기존의 스테레오 음원을 입체음향으로 즐기는 방법은 사실상 트릭에 가깝다. 스테레오는 그 자체로 단 2ch의 LR 스피커를 위한 정보만 담고 있기 때문이다. ‘없는 정보’를 만드는 것은 불가능하다. 스테레오 음원에서 입체감을 느끼려면 상단 및 후면의 반사음과 같은 ‘비슷한 정보’를 가상으로 생성해줘야 한다. 이 작업을 ‘Up Mix’라고 한다. Dolby Lab., Auro Technologies, DTS와 같은 회사들은 각자의 독특한 업믹스 엔진을 갖고 있으며 물론 이는 삼성이나 애플 역시 갖고 있다. 최근에는 영상 콘텐츠의 경우 화면을 분석하여 음원의 방향을 AI를 통해 새로 지정하는 기술이 연구되고 있으며 음악 콘텐츠의 경우에도 잔향 성분만을 따로 분리하여 입체감을 향상시키는 기술이 연구되고 있다.
Dolby Atmos Music 등 처음부터 입체음향을 위한 정보가 준비되어 있는 경우에는 HRTF에 ‘가상 스피커’ 기술이 접목되어 바이노럴 입체음향을 구성한다. Dolby Atmos의 경우 최종 배포를 위해서 십 수 채널 정도의 멀티트랙 오디오와 함께 이 오디오 트랙들을 어느 위치에 배치할 것인지의 좌표 정보를 담고 있는 ‘메타 데이터’ 셋이 한 몸으로 이뤄져 배포된다. 이 데이터셋들은 디코더로 해석되어 5.1.4나 7.1.4, 9.1.6 등의 실제 스피커 포맷에서 재생된다. 물론 이를 이어폰이나 헤드폰으로 들으려면 HRTF가 적용되어야만 할 것이다. 이 방법은 간단하다. 5.1.4~9.1.6 등 다양한 스피커 레이아웃은 Dolby가 권장한 각도와 거리, 배치에 따라야만 한다. 그렇다면 디코딩된 음원들을 HRTF의 적절한 음원 위치에 가상으로 배치하여 재생한다면 이어폰이나 헤드폰으로도 Dolby Atmos와 같은 스피커용 입체 음향을 즐길 수 있을 것이다.

실제로 Auro Technologies나 DTS, Dolby Lab.같은 회사들 역시 자체적으로 이어폰 및 헤드폰을 위한 입체음향 연구를 하고 있기 때문에 상당히 정밀한 HRTF 데이터들을 이미 갖고 있다. 이를 가장 쉽게 들어보는 방법이 각 회사의 홈페이지를 방문하거나 혹은 Microsoft Store와 같은 곳을 방문하여 전용 소프트웨어를 설치 및 구매하는 것이다.
애플의 경우에는 다소 재미있는데 Dolby Atmos를 사실상 멀티채널 오디오 배포 및 전송 용도로 대부분 사용하며 HRTF 데이터셋만큼은 독자의 것을 고집하고 있다. 이는 단순히 포맷 전쟁이라기보다는 애플만의 트레이드마크인 ‘독특하면서도 통합된 사용자 경험’을 제공하기 위해서임이 크다. 우선 이 덕분에 애플은 앞서 설명한 ‘HRTF개인화’를 세계 최초로 실용화시킬 수 있게 되었으며 자이로 센서를 이용한 ‘헤드 트래킹’ 기술 역시 대중화시킬 수 있게 되었다.

바이노럴, 어디까지 발전할 것인가?

물론 단 두 개의 스피커로 입체음향을 즐기는 것이 가장 편리할 것이며, 이는 실제로 ‘Crosstalk Canceling’이라는 기술로 어느 정도 가능하다. 삼성의 갤럭시탭이나 애플의 아이패드에서 이어폰이나 헤드폰 없이 자체 내장 스피커만으로 제공하는 가벼운 입체 음향이 바로 이 것을 이용한 것이다.
하지만 이제 이어폰이나 헤드폰으로 영상이든 음악이든 어떤 콘텐츠를 감상하는 것은 하나의 양식으로 완전히 굳어졌으며 젊은 층들에게는 더욱 더 익숙하다. 게다가 이 분야의 최강자인 삼성과 애플은 매우 양질의 청취 디바이스인 버즈 시리즈나 에어팟 시리즈들을 내놓으며 완전한 대중화에 성공하고 있다. 이제 이어폰 및 헤드폰은 스피커의 간편한 대체품이 아닌 ‘그 이상의 것’이 된 셈이다. 따라서 바이노럴은 과도기적인 기술이 아닌, 항구적인 어떤 기술로 남을 가능성이 매우 커졌다.
이러한 바이노럴 기술은 앞으로 어떻게 발전할까? 그 어떤 전문가에게도 이는 매우 어려운 일이지만 감히 필자가 시도해본다면 가장 먼저 실용화될 기술로는 ‘HRTF 개인화의 완전한 대중화’가 될 것이다. 또한 ‘헤드 트래킹’ 기술은 곧 실용화가 예정된 HMD(Head Mounted Display) 장비들과 결합하여 게임 및 VR 분야에서 새로운 콘텐츠 흐름을 형성할 것이다.
또한 필자가 아직 독자들에게 알려주지 않은 Ambisonics라고 하는 3차원 음향 기술이 HRTF와 만나면 훨씬 강력해질 수 있다. 이는 이미 게임 분야에서는 실용화된 상태이며 FPS 게임에서는 적들의 위치를 알기위해 필수적인 요소로 자리잡은 상태다. 현재 실용화된 것은 16채널의 3차 Ambisonics이지만 일부 영역에서는 이미 64채널의 7차 Ambisonics까지 콘텐츠가 나오고 있으며 이 기술이 고도로 정밀화 및 개인화된 HRTF와 결합한다면 입체 음향에서 새로운 지평이 열릴 수도 있다.