오픈AI의 ‘큰 거’, 음성과 영상 입력에 대화까지 가능한 「GPT-4o」 공개

오픈AI의 ‘큰 거’, 음성과 영상 입력에 대화까지 가능한 「GPT-4o」 공개

오픈AI가 13일(현지시간), 생성형 AI의 새로운 모델 「GPT-4o」를 공개했다. 텍스트는 물론이고 음성과 이미지, 영상을 이용한 입력과 음성 응답을 지원하고, 애플리케이션 버전의 ‘ChatGTP’에서는 이용자와 대화까지 가능하다. 참고로 「GPT-4o」는 ‘지피티포오’라고 읽는다.

「GPT-4o」는 무료 이용자도 이용할 수 있다. ChatGPT에서 지금까지 무료 이용자는 「GPT-3.5」까지 이용할 수 있었고, 「GPT-4」를 이용하려면 사용료를 내야 했다. 유료 이용자인 ChatGPT Plus 이용자는 시간당 메시지 교환 가능 횟수가 무료 이용자와 비교해 5배 많고, 기업용 Team나 엔터프라이즈 이용자에겐 더 많이 제공된다.

오픈AI는 라이브 발표 영상에서 실시간 시연을 통해 「GPT-4o」를 탑재한 iOS 버전의 ChatGPT와 대화하는 모습을 보여주기도 했다. 텍스트가 아닌 음성을 통한 질문에 자연스러운 템포로 유창하게 대답하는 모습, 사람이 종이에 쓴 간단한 수식 문제를 영상으로 ChatGPT에 보여주고, ChatGPT가 올바르게 풀이하는 모습을 확인할 수 있다. 음성 모드 이용은 영상 공개 이후 몇 시간 내에 알파 버전을 출시한 후 Plus 이용자가 이용할 수 있게 제공할 것이라고 설명했다.

▲ 오픈AI의 미라 무라티 CTO가 「GPT-4o」를 설명하고 있다.

mac용 데스크톱 애플리케이션도 함께 발표됐다. 데스크톱에 표시된 프로그래밍 코드와 그래프를 ChatGPT가 인식하고 그 내용을 해석하는 모습을 볼 수 있다.

「GPT-4o」는 4월 말 ‘Chatbot Arena’에서 화제가 된 「gpt2-chatbot」였음도 밝혀졌다. ‘Chatbot Arena’는 미국 UCLA 연구실이 운영하는, 각종 생성형 AI 모델의 성능을 비교해 우열을 평가하는 서비스인데, 「gpt2-chatbot」는 갑작스레 등장해 오픈AI의 고성능 모델인 「GPT-4 Turbo」, 앤트로픽의 「Claude3 Opus」 등을 큰 차이로 제치며 전체 평가와 코딩 평가에서 1위를 차지하는 등 존재감을 뽐낸 바 있다. 그 「gpt2-chatbot」가 「GPT-4o」로 밝혀진 것이다.

▲ 「gpt2-chatbot」(=GPT-4o, 가장 왼쪽)이 「GPT-4 Turbo」, 「Claude3 Opus」「gpt2-chatbot」을 제치고 Chatbot Arena에서 가장 높은 평가를 받았다.

오픈AI는 「GPT-5」를 비롯해 동영상 생성형 AI 「Sora」, AI 검색 애플리케이션 등 다양한 AI 관련 제품과 관련된 내용을 여름에 발표할 예정이다.