크래프톤, AI 모델 브랜드 ‘라온’ 출범…멀티모달 기술 공개

[서울타임즈뉴스 = 최명진 기자] 크래프톤이 AI 모델 브랜드 ‘라온(Raon)’을 공식 출범하고 핵심 AI 모델 4종을 오픈소스로 공개하며 글로벌 기술 경쟁력 강화에 나섰다. 크래프톤은 음성 지원 대규모 언어 모델(LLM)을 비롯해 실시간 음성 대화 모델, 텍스트-음성 변환(TTS) 모델, 비전 인코더 등을 글로벌 AI 플랫폼 허깅페이스를 통해 공개했다고 밝혔다.

라온은 ‘즐거움’을 의미하는 순우리말에서 착안한 이름으로, AI를 통해 게임의 본질적인 재미를 확장하겠다는 크래프톤의 철학이 반영됐다. 이번 공개를 통해 데이터 수집부터 모델 학습, 성능 평가까지 전 과정을 자체 수행할 수 있는 파운데이션 모델 역량을 확보했음을 입증했다는 평가다.

공개된 모델은 ‘Raon-Speech’, ‘Raon-SpeechChat’, ‘Raon-OpenTTS’, ‘Raon-VisionEncoder’ 등 4종으로, 음성과 시각 정보를 통합적으로 처리하는 멀티모달 AI 기술이 핵심이다.

‘Raon-Speech’는 90억 파라미터 규모의 음성 언어 모델로, 음성 이해와 생성 기능을 동시에 지원한다. 음성 인식과 합성, 질의응답 등 7개 핵심 태스크와 40개 벤치마크 평가에서 영어와 한국어 모두 글로벌 1위 성능을 기록하며 기술력을 입증했다.

‘Raon-SpeechChat’은 실시간 양방향 통신이 가능한 음성 대화 모델로, 대화 중 끼어들기와 맞장구, 응답 지연 최소화 등 자연스러운 상호작용을 구현했다. 국내 최초의 풀 듀플렉스 음성 모델로, 주요 평가 지표에서 글로벌 최상위권 성능을 보였다.

‘Raon-OpenTTS’는 공개 음성 데이터 기반으로 학습된 텍스트-음성 변환 모델이다. 학습 데이터와 처리 과정을 함께 공개해 재현 가능성을 높였으며, 음성 자연스러움 평가에서도 글로벌 연구 모델과 비교해 최고 수준의 결과를 기록했다.

‘Raon-VisionEncoder’는 이미지를 AI가 이해 가능한 정보로 변환하는 모델로, 사전 학습 모델 없이 공개 데이터만으로 처음부터 학습됐다. 일부 시각 인식 성능에서 글로벌 모델을 상회하며 경쟁력을 입증했다.

이강욱 크래프톤 CAIO는 "이번 Raon 모델 시리즈 공개는 AI 기술 역량을 축적해 나가는 과정의 중요한 이정표"라며, "대규모 학습 데이터와 핵심 모델을 오픈소스로 공유해 연구자와 개발자들이 자유롭게 활용할 수 있도록 하고, 멀티모달 기술 발전과 국내 AI 생태계의 성장에 기여하기를 기대한다"고 밝혔다.

Search