
이번에 공개한 모델은 '라온-스피치', '라온-스피치챗', '라온-오픈TTS', '라온-비전인코더'이다. 허깅페이스는 전 세계 개발자와 연구자들이 AI 모델, 데이터셋, 데모 앱을 공유하고 협업하는 오픈소스 플랫폼이다. 따라서 라온은 누구든 다운받을 수 있다.
라온-스피치는 90억 파라미터(9B) 규모의 음성 언어 모델이다. 9B 모델이면 24GB 이상(엔비디아 RTX 3090·4090, 애플 실리콘 모델 통합 메모리 16GB 이상) 모델에서 구동이 가능하며, Q5~Q6 양자화를 할 경우 RTX 3060(12GB VRAM), 4070 등에서 구동 가능하다. Q3~Q4 양자화를 할 경우 RTX 3060/4060(8GB)에서도 구동은 가능하지만 시스템 RAM을 빌려쓰므로 속도가 느려진다.
라온-스피치챗은 사용자와 모델이 대화 중 자유롭게 끼어들 수 있는 실시간 양방향 음성 언어 모델이다. 라온-오픈TTS는 공개 음성 데이터만으로 학습한 TTS 모델로, 전체 학습 데이터를 오픈소스로 공개해 누구나 동일 환경에서 학습을 재현할 수 있도록 했다.
라온-비전인코더는 이미지를 AI가 이해 가능한 정보로 변환하는 모델로, 공개 데이터만 활용해 처음부터 자체 학습했으며 일부 태스크에서 구글의 대표 비전 인코더 모델을 상회하는 성능을 보였다고 크래프톤 측은 설명했다.
크래프톤 이강욱 CAIO(최고AI책임자)는 "이번 라온 모델 시리즈 공개는 AI 기술 역량을 축적해 나가는 과정의 중요한 이정표"라며 "대규모 학습 데이터와 핵심 모델을 오픈소스로 공유해 멀티모달 기술 발전과 국내 AI 생태계 성장에 기여하기를 기대한다"고 말했다.
한편 크래프톤은 앞서 개인용 AI 비서 키라(KIRA)를 선보이고, 지난달에는 AI 에이전트 성능을 개선하는 'Terminus-KIRA' 기술을 오픈소스로 공개한 바 있다.
<저작권자 © 마니아타임즈, 무단 전재 및 재배포 금지>
