뉴스
산업 분류

로벌 AI 순위표에 한국 LLM 집결.. 네이버 추론 AI 첫 등재, ‘국가대표 AI’ 경쟁 본격화

작성자 정보

  • 작성일

컨텐츠 정보

본문

a63d97e3bb47ecddddb44171efaa5087_1767074721_2479.webp
 

- 네이버 ‘하이퍼클로바X 추론 모델’, 첫 등재부터 국내 상위권


가장 눈에 띄는 변화는 네이버클라우드다. 네이버가 새롭게 공개한 하이퍼클로바X 기반 고성능 추론 모델은 지능 지수 44점을 기록했다. 국내 모델 가운데서는 모티프테크놀로지스의 ‘모티프 12.7B’(45점)에 이어 두 번째다.


특히 주목할 점은 네이버 모델이 이번에 처음으로 글로벌 종합 지표에 이름을 올렸다는 점이다. 그동안 국내 LLM들은 개별 벤치마크 성과나 연구 결과 위주로 소개돼 왔지만, 이번에는 여러 평가를 묶은 지능 지수에서 다른 글로벌 모델들과 직접 비교됐다.


지능 지수는 단일 시험이 아니다. MMLU-Pro, GPQA Diamond, Humanity’s Last Exam, LiveCodeBench, IFBench, 여기에 통신사 고객 응대 시나리오를 평가하는 τ²-Bench Telecom까지 총 10개 평가를 종합한 결과다. 단순 지식량보다 실제 업무 수행 능력과 추론력, 에이전트 활용 가능성을 더 중점적으로 본다.


- 통신 벤치마크 87%, ‘에이전트형 AI’ 가능성 확인


네이버 추론 모델이 특히 강점을 보인 항목은 τ²-Bench Telecom이다. 통신사 고객 지원 상황을 가정해 문제 이해와 툴 활용 능력을 평가하는 이 항목에서 네이버 모델은 87%를 기록했다. 국내 AI 모델 가운데 최고 점수다.


이 평가는 단순히 질문에 답하는 수준을 넘어서, 상황을 파악하고 도구를 활용해 문제를 해결할 수 있는지를 본다. 네이버 모델이 텍스트 생성 중심의 AI를 넘어 실제 서비스에 투입될 수 있는 가능성을 보여줬다는 평가가 나오는 이유다.


업계에서는 네이버가 추론 AI와 옴니모달 전략을 동시에 밀고 있다는 점에 주목한다. 텍스트, 이미지, 음성을 따로 처리하는 멀티모달을 넘어서, 처음부터 여러 정보를 함께 이해하고 행동으로 이어지는 구조를 노리고 있다는 분석이다.


- 국내 AI 4파전, 점수보다 중요한 건 ‘방향성’


이번 지능 지수에는 국내 주요 AI 모델들이 나란히 이름을 올렸다. 모티프 12.7B가 45점으로 국내 최고점을 기록했고, 네이버가 44점, LG AI연구원의 엑사원 4.0이 43점, 업스테이지의 솔라 프로2가 38점을 받았다.


점수 차이는 크지 않지만, 각 모델이 바라보는 방향은 분명히 다르다.


모티프는 비교적 작은 파라미터 규모에서도 안정적인 추론 성능을 보여줬고, 엑사원은 연구 중심의 범용 지능을 강조한다. 솔라는 경량화와 실사용 최적화에 초점을 맞췄다. 네이버는 여기에 에이전트 활용과 옴니모달 확장을 전면에 내세우고 있다.


글로벌 최상위권은 여전히 구글과 오픈AI가 차지했다. 구글의 제미나이 3 프로와 오픈AI의 챗GPT 5.0은 각각 73점으로 공동 1위다. 한국 모델과의 격차는 분명하지만, 같은 순위표에 나란히 올랐다는 점 자체가 이전과는 다른 장면이다.


- ‘국가대표 AI’ 선발전, 이제는 전략 싸움


이번 순위 공개는 단순한 기술 경쟁 결과가 아니다. 국가대표 AI 선발전을 앞두고, 어떤 모델이 글로벌 기준에 가장 가까운지를 가늠할 수 있는 실질적인 참고 자료가 됐다.


.. 후략 ..


관련자료

댓글 0
등록된 댓글이 없습니다.
전체 5,293 / 1 페이지
번호
제목
알림 0