KPI뉴스 - 카카오 AI, 한국어 독해 능력 인간보다 앞서

  • 흐림속초20.9℃
  • 구름많음광주13.5℃
  • 구름많음산청10.3℃
  • 구름많음합천11.4℃
  • 흐림홍천11.2℃
  • 구름많음수원11.5℃
  • 흐림양평11.8℃
  • 흐림인제11.8℃
  • 구름많음구미11.9℃
  • 흐림태백13.2℃
  • 흐림부여9.8℃
  • 흐림세종11.2℃
  • 흐림북춘천11.0℃
  • 구름많음해남8.3℃
  • 구름많음인천14.4℃
  • 구름많음남원10.9℃
  • 구름많음영월9.6℃
  • 구름많음봉화8.2℃
  • 흐림금산9.3℃
  • 흐림영주11.6℃
  • 흐림천안9.6℃
  • 구름많음부산16.0℃
  • 구름많음진도군9.7℃
  • 흐림정선군10.7℃
  • 구름많음정읍11.2℃
  • 구름많음영광군11.5℃
  • 구름많음북창원12.6℃
  • 맑음고창12.4℃
  • 구름많음서청주9.8℃
  • 흐림강릉19.9℃
  • 구름많음북부산10.5℃
  • 흐림서산12.0℃
  • 구름많음문경12.1℃
  • 흐림울산12.9℃
  • 흐림추풍령9.1℃
  • 흐림홍성10.9℃
  • 구름많음영덕12.5℃
  • 흐림진주9.5℃
  • 구름많음순창군10.5℃
  • 구름많음울릉도16.8℃
  • 흐림북강릉18.6℃
  • 맑음장흥8.5℃
  • 맑음영천10.9℃
  • 맑음통영12.7℃
  • 구름많음대전11.7℃
  • 맑음남해12.1℃
  • 구름많음동두천11.1℃
  • 구름많음목포13.6℃
  • 흐림이천11.1℃
  • 구름많음거창9.4℃
  • 맑음대구14.4℃
  • 구름많음부안12.2℃
  • 구름많음광양시12.6℃
  • 구름많음완도11.3℃
  • 구름많음양산시11.6℃
  • 구름많음철원10.3℃
  • 흐림백령도12.3℃
  • 흐림춘천11.5℃
  • 구름많음창원12.7℃
  • 흐림군산11.2℃
  • 흐림의령군9.7℃
  • 흐림제천8.6℃
  • 구름많음동해17.0℃
  • 맑음성산15.1℃
  • 맑음거제11.7℃
  • 구름많음강화11.3℃
  • 구름많음서울14.1℃
  • 구름많음서귀포16.6℃
  • 구름많음임실8.7℃
  • 맑음울진15.2℃
  • 구름많음의성9.5℃
  • 맑음김해시12.1℃
  • 구름많음고창군10.6℃
  • 구름많음고흥9.2℃
  • 맑음여수13.5℃
  • 맑음순천7.4℃
  • 구름많음청주14.8℃
  • 구름많음상주11.9℃
  • 구름많음전주12.2℃
  • 구름많음보성군10.3℃
  • 구름많음충주10.8℃
  • 구름많음장수8.1℃
  • 흐림흑산도12.1℃
  • 흐림보은9.6℃
  • 구름많음청송군8.3℃
  • 흐림대관령11.8℃
  • 구름많음고산14.5℃
  • 구름많음강진군10.0℃
  • 구름많음파주9.1℃
  • 흐림원주13.0℃
  • 구름많음경주시11.5℃
  • 구름많음안동11.7℃
  • 구름많음함양군9.2℃
  • 구름많음제주13.3℃
  • 흐림보령14.8℃
  • 흐림밀양11.5℃
  • 맑음포항16.7℃

카카오 AI, 한국어 독해 능력 인간보다 앞서

김들풀
기사승인 : 2019-01-31 19:44:53
LG CNS가 운영하는 기계 독해 능력 평가에서 1위 기록
카카오 자체 개발 AI 언어모델 한국어 학습 데이터 'KorQuAD'

카카오가 자체 개발한 AI 언어모델 한국어 학습 데이터 'KorQuAD(The Korean Question Answering Dataset)'가 LG CNS가 주최한 기계 독해 능력 평가에서 91.85점을 받으며 1위를 차지했다. 


LG CNS가 인간의 문장 판별 및 독해 능력 수준(Human Performance)이라고 밝힌 91.20점보다 0.65점 높은 수치로, AI가 인간보다 높은 점수를 기록한 것은 처음이다.

LG CNS가 운영하는 기계 독해 능력 평가는 미국 스탠포드 대학에서 시작된 AI 언어지능 연구용 질의응답 학습 데이터셋인 SQuAD(The Stanford Question Answering Dataset)와 동일한 방식으로 구현된다.

LG CNS는 지난해 12월 한국어 학습을 위한 데이터인 KorQuAD를 구축해 오픈소스로 공개했으며, 누구나 이를 바탕으로 학습한 자체 개발 AI 언어모델을 제출해 성능을 공식 평가 받을 수 있다.

 

▲ LG CNS

평가는 데이터셋에서 추출한 내용을 질문으로 제시하고, 이에 대해 개발 모델이 답을 찾아내는 방식으로 이루어진다.

예를 들어 "아이유는 1993년 5월 16일 서울특별시에서 태어났으며, 경기도 하남시와 의정부시를 거쳐 서울특별시 광진구에서 자랐다. 초등학교는 하남시의 하남천현초등학교에서 3학년까지 다니다가 서울 광진구의 서울양남초등학교로 전학가 졸업하였다"와 같은 지문이 주어지고, "아이유가 졸업한 초등학교는 어디인가?"라는 질문에 대해 "서울양남초등학교"라는 정답을 찾아내는 식이다.

이번에 평가받은 카카오의 AI 언어모델(모델명: BERT LM fine-tuned (single) + KHAIII)은 구글의 AI 언어모델 BERT(Bidirectional Encoder Representations from Transformers)에 카카오의 형태소 분석기 'khaiii(Kakao Hangul Analyzer III)’를 접목한 것으로 조사의 사용과 어미의 다양한 변형 등 한국어의 고유 특성에 최적화된 것이다.

카카오는 지난해 말 딥러닝 기술 기반의 형태소 분석기 khaiii를 국내 최초 오픈소스로 제공해 국내 AI 기반 언어지능 연구 발전을 위해 노력하고 있다.

카카오 자연어처리파트의 김응균 파트장은 "이번 평가 결과는 카카오의 인공지능 자연어 처리 기술을 활용해 인간의 독해 능력을 넘어서는 최초의 모델을 구현했다는 점에서 높이 평가받을 만 하다"며 "금번 개발한 언어모델 기술을 스마트 스피커 카카오미니에 적용하기 위한 연구를 진행 중"이라고 밝혔다.

KPI뉴스 / 김들풀 전문기자 itnews@kpinews.kr

[저작권자ⓒ KPI뉴스. 무단전재-재배포 금지]