KPI뉴스 - 엔씨소프트-고려대, AI 대화 데이터셋 공개한다

  • 흐림창원20.3℃
  • 구름많음영주22.9℃
  • 흐림울진18.0℃
  • 흐림성산20.3℃
  • 흐림여수19.6℃
  • 맑음인천25.5℃
  • 구름많음속초18.9℃
  • 비제주21.3℃
  • 흐림부안21.4℃
  • 흐림흑산도18.3℃
  • 흐림군산22.8℃
  • 흐림영덕18.5℃
  • 흐림대구21.2℃
  • 흐림청주25.9℃
  • 흐림남해19.6℃
  • 구름많음이천27.3℃
  • 구름많음홍천25.4℃
  • 구름많음홍성25.3℃
  • 구름많음구미22.9℃
  • 비울릉도17.7℃
  • 구름많음서청주24.8℃
  • 구름많음부여24.0℃
  • 흐림순천18.7℃
  • 흐림고산20.2℃
  • 맑음춘천27.8℃
  • 흐림완도19.8℃
  • 구름많음문경23.3℃
  • 흐림거창21.0℃
  • 흐림추풍령21.5℃
  • 흐림양산시21.8℃
  • 구름많음서울26.0℃
  • 흐림광양시19.8℃
  • 맑음파주26.9℃
  • 구름많음천안26.0℃
  • 흐림해남20.5℃
  • 흐림북부산21.5℃
  • 흐림강릉19.0℃
  • 구름많음보은23.1℃
  • 구름많음안동22.0℃
  • 흐림청송군20.6℃
  • 맑음동두천26.9℃
  • 흐림남원21.8℃
  • 구름많음영월24.5℃
  • 흐림울산19.4℃
  • 흐림대관령14.6℃
  • 구름많음인제22.2℃
  • 구름많음봉화20.7℃
  • 흐림영천20.3℃
  • 흐림북창원22.3℃
  • 흐림정선군20.1℃
  • 흐림동해18.5℃
  • 구름많음대전24.2℃
  • 흐림김해시21.1℃
  • 흐림장수21.3℃
  • 구름많음철원25.3℃
  • 맑음서산24.1℃
  • 맑음백령도21.1℃
  • 흐림제천23.6℃
  • 흐림강진군20.2℃
  • 흐림밀양23.0℃
  • 흐림보성군20.1℃
  • 흐림임실21.0℃
  • 맑음강화24.7℃
  • 구름많음의성22.9℃
  • 흐림진도군20.4℃
  • 흐림진주20.2℃
  • 흐림산청19.8℃
  • 흐림태백15.7℃
  • 흐림함양군21.1℃
  • 흐림의령군21.6℃
  • 흐림영광군21.2℃
  • 구름많음충주25.3℃
  • 흐림합천22.2℃
  • 흐림경주시20.4℃
  • 흐림고흥19.6℃
  • 흐림전주22.8℃
  • 흐림금산22.5℃
  • 흐림부산19.5℃
  • 구름많음양평26.5℃
  • 흐림거제19.0℃
  • 흐림포항20.0℃
  • 흐림북강릉18.5℃
  • 구름많음보령22.4℃
  • 흐림순창군22.0℃
  • 구름많음수원26.1℃
  • 흐림원주25.9℃
  • 흐림고창군22.0℃
  • 흐림장흥19.9℃
  • 흐림통영19.5℃
  • 구름많음상주23.5℃
  • 흐림정읍22.1℃
  • 흐림목포20.9℃
  • 흐림광주21.8℃
  • 구름많음세종25.0℃
  • 비서귀포20.6℃
  • 흐림고창21.5℃
  • 맑음북춘천28.0℃

엔씨소프트-고려대, AI 대화 데이터셋 공개한다

김해욱
기사승인 : 2022-04-14 15:12:25
임희석 교수 연구팀과 공동연구 진행 엔씨소프트가 임희선 고려대학교 교수 연구팀과 공동으로 구축한 AI(인공지능) 대화 데이터 '포커스 데이터셋(FoCus Dataset, For Customized conversation dataset)을 공개했다고 14일 밝혔다.

포커스 데이터셋은 이용자 개인의 페르소나(지혜와 자유의사를 갖는 독립된 인격적 실체)와 외부 지식 모두를 활용하는 세계 최초의 AI 대화 데이터셋이다. 약 8000여 개의 주제를 다룬 1만5000개 이상의 대화로 구성됐다.

▲ 엔씨소프트와 임희석 고려대학교 교수 연구팀이 공동개발한 'FoCus Dataset'(For Customized conversation dataset)의 대화 방식 참고 이미지. [엔씨소프트 제공]

이 데이터셋이 적용된 AI는 대화하는 이용자의 경험, 선호, 소유, 흥미 등을 파악해 위키피디아와 같은 곳에서 이야기 중인 주제에 대해 최신 지식을 실시간으로 습득, 관련 대화가 자연스럽게 이어지도록 한다.

엔씨소프트는 "기존의 일반적인 대용량 언어모델은 학습, 추론에 상당한 비용이 소요됨에도 실시간 지식을 반영하는 것에 한계가 있다"며 "포커스데이터셋은 이러한 거대 언어 모델 없이도 같은 성능의 대화 기술 구현이 가능한 것이 특징"이라고 설명했다.

엔씨소프트와 고려대 공동연구팀은 지난 2월 인공지능 학회 'AAAI 2022'에 참가해 관련 연구 논물을 게재하고 발표한 바 있다. 올해  10월에는 세계 전사언어학회 'COLING 2022'에서 데이터 활용 경진 대회 등의 연구 성과를 공유하는 워크샵을 개최할 예정이다.

이연수 엔씨소프트 랭귀지 에이랩(Language AI Lab) 실장은 "최근 NLP(Language AI Lab) 학계에서는 비용 및 환경 문제로 초거대 언어모델 기반의 대화 기술에 필적할 대화 기술들이 제안되고 있다"며 "연구 방향에 공감하는 차원에서 이번 데이터 공개를 결정했고 글로벌 연구 커뮤니티에서 활발한 논의와 기술 개발이 이뤄지길 기대한다"고 말했다.

KPI뉴스 / 김해욱 기자 hwk1990@kpinews.kr

[저작권자ⓒ KPI뉴스. 무단전재-재배포 금지]

김해욱
김해욱

기자의 인기기사