KPI뉴스 - 엔씨소프트-고려대, AI 대화 데이터셋 공개한다

  • 맑음동해18.2℃
  • 흐림진주19.8℃
  • 흐림목포20.5℃
  • 흐림고산19.9℃
  • 비서귀포20.2℃
  • 구름많음의성22.5℃
  • 흐림장흥20.2℃
  • 맑음제천23.5℃
  • 흐림고흥19.4℃
  • 구름많음추풍령20.7℃
  • 흐림순창군21.2℃
  • 흐림함양군20.8℃
  • 흐림고창21.4℃
  • 흐림순천18.7℃
  • 흐림강진군20.2℃
  • 흐림부산19.5℃
  • 구름많음대전23.8℃
  • 흐림해남20.3℃
  • 흐림영광군20.6℃
  • 흐림광양시19.6℃
  • 흐림남해19.8℃
  • 맑음강화22.9℃
  • 흐림홍천20.6℃
  • 맑음인제20.5℃
  • 흐림합천21.7℃
  • 구름많음영덕18.1℃
  • 흐림장수20.7℃
  • 흐림금산22.6℃
  • 구름많음봉화19.4℃
  • 맑음파주25.6℃
  • 흐림울산19.3℃
  • 구름많음울진17.7℃
  • 맑음대관령14.1℃
  • 맑음양평25.7℃
  • 흐림보성군20.1℃
  • 흐림산청19.7℃
  • 흐림양산시21.6℃
  • 흐림구미22.4℃
  • 비제주21.0℃
  • 구름많음상주22.3℃
  • 흐림북창원22.0℃
  • 맑음속초18.9℃
  • 흐림의령군21.3℃
  • 흐림성산20.4℃
  • 흐림부안21.4℃
  • 흐림밀양22.3℃
  • 흐림영천19.8℃
  • 맑음영월23.2℃
  • 맑음충주24.8℃
  • 구름많음홍성24.0℃
  • 흐림김해시20.7℃
  • 흐림진도군20.1℃
  • 구름많음영주21.4℃
  • 맑음서울25.8℃
  • 흐림군산22.0℃
  • 흐림고창군21.8℃
  • 맑음원주25.9℃
  • 흐림흑산도18.1℃
  • 흐림임실21.0℃
  • 흐림여수19.7℃
  • 구름많음문경22.4℃
  • 흐림남원21.6℃
  • 흐림창원20.0℃
  • 구름많음천안24.6℃
  • 맑음북강릉18.2℃
  • 흐림대구20.8℃
  • 흐림철원23.9℃
  • 맑음백령도20.5℃
  • 맑음수원25.4℃
  • 구름많음세종24.0℃
  • 흐림거제19.0℃
  • 구름많음서산23.6℃
  • 구름많음정선군19.2℃
  • 소나기북춘천25.2℃
  • 맑음인천24.2℃
  • 구름많음청주25.7℃
  • 구름많음안동21.7℃
  • 맑음강릉19.0℃
  • 구름많음보령21.7℃
  • 구름많음청송군19.7℃
  • 흐림정읍21.4℃
  • 흐림통영19.1℃
  • 맑음이천25.8℃
  • 흐림전주22.5℃
  • 구름많음보은22.4℃
  • 흐림경주시19.9℃
  • 흐림완도19.4℃
  • 구름많음부여22.9℃
  • 구름많음서청주24.4℃
  • 흐림포항19.4℃
  • 흐림북부산21.1℃
  • 흐림광주21.7℃
  • 구름많음태백15.0℃
  • 구름많음울릉도17.2℃
  • 구름많음춘천25.3℃
  • 구름많음동두천25.6℃
  • 흐림거창20.7℃

엔씨소프트-고려대, AI 대화 데이터셋 공개한다

김해욱
기사승인 : 2022-04-14 15:12:25
임희석 교수 연구팀과 공동연구 진행 엔씨소프트가 임희선 고려대학교 교수 연구팀과 공동으로 구축한 AI(인공지능) 대화 데이터 '포커스 데이터셋(FoCus Dataset, For Customized conversation dataset)을 공개했다고 14일 밝혔다.

포커스 데이터셋은 이용자 개인의 페르소나(지혜와 자유의사를 갖는 독립된 인격적 실체)와 외부 지식 모두를 활용하는 세계 최초의 AI 대화 데이터셋이다. 약 8000여 개의 주제를 다룬 1만5000개 이상의 대화로 구성됐다.

▲ 엔씨소프트와 임희석 고려대학교 교수 연구팀이 공동개발한 'FoCus Dataset'(For Customized conversation dataset)의 대화 방식 참고 이미지. [엔씨소프트 제공]

이 데이터셋이 적용된 AI는 대화하는 이용자의 경험, 선호, 소유, 흥미 등을 파악해 위키피디아와 같은 곳에서 이야기 중인 주제에 대해 최신 지식을 실시간으로 습득, 관련 대화가 자연스럽게 이어지도록 한다.

엔씨소프트는 "기존의 일반적인 대용량 언어모델은 학습, 추론에 상당한 비용이 소요됨에도 실시간 지식을 반영하는 것에 한계가 있다"며 "포커스데이터셋은 이러한 거대 언어 모델 없이도 같은 성능의 대화 기술 구현이 가능한 것이 특징"이라고 설명했다.

엔씨소프트와 고려대 공동연구팀은 지난 2월 인공지능 학회 'AAAI 2022'에 참가해 관련 연구 논물을 게재하고 발표한 바 있다. 올해  10월에는 세계 전사언어학회 'COLING 2022'에서 데이터 활용 경진 대회 등의 연구 성과를 공유하는 워크샵을 개최할 예정이다.

이연수 엔씨소프트 랭귀지 에이랩(Language AI Lab) 실장은 "최근 NLP(Language AI Lab) 학계에서는 비용 및 환경 문제로 초거대 언어모델 기반의 대화 기술에 필적할 대화 기술들이 제안되고 있다"며 "연구 방향에 공감하는 차원에서 이번 데이터 공개를 결정했고 글로벌 연구 커뮤니티에서 활발한 논의와 기술 개발이 이뤄지길 기대한다"고 말했다.

KPI뉴스 / 김해욱 기자 hwk1990@kpinews.kr

[저작권자ⓒ KPI뉴스. 무단전재-재배포 금지]

김해욱
김해욱

기자의 인기기사