KPI뉴스 - 아마존, 세계 최대 음성 데이터 세트 공개

  • 흐림북창원22.8℃
  • 흐림수원26.2℃
  • 흐림임실21.4℃
  • 흐림광양시19.9℃
  • 흐림영주23.6℃
  • 구름많음인천24.8℃
  • 흐림여수19.7℃
  • 흐림봉화22.0℃
  • 흐림천안25.6℃
  • 흐림서청주25.1℃
  • 흐림울릉도18.5℃
  • 흐림진주20.2℃
  • 흐림정읍22.8℃
  • 비부산19.7℃
  • 흐림장흥19.9℃
  • 흐림함양군21.5℃
  • 흐림원주26.7℃
  • 흐림보성군20.1℃
  • 구름많음양평26.1℃
  • 흐림순천18.7℃
  • 구름많음인제21.5℃
  • 구름많음이천26.8℃
  • 흐림강진군20.3℃
  • 흐림의성22.8℃
  • 흐림장수21.6℃
  • 흐림합천22.6℃
  • 비흑산도18.4℃
  • 흐림동해18.7℃
  • 구름많음세종25.5℃
  • 흐림울산19.7℃
  • 비제주20.8℃
  • 흐림보은23.4℃
  • 흐림고창21.4℃
  • 흐림구미23.2℃
  • 흐림북부산22.1℃
  • 구름많음강화24.3℃
  • 흐림제천24.3℃
  • 흐림군산22.0℃
  • 흐림고흥19.8℃
  • 흐림북강릉18.3℃
  • 흐림금산22.5℃
  • 비창원20.3℃
  • 흐림목포21.0℃
  • 흐림남원21.8℃
  • 흐림거창21.1℃
  • 흐림통영20.0℃
  • 흐림정선군21.5℃
  • 흐림태백16.3℃
  • 흐림울진18.3℃
  • 흐림상주24.0℃
  • 흐림보령22.7℃
  • 흐림광주21.8℃
  • 흐림남해20.1℃
  • 흐림진도군20.7℃
  • 흐림양산시22.5℃
  • 흐림경주시20.5℃
  • 흐림문경23.6℃
  • 구름많음부여24.3℃
  • 흐림의령군21.7℃
  • 흐림대관령14.5℃
  • 흐림서산24.0℃
  • 흐림추풍령22.0℃
  • 흐림속초19.4℃
  • 구름많음파주27.8℃
  • 흐림밀양23.4℃
  • 흐림거제19.1℃
  • 흐림산청19.9℃
  • 흐림북춘천27.6℃
  • 구름많음서울26.4℃
  • 흐림고창군22.1℃
  • 흐림강릉19.3℃
  • 흐림순창군21.6℃
  • 맑음백령도20.9℃
  • 흐림영광군21.3℃
  • 흐림영월25.4℃
  • 소나기전주23.1℃
  • 흐림포항20.5℃
  • 흐림성산20.1℃
  • 구름많음철원26.8℃
  • 비서귀포20.7℃
  • 흐림영천20.3℃
  • 흐림홍성24.8℃
  • 흐림해남20.6℃
  • 구름많음동두천27.9℃
  • 구름많음홍천26.9℃
  • 흐림영덕18.8℃
  • 흐림고산20.2℃
  • 구름많음충주25.6℃
  • 흐림김해시21.6℃
  • 흐림청송군21.0℃
  • 흐림완도20.4℃
  • 흐림대구21.4℃
  • 흐림부안23.3℃
  • 흐림청주25.9℃
  • 흐림안동23.2℃
  • 흐림춘천27.7℃
  • 흐림대전24.0℃

아마존, 세계 최대 음성 데이터 세트 공개

김들풀
기사승인 : 2019-04-03 09:24:49
9월 17일 '토피칼 챗(Topical Chat)' 공개
"410만개 단어, 21만건 주제별 채팅 데이터"

아마존이 400만 개 이상의 단어로 구성된 음성대화 데이터 세트 '토피칼 챗(Topical Chat)'을 일반에 공개할 예정이다.

아마존 수석 연구원인 딜렉 하카니-터(Dilek Hakkani-Tur)는 아마존 공식 블로그를 통해 "오는 9월 17일(현지시간) 일반에 공개할 '토피칼 챗'은 410만 단어 이상, 21만  건의 주제별 채팅 데이터로 구성되어 있다"고 밝혔다. 

 

▲ 인공지능 음성인식 알렉사가 내장된 제품들 [아마존]

'토피칼 챗'은 오는 9월 9일 아마존이 주최하는 대학생 대회 '알렉사 프리즈 소셜봇 그랜드 챌린지 3(Alexa Prize Socialbot Grand Challenge 3)'을 위해 개발된 것이다.

이 대회 출전팀은 '토피칼 챗'과 확장 데이터 세트(Extended Topical Chat Data Set)에 액세스할 수 있다.

'토피칼 챗'은 대회 직후 곧바로 공개될 예정이다.

딜렉 하카니-터는 "'토피칼 챗'은 아마존 알렉사 사용자와 상호작용이 아니라 크라우드(crowd) 작업자에서 제공된 지식"이라며, "토피칼 챗에 수록된 대화 주제와 지식은 비정형 구조의 데이터 세트다"고 설명했다.

이어 "'토피칼 챗'은 공개된 데이터 세트 중에서도 가장 큰 지식을 포함하고 있다. 지금까지 데이터 세트에서 해결할 수 없는 자연스러운 대화를 만들어 낼 수 있다"고 말했다.

KPI뉴스 / 김들풀 전문기자 itnews@kpinews.kr

 

[저작권자ⓒ KPI뉴스. 무단전재-재배포 금지]