KPI뉴스 - 아마존, 세계 최대 음성 데이터 세트 공개

  • 비서귀포20.8℃
  • 흐림서청주25.2℃
  • 흐림문경23.5℃
  • 흐림진주20.6℃
  • 흐림속초19.4℃
  • 비부산20.3℃
  • 흐림청송군22.9℃
  • 흐림춘천27.7℃
  • 비여수20.2℃
  • 흐림홍성24.8℃
  • 흐림추풍령22.7℃
  • 흐림영덕19.1℃
  • 흐림합천22.9℃
  • 비울릉도19.2℃
  • 흐림태백19.5℃
  • 흐림북춘천27.5℃
  • 흐림임실23.4℃
  • 흐림의령군22.2℃
  • 흐림순창군22.6℃
  • 흐림동해19.4℃
  • 흐림산청20.5℃
  • 흐림금산25.2℃
  • 비광주21.4℃
  • 흐림영월25.2℃
  • 흐림보령22.5℃
  • 흐림영천21.1℃
  • 흐림고창군22.7℃
  • 흐림경주시20.9℃
  • 흐림강릉19.8℃
  • 구름많음강화25.7℃
  • 흐림세종24.4℃
  • 흐림김해시22.1℃
  • 흐림강진군20.7℃
  • 흐림남원23.5℃
  • 흐림창원21.4℃
  • 흐림거제20.3℃
  • 흐림고흥19.8℃
  • 비목포21.1℃
  • 흐림영주23.2℃
  • 비제주21.4℃
  • 흐림울산21.1℃
  • 흐림함양군22.5℃
  • 흐림군산23.5℃
  • 흐림광양시20.0℃
  • 흐림파주27.4℃
  • 흐림인제25.3℃
  • 흐림보성군20.5℃
  • 흐림이천26.9℃
  • 흐림정선군24.5℃
  • 흐림부안23.8℃
  • 흐림대구22.3℃
  • 흐림제천24.4℃
  • 흐림장흥20.4℃
  • 구름많음동두천27.2℃
  • 흐림해남21.1℃
  • 흐림장수22.6℃
  • 흐림거창21.3℃
  • 흐림대전24.7℃
  • 흐림수원27.4℃
  • 비흑산도19.2℃
  • 흐림밀양23.9℃
  • 구름많음철원27.7℃
  • 흐림북부산22.8℃
  • 흐림성산20.7℃
  • 흐림영광군21.5℃
  • 흐림봉화22.9℃
  • 흐림북창원22.3℃
  • 흐림양산시23.2℃
  • 흐림상주24.1℃
  • 구름많음인천26.5℃
  • 구름많음홍천27.1℃
  • 흐림전주24.2℃
  • 흐림천안25.4℃
  • 흐림안동23.7℃
  • 흐림북강릉19.6℃
  • 흐림원주27.2℃
  • 흐림진도군20.5℃
  • 흐림구미24.0℃
  • 흐림완도21.4℃
  • 흐림대관령15.6℃
  • 흐림부여24.0℃
  • 흐림청주25.7℃
  • 흐림남해20.2℃
  • 구름많음양평26.7℃
  • 흐림울진19.3℃
  • 구름많음백령도24.6℃
  • 구름많음서울27.9℃
  • 흐림고창21.8℃
  • 흐림포항20.6℃
  • 흐림정읍23.3℃
  • 흐림서산24.6℃
  • 흐림보은23.5℃
  • 흐림충주26.1℃
  • 흐림통영21.1℃
  • 흐림순천19.2℃
  • 흐림고산20.7℃
  • 흐림의성24.2℃

아마존, 세계 최대 음성 데이터 세트 공개

김들풀
기사승인 : 2019-04-03 09:24:49
9월 17일 '토피칼 챗(Topical Chat)' 공개
"410만개 단어, 21만건 주제별 채팅 데이터"

아마존이 400만 개 이상의 단어로 구성된 음성대화 데이터 세트 '토피칼 챗(Topical Chat)'을 일반에 공개할 예정이다.

아마존 수석 연구원인 딜렉 하카니-터(Dilek Hakkani-Tur)는 아마존 공식 블로그를 통해 "오는 9월 17일(현지시간) 일반에 공개할 '토피칼 챗'은 410만 단어 이상, 21만  건의 주제별 채팅 데이터로 구성되어 있다"고 밝혔다. 

 

▲ 인공지능 음성인식 알렉사가 내장된 제품들 [아마존]

'토피칼 챗'은 오는 9월 9일 아마존이 주최하는 대학생 대회 '알렉사 프리즈 소셜봇 그랜드 챌린지 3(Alexa Prize Socialbot Grand Challenge 3)'을 위해 개발된 것이다.

이 대회 출전팀은 '토피칼 챗'과 확장 데이터 세트(Extended Topical Chat Data Set)에 액세스할 수 있다.

'토피칼 챗'은 대회 직후 곧바로 공개될 예정이다.

딜렉 하카니-터는 "'토피칼 챗'은 아마존 알렉사 사용자와 상호작용이 아니라 크라우드(crowd) 작업자에서 제공된 지식"이라며, "토피칼 챗에 수록된 대화 주제와 지식은 비정형 구조의 데이터 세트다"고 설명했다.

이어 "'토피칼 챗'은 공개된 데이터 세트 중에서도 가장 큰 지식을 포함하고 있다. 지금까지 데이터 세트에서 해결할 수 없는 자연스러운 대화를 만들어 낼 수 있다"고 말했다.

KPI뉴스 / 김들풀 전문기자 itnews@kpinews.kr

 

[저작권자ⓒ KPI뉴스. 무단전재-재배포 금지]