KPI뉴스 - 아마존, 세계 최대 음성 데이터 세트 공개

  • 구름많음해남8.7℃
  • 구름많음대구16.4℃
  • 구름많음청송군10.1℃
  • 구름많음전주13.5℃
  • 구름많음태백12.6℃
  • 맑음여수14.3℃
  • 맑음김해시13.2℃
  • 흐림북강릉18.9℃
  • 구름많음충주12.1℃
  • 흐림인제13.7℃
  • 맑음울산14.4℃
  • 구름많음진도군10.4℃
  • 흐림원주14.3℃
  • 흐림임실10.3℃
  • 맑음서귀포15.4℃
  • 구름많음백령도14.2℃
  • 흐림순창군11.9℃
  • 구름많음광양시13.4℃
  • 맑음보성군10.2℃
  • 맑음보은10.8℃
  • 흐림강릉21.1℃
  • 흐림정선군11.1℃
  • 구름많음구미14.0℃
  • 구름많음홍천12.5℃
  • 맑음세종12.7℃
  • 맑음밀양12.3℃
  • 구름많음홍성12.5℃
  • 흐림제천10.1℃
  • 구름많음서울15.8℃
  • 맑음서청주11.1℃
  • 구름많음철원11.7℃
  • 맑음울진17.3℃
  • 맑음서산13.9℃
  • 맑음북창원14.3℃
  • 맑음문경15.2℃
  • 맑음청주15.7℃
  • 맑음대전12.8℃
  • 맑음울릉도17.0℃
  • 맑음진주11.3℃
  • 흐림수원14.0℃
  • 구름많음춘천13.1℃
  • 맑음북부산11.7℃
  • 구름많음금산10.6℃
  • 맑음통영13.3℃
  • 흐림부안13.2℃
  • 맑음추풍령11.8℃
  • 맑음남해12.8℃
  • 구름많음의성11.3℃
  • 맑음성산15.2℃
  • 맑음포항17.9℃
  • 맑음합천12.7℃
  • 구름많음영월11.6℃
  • 흐림고창11.3℃
  • 흐림장수9.9℃
  • 구름많음영천11.8℃
  • 흐림흑산도12.5℃
  • 흐림영광군11.8℃
  • 맑음거제14.3℃
  • 맑음제주14.5℃
  • 구름많음강화12.7℃
  • 구름많음남원12.1℃
  • 구름많음목포14.3℃
  • 맑음강진군10.9℃
  • 구름많음함양군10.5℃
  • 맑음상주15.6℃
  • 맑음인천15.4℃
  • 구름많음고흥9.2℃
  • 구름많음군산11.7℃
  • 구름많음천안11.3℃
  • 구름많음장흥9.6℃
  • 구름많음동해16.7℃
  • 구름많음부여10.3℃
  • 맑음경주시12.7℃
  • 구름많음파주11.2℃
  • 구름많음양평14.0℃
  • 맑음완도12.5℃
  • 맑음창원13.2℃
  • 흐림속초18.4℃
  • 맑음영덕14.5℃
  • 맑음영주17.4℃
  • 맑음고산14.4℃
  • 구름많음광주15.2℃
  • 맑음양산시12.9℃
  • 흐림동두천12.2℃
  • 흐림이천14.5℃
  • 구름많음거창10.8℃
  • 구름많음순천8.3℃
  • 흐림고창군11.8℃
  • 흐림보령11.6℃
  • 구름많음북춘천12.9℃
  • 구름많음봉화8.9℃
  • 맑음의령군10.9℃
  • 구름많음안동14.5℃
  • 맑음부산15.8℃
  • 구름많음정읍12.2℃
  • 흐림대관령12.8℃
  • 맑음산청11.7℃

아마존, 세계 최대 음성 데이터 세트 공개

김들풀
기사승인 : 2019-04-03 09:24:49
9월 17일 '토피칼 챗(Topical Chat)' 공개
"410만개 단어, 21만건 주제별 채팅 데이터"

아마존이 400만 개 이상의 단어로 구성된 음성대화 데이터 세트 '토피칼 챗(Topical Chat)'을 일반에 공개할 예정이다.

아마존 수석 연구원인 딜렉 하카니-터(Dilek Hakkani-Tur)는 아마존 공식 블로그를 통해 "오는 9월 17일(현지시간) 일반에 공개할 '토피칼 챗'은 410만 단어 이상, 21만  건의 주제별 채팅 데이터로 구성되어 있다"고 밝혔다. 

 

▲ 인공지능 음성인식 알렉사가 내장된 제품들 [아마존]

'토피칼 챗'은 오는 9월 9일 아마존이 주최하는 대학생 대회 '알렉사 프리즈 소셜봇 그랜드 챌린지 3(Alexa Prize Socialbot Grand Challenge 3)'을 위해 개발된 것이다.

이 대회 출전팀은 '토피칼 챗'과 확장 데이터 세트(Extended Topical Chat Data Set)에 액세스할 수 있다.

'토피칼 챗'은 대회 직후 곧바로 공개될 예정이다.

딜렉 하카니-터는 "'토피칼 챗'은 아마존 알렉사 사용자와 상호작용이 아니라 크라우드(crowd) 작업자에서 제공된 지식"이라며, "토피칼 챗에 수록된 대화 주제와 지식은 비정형 구조의 데이터 세트다"고 설명했다.

이어 "'토피칼 챗'은 공개된 데이터 세트 중에서도 가장 큰 지식을 포함하고 있다. 지금까지 데이터 세트에서 해결할 수 없는 자연스러운 대화를 만들어 낼 수 있다"고 말했다.

KPI뉴스 / 김들풀 전문기자 itnews@kpinews.kr

 

[저작권자ⓒ KPI뉴스. 무단전재-재배포 금지]