KPI뉴스 - 카카오, AI 안전성 검증 위한 가드레일 모델 공개

  • 맑음양평8.8℃
  • 구름많음성산13.6℃
  • 맑음의성10.6℃
  • 맑음파주12.1℃
  • 맑음장흥13.1℃
  • 맑음정읍11.3℃
  • 맑음서청주8.6℃
  • 맑음부여8.2℃
  • 맑음금산8.9℃
  • 황사목포11.9℃
  • 맑음북창원13.7℃
  • 맑음보성군12.5℃
  • 맑음이천9.0℃
  • 맑음보은7.6℃
  • 맑음동해18.5℃
  • 맑음합천11.9℃
  • 맑음태백11.4℃
  • 황사청주9.4℃
  • 맑음남해13.1℃
  • 황사인천11.1℃
  • 맑음상주11.6℃
  • 황사대전10.9℃
  • 맑음강진군11.5℃
  • 맑음거창10.9℃
  • 맑음순창군9.5℃
  • 맑음홍천9.7℃
  • 맑음영덕13.0℃
  • 맑음강릉16.9℃
  • 맑음충주8.9℃
  • 맑음진주13.0℃
  • 황사전주12.0℃
  • 황사안동9.5℃
  • 황사여수12.3℃
  • 맑음진도군12.0℃
  • 맑음광양시13.0℃
  • 맑음부산14.4℃
  • 맑음문경10.3℃
  • 맑음영광군11.2℃
  • 맑음통영14.4℃
  • 흐림서귀포18.4℃
  • 맑음수원10.3℃
  • 맑음울진16.7℃
  • 황사북강릉16.2℃
  • 맑음경주시13.8℃
  • 맑음속초16.1℃
  • 맑음거제14.0℃
  • 황사울릉도14.2℃
  • 맑음서산11.0℃
  • 맑음고흥12.8℃
  • 맑음천안9.0℃
  • 황사광주12.8℃
  • 맑음세종8.7℃
  • 맑음북부산15.8℃
  • 맑음남원7.9℃
  • 맑음청송군10.7℃
  • 맑음해남11.1℃
  • 황사백령도13.5℃
  • 맑음고창군11.2℃
  • 맑음추풍령12.5℃
  • 맑음구미11.9℃
  • 흐림고산11.8℃
  • 맑음영천11.4℃
  • 맑음고창11.0℃
  • 맑음정선군9.1℃
  • 맑음의령군13.0℃
  • 황사북춘천8.3℃
  • 맑음철원10.4℃
  • 맑음산청12.6℃
  • 맑음보령11.7℃
  • 맑음순천12.4℃
  • 맑음밀양14.1℃
  • 구름많음춘천8.4℃
  • 맑음대관령9.4℃
  • 황사흑산도12.3℃
  • 맑음군산10.8℃
  • 황사포항13.9℃
  • 맑음제천7.5℃
  • 황사창원13.8℃
  • 맑음강화11.6℃
  • 맑음영주8.6℃
  • 맑음동두천10.5℃
  • 맑음부안11.8℃
  • 구름많음인제9.3℃
  • 맑음완도13.2℃
  • 맑음양산시17.5℃
  • 맑음함양군11.2℃
  • 맑음원주8.7℃
  • 맑음봉화8.2℃
  • 황사울산13.5℃
  • 황사홍성11.2℃
  • 맑음장수8.4℃
  • 황사제주12.6℃
  • 황사서울11.5℃
  • 맑음영월8.1℃
  • 맑음임실9.0℃
  • 황사대구13.1℃
  • 맑음김해시14.4℃

카카오, AI 안전성 검증 위한 가드레일 모델 공개

설석용 기자
기사승인 : 2025-05-27 15:28:31

카카오가 안전하고 신뢰할 수 있는 생성형 AI 기술 환경 및 생태계 조성에 나선다고 27일 밝혔다.

 

카카오는 AI 서비스의 안전성과 신뢰성을 검증할 수 있는 AI 가드레일 모델 'Kanana Safeguard'를 개발하고, 생태계에 기여하기 위해 국내 기업 최초로 총 3종의 모델을 오픈소스로 공개한다. 

 

▲[카카오 제공]

 

최근 다양한 생성형 AI 서비스들이 확산되는 가운데 유해 콘텐츠의 위험성에 대한 사회적 우려가 증대되고 있다. 카카오는 이에 대한 기술적·제도적 장치인 AI 가드레일 시스템 마련에 대한 필요성을 인식하고 'Kanana Safeguard' 모델을 개발하게 됐다. 주요 빅테크에서는 생성형 AI를 통해 발생할 수 있는 위험 요소를 감지하는데 특화된 모델을 운영 중이다. 

 

'Kanana Safeguard'는 카카오가 자체 개발한 언어모델 'Kanana'를 기반 기술로 활용했으며, 한국어 및 한국 문화를 반영한 자체 구축 데이터셋을 활용해 한국어에 특화된 성능을 보유하고 있다. AI 모델의 정밀도와 재현율을 평가하는 수치인 F1 스코어를 기준으로 평가한 결과, 한국어 성능에서 글로벌 모델 이상의 성과를 기록하기도 했다.

 

이번에 오픈소스로 공개한 모델은 총 3가지로, 각각의 모델은 리스크 유형에 따라 유해성 및 위험성에 대한 효과적 탐지가 가능하다. △사용자의 발화 또는 AI의 답변에서 증오, 괴롭힘, 성적 콘텐츠 등에 대한 유해성을 탐지하는 'Kanana Safeguard' △개인 정보나 지식재산권 등  법적 측면에서 주의가 필요한 요청을 탐지하는 'Kanana Safeguard-Siren' △AI 서비스를 악용하려는 사용자의 공격을 탐지하는 'Kanana Safeguard-Prompt'이며, 모두 허깅페이스를 통해 다운로드 할 수 있다.

 

카카오는 안전한 AI 생태계의 구축에 기여하고자 'Kanana Safeguard'에 상업적 이용과 수정 및 재배포 등이 자유롭게 가능한 아파치2.0 라이선스를 적용했다. 향후 지속적인 업데이트를 통해 모델을 고도화 할 예정이다.   

 

카카오 김경훈 AI Safety 리더는 "생성형 AI의 등장 이래, 기술의 발전과 더불어 AI 윤리와 안전성에 대한 중요성이 국내외에서 점차 부각되고 있다"며 "책임감 있는 AI 구축에 대한 인식을 널리 확산시키고, 사회적 가치를 고려한 기술 개발이 이어질 수 있도록 선제적인 대응을 이어갈 계획"이라고 말했다. 


KPI뉴스 / 설석용 기자 ssyasd@kpinews.kr

 

[저작권자ⓒ KPI뉴스. 무단전재-재배포 금지]