KPI뉴스 - UNIST 윤성환 교수팀, '멀티모달 AI' 수학적 원리 규명

  • 맑음인천22.3℃
  • 구름많음임실21.0℃
  • 구름많음부여21.2℃
  • 구름많음세종21.9℃
  • 맑음이천22.2℃
  • 맑음구미22.7℃
  • 흐림전주22.9℃
  • 맑음진도군18.4℃
  • 구름많음진주20.0℃
  • 구름많음장수19.5℃
  • 구름많음영주18.1℃
  • 구름많음함양군21.1℃
  • 맑음고창군21.5℃
  • 맑음동해18.1℃
  • 맑음부산20.2℃
  • 맑음대구20.6℃
  • 맑음영광군20.1℃
  • 구름많음청주24.3℃
  • 맑음완도19.4℃
  • 맑음강릉19.5℃
  • 맑음목포20.7℃
  • 맑음남해19.4℃
  • 구름많음대전22.9℃
  • 맑음경주시18.2℃
  • 구름많음파주19.1℃
  • 맑음김해시19.1℃
  • 맑음거제18.8℃
  • 맑음고산19.5℃
  • 구름많음인제17.6℃
  • 구름많음서산20.5℃
  • 맑음통영19.3℃
  • 구름많음밀양19.9℃
  • 구름많음의령군21.0℃
  • 맑음성산19.4℃
  • 구름많음문경19.7℃
  • 구름많음정선군16.5℃
  • 맑음울진17.3℃
  • 맑음서귀포20.4℃
  • 구름많음보은19.8℃
  • 맑음광주23.0℃
  • 구름많음천안20.4℃
  • 맑음여수21.8℃
  • 맑음고창20.7℃
  • 맑음속초17.3℃
  • 구름많음추풍령18.7℃
  • 구름많음제천19.1℃
  • 구름많음동두천19.3℃
  • 맑음강진군20.8℃
  • 맑음영천18.6℃
  • 구름많음합천22.1℃
  • 구름많음홍천21.0℃
  • 맑음북강릉17.8℃
  • 구름많음보령21.0℃
  • 맑음울산18.7℃
  • 맑음부안22.0℃
  • 구름많음철원20.0℃
  • 구름많음홍성21.1℃
  • 구름많음북춘천19.9℃
  • 맑음상주20.7℃
  • 맑음수원20.8℃
  • 구름많음순창군21.8℃
  • 구름많음영월19.5℃
  • 구름많음서청주21.7℃
  • 구름많음봉화15.2℃
  • 맑음울릉도19.3℃
  • 구름많음정읍21.6℃
  • 맑음포항19.9℃
  • 맑음광양시21.6℃
  • 맑음양평22.0℃
  • 맑음장흥20.5℃
  • 구름많음안동20.5℃
  • 맑음양산시19.5℃
  • 맑음백령도19.4℃
  • 안개흑산도18.8℃
  • 구름많음강화21.3℃
  • 맑음대관령12.2℃
  • 구름많음순천20.3℃
  • 맑음해남19.0℃
  • 맑음북부산19.0℃
  • 구름많음충주21.6℃
  • 구름많음군산22.4℃
  • 맑음창원19.5℃
  • 구름많음산청20.9℃
  • 구름많음거창21.5℃
  • 맑음보성군21.3℃
  • 구름많음의성17.6℃
  • 구름많음영덕17.0℃
  • 구름많음금산21.6℃
  • 구름많음서울22.8℃
  • 구름많음태백14.4℃
  • 구름많음춘천20.2℃
  • 구름많음원주23.1℃
  • 구름많음청송군15.5℃
  • 맑음고흥19.8℃
  • 맑음북창원20.5℃
  • 맑음제주22.3℃
  • 구름많음남원21.3℃

UNIST 윤성환 교수팀, '멀티모달 AI' 수학적 원리 규명

최재호 기자
기사승인 : 2026-06-28 22:58:09
세계 3대 인공지능학회 ICML 논문 채택…"강건한 AI 설계 기초"

이미지나 소리, 텍스트 등 다양한 형태의 데이터를 함께 학습하는 멀티모달 AI가 왜 한 종류의 데이터만 학습한 AI보다 더 정확하고 안정적인지, 수학적으로 설명됐다.

 

▲ 연구진 사진. 윤성환 교수(좌측)와 이재준 연구원.

 

28일 울산과학기술원(UNIST)에 따르면 인공지능대학원 윤성환 교수팀은 멀티모달 인공지능이 단일모달 인공지능보다 더 좋은 성능을 내는 원리를 '손실 지형'의 평탄화 관점에서 규명했다.

 

멀티모달 학습은 이미지·음성·텍스트처럼 서로 다른 '모달리티'의 데이터를 함께 활용해 AI가 같은 대상이나 상황을 더 잘 이해하도록 하는 학습 방식이다. 일반적으로 단일모달 학습보다 성능이 뛰어나다고 알려졌지만, 그 이유를 실제 딥러닝 학습 과정과 연결해 설명하는 이론적 근거는 부족했다.


음성이나 이미지와 같은 여러 모달리티의 데이터를 함께 학습하는 경우 손실 지형이 더 평탄해져 학습 과정에서 배우지 못한 상황에 대응하는 능력인 '강건성'이 향상된다.


손실 지형은 AI가 학습 과정에서 겪는 오차와 모델 내부 설정값들의 관계를 산과 골짜기 같은 공간으로 나타낸 개념인데, 넓고 완만하면 경험하지 못한 새로운 데이터가 들어와도 성능을 안정적으로 유지하기 쉽다.


연구팀은 손실 지형이 평탄화되는 이유를 서로 다른 데이터가 오차의 거친 변화를 평균 내듯 완화하는 수학적 '합성곱 스무딩 효과'로 설명했다. 이미지 하나만 보고 학습할 때 생기는 뾰족한 오차 변화가 음성이나 문장 정보와 함께 학습되면서 눌리고 퍼지는 것이다.

 

▲ 연구 그림. 다양한 형태의 데이터를 함께 학습할 때 나타나는 '합성곱 스무딩' 효과 개념도. [유니스트 제공]

 

이 같은 증명을 기반으로 멀티모달 학습 성능을 더 높일 수 있는 새로운 학습법인 '분포 기반 멀티모달 학습'(DML, Distributional Multimodal Learning)도 제안했다. 

 

기존 멀티모달 학습은 이미지 하나와 그에 정확히 대응하는 음성이나 문장 하나를 고정된 쌍으로 묶어 학습하는 반면, DML은 같은 정답 범주 안에서 서로 다른 모달리티의 데이터를 무작위로 다시 짝짓는 방식이다. 이 방식이 학습 데이터 조합을 훨씬 다양하게 만들면서, 평탄화 효과가 극대화된다.


여러 종류의 멀티모달 실험용 데이터셋에서 DML의 성능을 검증한 결과, DML은 기존처럼 정해진 데이터 쌍만 학습하는 방식보다 분류 정확도가 높았다. 또 사진을 보고 맞는 설명문을 찾거나, 설명문을 읽고 맞는 사진을 찾는 실험에서도 더 많이 정답을 맞혔다.


이번 연구에는 UNIST 인공지능대학원 이재준 연구원이 제1저자로 참여했다. 연구팀은 "이번 연구는 멀티모달 AI가 왜 더 강건하게 일반화될 수 있는지에 대한 이론적 근거와 그 근거를 좀 더 활용한 단순하지만 효율적인 새로운 멀티모달 샘플링 학습 방법을 제시했다"고 설명했다.


연구팀은 "향후 데이터를 보다 효율적으로 활용하면서도, 외부 노이즈나 교란에도 흔들림 없이 안정적으로 작동하는 강건한 AI를 설계하는 중요한 기반 기술이 될 것"이라고 강조했다.


이번 연구는 인공지능 분야 세계 최고 권위의 국제 학술대회인 국제 머신러닝 학회 (ICML 2026)에서 발표될 예정이다. 올해 ICML은 다음 달 6일부터 서울에서 열린다. 

 

연구 수행은 과기정통부·한국연구재단(NRF)의 지원을 받는 '중견연구사업'과 과기정통부·정보통신기획평가원의 지원을 받는 '초거대산업AI연구지원(R&D)사업' '인공지능대학원지원사업' 'AI 스타펠로우십사업' '지역지능화혁신인재양성사업' 등의 지원을 받아 이뤄졌다. 

 

KPI뉴스 / 최재호 기자 choijh1992@kpinews.kr 

[저작권자ⓒ KPI뉴스. 무단전재-재배포 금지]