- 문장 기반으로 영상 탐색 정확도 향상…기존 AI 모델 재훈련 없이 성능 개선
- 소프트웨어 공학 분야 국제학술지 'IEEE 멀티미디어'(JCR 상위 3%) 게재…세계적 기술력 입증

이번 연구는 한국전자통신연구원(ETRI) 윤기민 연구원, 서울시립대 엄대호 교수가 공동으로 참여했다.
‘영상 그라운딩’은 영상 내에서 특정 객체나 행동, 장면을 찾아내 의미적으로 연결하는 기술이다.
예를 들어 사용자가 “주인공이 요리하는 장면을 찾아줘”라는 문장을 입력하면, AI가 해당 장면이 등장하는 구간을 자동으로 탐색해 낸다.
최근 디지털 콘텐츠의 급증으로 영상 데이터가 폭발적으로 늘어나면서 이 기술의 중요성은 더욱 커지는 추세다. 기존에 주로 쓰이던 '약지도 영상 그라운딩(Weakly Supervised Video Grounding)' 기술은 사람이 일일이 영상 속 장면의 시작과 끝을 표시하지 않아도 AI가 학습할 수 있다는 장점이 있었다.
하지만 특정 장면이 등장할 확률을 추정한 뒤 단순한 기준으로 경계를 정하는 탓에, 실제 장면의 정확한 시작과 끝을 찾아내는 데는 한계가 따랐다.
연구팀은 이 같은 문제를 해결하기 위해, 제안된 구간이 실제 장면을 얼마나 잘 포함하는지, 여부와 불필요하게 길어지지 않는지를 동시에 고려하는 최적화 방식을 제안했다.
기존 AI 모델이 내놓은 결과를 수학적으로 보정하여 보다 정교하고 정확한 장면 경계를 찾아낸 것이다. 특히 이번에 개발된 기술의 가장 큰 특징은 새로운 AI 모델을 다시 학습시킬 필요 없이 기존 모델에 바로 적용할 수 있다는 점이다.
별도의 대규모 학습 과정 없이도 탐색 정확도를 획기적으로 높일 수 있어, 향후 대규모 영상 검색이나 다양한 영상 분석 기술에 폭넓게 활용될 것으로 기대된다.
김선오 교수는 “이번 연구는 영상 장면 탐색 모델을 처음부터 다시 학습시키는 대신, 이미 학습된 모델의 추론 결과를 더욱 정교하게 해석하는 방법을 제시했다는 점에서 의미가 있다”며, “향후 대규모 영상 검색과 장면 기반 콘텐츠 탐색, 영상 분석 기술의 실용성을 높이는 데 기여할 것”이라고 밝혔다.
한편, 이번 연구 결과는 소프트웨어 공학 분야 국제학술지인 「IEEE Transactions on Multimedia」(JCR 상위 3%, Q1)에 지난해 11월 게재됐다. 논문명은 「Finding Optimal Video Moment without Training: Gaussian Boundary Optimization for Weakly Supervised Video Grounding」이다.
bjlee@beyondpost.co.kr




















