-DB/빅데이터 분야 세계 최고 권위 학술대회, ‘2024 최우수 연구 기록물상’ 수상
-학습 인덱스, 샘플링으로 4만 배 빠르게…데이터 인프라 효율성 혁신 입증

연구 논문은 인터넷이나 데이터베이스의 정보 검색에 샘플링 기법을 도입해 학습 기반 인덱스 구축 시간을 최대 4만 배 단축하는 기술이다. 논문명은 「Can Learned Indexes be Built Efficiently? A Deep Dive into Sampling Trade-offs(학습 기반 인덱스의 효율적 구축, 샘플링 기법의 성능 한계 분석」.
인터넷이나 데이터베이스에서는 원하는 정보를 빠르게 찾기 위해 ‘인덱스(Index)’라는 도구를 활용해 데이터를 구조화한다. 최근에는 머신러닝을 활용한 학습 인덱스가 등장해 검색 속도를 획기적으로 향상시켰지만, 전체 데이터를 학습해야 하는 한계로 인덱스 생성에 많은 시간과 자원이 소요됐다.
연구팀은 일부 데이터만 추출해 학습하는 ‘샘플링 기법’을 도입, 인덱스 성능을 유지하면서도 구축 효율을 대폭 향상시키는 두 가지 핵심 기법을 개발했다. 연구팀이 개발한 기법은 ▲Sample EB-PLA(Error-Bounded Piecewise Linear Approximation, PGM, RS 등 선형 회귀 기반 인덱스를 위한 샘플링 기법) ▲Sample EB-Histogram(히스토그램 기반 인덱스를 위한 보정된 샘플링 학습 기법) 이다.
연구팀은 2억 개의 키-값 데이터셋을 대상으로 테스트한 결과, 기존 방식보다 최대 4만 배 빠르게 인덱스를 구축했다. 정확도와 검색 속도는 5% 이내의 오차 범위를 유지하며 성능 저하 없이 안정적으로 구현해 냈다.
최종무 교수는 “이번 연구는 학습 기반 인덱스의 구축 효율성을 획기적으로 개선한 성과로 대규모 데이터 환경에서도 적용이 가능하다”라며 “앞으로도 빅데이터, 클라우드, AI 등 고속 인덱스 구축이 요구되는 다양한 분야에 기술을 확장하고 데이터 인프라 성능 향상을 위한 후속 연구에 박차를 가할 계획”이라고 말했다.
bjlee@beyondpost.co.kr