서강대 인공지능학과 이영민 교수팀, 최고 권위 국제 학술대회 ‘ACM ASPLOS 2026’ 논문 채택

“기존 한계 극복하며 대형언어모델(LLM) 추론 속도 최대 2배 이상 향상”

[비욘드포스트 이봉진 기자] 서강대학교 인공지능학과 이영민 교수 연구팀이 대형언어모델(LLM)의 추론 속도를 획기적으로 높이는 기술을 개발해 세계적인 학술대회에서 그 우수성을 인정받았다.

(좌측부터) 서강대학교 인공지능학과 이영민 교수, 송근수 석사과정. (사진제공=서강대)

서강대학교는 인공지능학과 소속 송근수 석사과정생(제1저자)과 이영민 교수(교신저자)가 공동 연구한 논문이 시스템 소프트웨어 및 아키텍처 분야 최고 권위의 국제 학술대회인 'ACM ASPLOS 2026'에 채택되었다고 17일 밝혔다.

한국정보과학회가 최우수학술대회(BK 인정 IF=4)로 인정하는 ASPLOS는 오는 2026년 3월 22일부터 26일까지 미국 피츠버그에서 개최될 예정이다.

이번에 채택된 논문(oFFN: Outlier and Neuron-aware Structured FFN for Fast yet Accurate LLM Inference)은 LLM의 추론 속도를 높이는 새로운 가속 기법인 'oFFN'을 제안했다.

연구팀은 AI 모델 내부에서 이상치(outlier)가 활성 벡터의 특정 위치에 집중되어 나타난다는 특성을 새롭게 발견하고 이를 기술에 적용했다.

oFFN 기술은 인공신경망의 FFN(Feed-Forward Network) 계층에서 출력 뉴런의 활성화 빈도와 이상치의 출현 빈도를 동시에 고려해 가중치를 정적으로 재배열한다.

이를 통해 불필요한 연산을 줄이는 '활성 희소도(activation sparsity)'를 효율적으로 활용함으로써, 모델의 정확도 손실 없이도 높은 추론 가속을 달성하는 것이 특징이다.

기존에도 활성 희소도를 활용해 계산 및 메모리 병목 현상을 해결하려는 시도가 있었으나, 어떤 출력이 희소한지 정확히 예측하기 어렵다는 문제가 있었다.

더욱이 한 번에 처리하는 데이터의 양(배치 크기)이 커질수록 구조적 희소도가 낮아져 가속 효과가 떨어지는 한계가 존재했다.

연구팀은 가중치 재배열을 통해 이상치 차원을 묶고, 유사한 희소도를 가지는 뉴런들도 효율적으로 군집화하여 이 두 가지 난제를 동시에 완화하는 데 성공했다.

실험 결과, 제안된 기술은 정확도 하락을 거의 발생시키지 않으면서도 기존 최고 성능(SOTA) 기술 대비 13% 향상된 추론 속도를 기록했다.

특히 FFN 기준으로는 최대 5.46배, 전체 추론 시간 기준으로는 최대 2.01배(이론적 상한 2.18배)의 속도 향상을 달성하며 탁월한 성능을 입증했다.

이영민 교수는 "oFFN은 LLM 추론 특성에 대한 흥미로운 고찰을 바탕으로 기존의 한계를 극복한 기술"이라며, "특히 GPU의 텐서 코어와 CUDA 코어를 상호보완적으로 활용해 단일 배치뿐만 아니라 멀티 배치 추론에서도 실질적인 추론 가속을 이뤄냈다는 점에서 의미가 크다"고 설명했다.

이어 "앞으로도 관련 후속 연구를 지속적으로 발전시켜 나갈 계획"이라고 포부를 밝혔다.

bjlee@beyondpost.co.kr