Paper Review/Model Compression
-
[Paper Review] Token Merging: Your ViT But Faster (ICLR, 2023)Paper Review/Model Compression 2026. 3. 14. 14:50
양자화가 모델의 가중치나 활성화 값의 정밀도를 낮춰 메모리와 연산량을 줄인다면, 이 논문은 트랜스포머가 처리하는 데이터의 단위인 '토큰(Token)'의 개수 자체를 줄여버림으로써 연산 병목을 해결하고자 하는 아주 직관적인 방법론을 제시한다.트랜스포머 모델, 특히 컴퓨터 비전 분야에서 널리 쓰이는 ViT(Vision Transformer)는 성능은 대단히 훌륭하지만, 연산량이 너무 많다는 치명적인 단점이 존재한다. 이 논문에서는 새롭게 모델을 처음부터 다시 학습시킬 필요 없이, 기존에 잘 학습된 ViT 모델의 처리 속도를 획기적으로 높일 수 있는 '토큰 병합(ToMe)'이라는 아주 간단하면서도 강력한 방법을 제안하고 있다.이 기술의 핵심 아이디어는 트랜스포머 층을 통과할 때마다 서로 비슷한 의미나 정보를 ..
-
[Paper Review] Effective Interplay Between Sparsity And Quantization: From Theory To Practice (ICLR 2025)Paper Review/Model Compression 2026. 3. 7. 15:40
최근 딥러닝 모델들, 특히 대형 언어 모델(LLM)이나 비전 모델들의 크기가 기하급수적으로 커지고 있다. 이렇게 덩치가 큰 모델을 실제 서비스에 원활하게 사용하려면 연산량과 메모리 사용량을 줄이는 '경량화 및 압축' 기술이 필수적이다. 여기서 가장 대표적으로 사용하는 두 가지 강력한 무기가 바로 모델의 가중치 중 덜 중요한 것을 0으로 만들어버리는 Sparsity 기술과, 가중치를 표현하는 데이터의 비트 수(예: 32비트를 8비트 정수로)를 줄여버리는 양자화 기술이다. 이 두 가지 방법은 각각 독립적으로 사용했을 때 모델의 성능은 최대한 유지하면서도 메모리와 연산량을 획기적으로 줄여준다는 것이 수많은 연구를 통해 이미 증명되었다.그런데 여기서 아주 중요한 의문이 생긴다. "그럼 이 두가지 강력한 무기를 ..
-
[Paper Review] Post training 4-bit quantization of convolutional networks for rapid-deployment (Banner et al., Intel, 2019)Paper Review/Model Compression 2026. 2. 18. 22:35
합성곱 신경망(CNN)은 성능은 뛰어나지만, 연산 과정에서 엄청난 메모리 대역폭과 저장 공간을 소모한다. 이를 해결하기 위해 소수점 데이터를 정수 데이터로 바꾸는 '양자화'를 사용하는데, 문제는 기존의 방식들(예: 8-bit 미만 양자화)이 성능 하락을 막기 위해 전체 데이터셋을 가지고 다시 학습(Fine-Tuning)하는 과정을 거쳐야 한다는 점이다. 하지만 실제 현장에서는 보안이나 개인 정보 문제로 전체 데이터를 사용할 수 없는 경우가 많고, 학습 자체에 들어가는 시간과 비용도 만만치 않다. 이 논문은 바로 데이터가 부족하고 다시 학습할 시간도 없는데, 어떻게 하면 4-bit 수준의 정밀한 양자화를 성공시킬 수 있을까?라는 질문에서 연구를 시작한다.이 논문은 추가 학습 없이도 정확도를 유지하기 위해 ..
-
[Paper Review] Activation Quantization of Vision Encoders Needs Prefixing Registers (Kim et al., 2025)Paper Review/Model Compression 2026. 2. 17. 05:59
꽤나 유명한 CLIP이나 DINOv2 같은 모델들은 현대 인공지능의 시각 지능을 담당하는 핵심 엔진들이다. 하지만 이런 모델들을 자율주행 웹 에이전트나 로봇 제어 같은 실제 환경에 적용하려면, 엄청난 양의 시각 데이터를 실시간으로 처리해야 한다. 그래서 계산 비용을 줄이는 것이 매우 중요한데, 가장 효과적인 방법 중 하나가 바로 모델의 숫자를 더 작은 비트로 표현하는 '양자화'이다.문제는 8비트(INT8) 수준의 정밀도에서도 양자화가 여전히 어렵다는 것이다. 그 주 범은 바로 Activation Outlier, 즉 모델 내부의 활성화 값 중 유난히 큰 값을 가지는 놈들이다. 이 튀는 값 하나 때문에 전체적인 숫자의 범위를 넓게 잡아야 하고, 결과적으로 나머지 평범한 값들의 정밀도가 뭉개지면서 모델의 정확..
-
[Paper Review] Data-Free Quantization Through Weight Equalization and Bias Correction (Nagel et al., ICCV 2019)Paper Review/Model Compression 2026. 1. 28. 02:30
과거에 연구실의 고성능 GPU 서버에서만 돌아가던 모델들이, 이제는 클라우드를 넘어 엣지 디바이스(Edge Devices), 즉 스마트폼이나 IoT 기기로 들어오고 있다.그런데 이런 디바이스들은 전력도 제한적이고, 계산 속도(Latency)도 빨라야한다. 그래서 연구자들은 무거운 32비트 부동소수점(FP32) 대신, 가볍고 빠른 8비트 고정소수점(Fixed-point quantization, INT8)을 사용하여 추론(Inference) 효율을 높이려고 노력해왔다.하지만 문제는, 멀쩡하던 FP32 모델을 8비트로 깎아내리면(Quantization), 성능 저하(Degradation)가 발생한다는 것이다. 어떤 모델은 조금 떨어지고 말지만, MobileNetV2처럼 효율적인 구조를 가진 모델들은 성능이 처..
-
[Paper Review] Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference (Jacob et al., 2017)Paper Review/Model Compression 2026. 1. 27. 00:02
딥러닝의 역사를 바꾼 AlexNet이 등장한 이후, CNN(Convolution Neural Networks) 모델들은 많은 발전을 이루어냈다. 하지만 여기에는 한 가지 맹점이 존재한다. 바로 "정확도(Accuracy)"라는 숫자를 높이는 데만 너무 집중을 해버린 것이다. 모델이 얼마나 복잡한지, 계산량이 얼마나 많은지는 뒷전이였던 것이다. 그 결과 이때 당시(2017) SOTA(State-of-the-Art) 모델들은 성능은 좋지만, 너무 무겁고 느린 속도를 갖게 되었다.현재 우리가 살고 있는 시대는 모바일 시대이다. 우리가 살아가는 세상은 스마트폰, AR/VR 기기, 드론 등과 같은 모바일 플랫폼이 대다수이다. 우리가 사용하는 이 작은 기기들은 거대한 서버 컴퓨터와 다르다. 작은 기기들(모바일, 엣지..