Quantization
-
[Paper Reivew] SQuant: ON-THE-FLY Data-Free Quantization VIA Diagnal Hessian Approximation (Guo et al., ICLR 2022)카테고리 없음 2026. 2. 19. 00:38
딥러닝 모델을 경량화하는 데 있어 Quantization은 선택이 아닌 필수이다. 그런데 여기서 가장 골치 아픈 문제는 바로 "데이터"이다. 개인정보 보호나 보안 문제 때문에 원본 학습 데이터를 사용할 수 없는 경우가 허다하다. 그래서 나온 개념이 Data-Free Quantization(DFQ)이다. 말 그대로 데이터 없이 양자화를 진행하는 것이다.하지만 지금까지의 DFQ는 데이터가 없으니 정확도가 뚝 떨어지거나, 이를 보완하기 위해 가짜 데이터(Synthetic Data)를 생성하려다 보니 시간이 너무 오래걸리고 비용이 많이 들었다. 이 문제를 해결하기 위해 SQuant를 제안한다.SQuant 저자들은 양자화로 인해 발생하는 손실(Loss)을 수학적으로 분석하기 위해 2차 미분 정보인 Hessian에..
-
[Paper Review] Post training 4-bit quantization of convolutional networks for rapid-deployment (Banner et al., Intel, 2019)Paper Review/Model Compression 2026. 2. 18. 22:35
합성곱 신경망(CNN)은 성능은 뛰어나지만, 연산 과정에서 엄청난 메모리 대역폭과 저장 공간을 소모한다. 이를 해결하기 위해 소수점 데이터를 정수 데이터로 바꾸는 '양자화'를 사용하는데, 문제는 기존의 방식들(예: 8-bit 미만 양자화)이 성능 하락을 막기 위해 전체 데이터셋을 가지고 다시 학습(Fine-Tuning)하는 과정을 거쳐야 한다는 점이다. 하지만 실제 현장에서는 보안이나 개인 정보 문제로 전체 데이터를 사용할 수 없는 경우가 많고, 학습 자체에 들어가는 시간과 비용도 만만치 않다. 이 논문은 바로 데이터가 부족하고 다시 학습할 시간도 없는데, 어떻게 하면 4-bit 수준의 정밀한 양자화를 성공시킬 수 있을까?라는 질문에서 연구를 시작한다.이 논문은 추가 학습 없이도 정확도를 유지하기 위해 ..
-
[Paper Review] Data-Free Quantization Through Weight Equalization and Bias Correction (Nagel et al., ICCV 2019)Paper Review/Model Compression 2026. 1. 28. 02:30
과거에 연구실의 고성능 GPU 서버에서만 돌아가던 모델들이, 이제는 클라우드를 넘어 엣지 디바이스(Edge Devices), 즉 스마트폼이나 IoT 기기로 들어오고 있다.그런데 이런 디바이스들은 전력도 제한적이고, 계산 속도(Latency)도 빨라야한다. 그래서 연구자들은 무거운 32비트 부동소수점(FP32) 대신, 가볍고 빠른 8비트 고정소수점(Fixed-point quantization, INT8)을 사용하여 추론(Inference) 효율을 높이려고 노력해왔다.하지만 문제는, 멀쩡하던 FP32 모델을 8비트로 깎아내리면(Quantization), 성능 저하(Degradation)가 발생한다는 것이다. 어떤 모델은 조금 떨어지고 말지만, MobileNetV2처럼 효율적인 구조를 가진 모델들은 성능이 처..
-
[Paper Review] Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference (Jacob et al., 2017)Paper Review/Model Compression 2026. 1. 27. 00:02
딥러닝의 역사를 바꾼 AlexNet이 등장한 이후, CNN(Convolution Neural Networks) 모델들은 많은 발전을 이루어냈다. 하지만 여기에는 한 가지 맹점이 존재한다. 바로 "정확도(Accuracy)"라는 숫자를 높이는 데만 너무 집중을 해버린 것이다. 모델이 얼마나 복잡한지, 계산량이 얼마나 많은지는 뒷전이였던 것이다. 그 결과 이때 당시(2017) SOTA(State-of-the-Art) 모델들은 성능은 좋지만, 너무 무겁고 느린 속도를 갖게 되었다.현재 우리가 살고 있는 시대는 모바일 시대이다. 우리가 살아가는 세상은 스마트폰, AR/VR 기기, 드론 등과 같은 모바일 플랫폼이 대다수이다. 우리가 사용하는 이 작은 기기들은 거대한 서버 컴퓨터와 다르다. 작은 기기들(모바일, 엣지..