AI
-
[Paper Reivew] SQuant: ON-THE-FLY Data-Free Quantization VIA Diagnal Hessian Approximation (Guo et al., ICLR 2022)카테고리 없음 2026. 2. 19. 00:38
딥러닝 모델을 경량화하는 데 있어 Quantization은 선택이 아닌 필수이다. 그런데 여기서 가장 골치 아픈 문제는 바로 "데이터"이다. 개인정보 보호나 보안 문제 때문에 원본 학습 데이터를 사용할 수 없는 경우가 허다하다. 그래서 나온 개념이 Data-Free Quantization(DFQ)이다. 말 그대로 데이터 없이 양자화를 진행하는 것이다.하지만 지금까지의 DFQ는 데이터가 없으니 정확도가 뚝 떨어지거나, 이를 보완하기 위해 가짜 데이터(Synthetic Data)를 생성하려다 보니 시간이 너무 오래걸리고 비용이 많이 들었다. 이 문제를 해결하기 위해 SQuant를 제안한다.SQuant 저자들은 양자화로 인해 발생하는 손실(Loss)을 수학적으로 분석하기 위해 2차 미분 정보인 Hessian에..
-
[Paper Review] Post training 4-bit quantization of convolutional networks for rapid-deployment (Banner et al., Intel, 2019)Paper Review/Model Compression 2026. 2. 18. 22:35
합성곱 신경망(CNN)은 성능은 뛰어나지만, 연산 과정에서 엄청난 메모리 대역폭과 저장 공간을 소모한다. 이를 해결하기 위해 소수점 데이터를 정수 데이터로 바꾸는 '양자화'를 사용하는데, 문제는 기존의 방식들(예: 8-bit 미만 양자화)이 성능 하락을 막기 위해 전체 데이터셋을 가지고 다시 학습(Fine-Tuning)하는 과정을 거쳐야 한다는 점이다. 하지만 실제 현장에서는 보안이나 개인 정보 문제로 전체 데이터를 사용할 수 없는 경우가 많고, 학습 자체에 들어가는 시간과 비용도 만만치 않다. 이 논문은 바로 데이터가 부족하고 다시 학습할 시간도 없는데, 어떻게 하면 4-bit 수준의 정밀한 양자화를 성공시킬 수 있을까?라는 질문에서 연구를 시작한다.이 논문은 추가 학습 없이도 정확도를 유지하기 위해 ..
-
[Paper Review] Activation Quantization of Vision Encoders Needs Prefixing Registers (Kim et al., 2025)Paper Review/Model Compression 2026. 2. 17. 05:59
꽤나 유명한 CLIP이나 DINOv2 같은 모델들은 현대 인공지능의 시각 지능을 담당하는 핵심 엔진들이다. 하지만 이런 모델들을 자율주행 웹 에이전트나 로봇 제어 같은 실제 환경에 적용하려면, 엄청난 양의 시각 데이터를 실시간으로 처리해야 한다. 그래서 계산 비용을 줄이는 것이 매우 중요한데, 가장 효과적인 방법 중 하나가 바로 모델의 숫자를 더 작은 비트로 표현하는 '양자화'이다.문제는 8비트(INT8) 수준의 정밀도에서도 양자화가 여전히 어렵다는 것이다. 그 주 범은 바로 Activation Outlier, 즉 모델 내부의 활성화 값 중 유난히 큰 값을 가지는 놈들이다. 이 튀는 값 하나 때문에 전체적인 숫자의 범위를 넓게 잡아야 하고, 결과적으로 나머지 평범한 값들의 정밀도가 뭉개지면서 모델의 정확..
-
[Paper Review] Deep Residual Learning for Image Recognition(He et al., 2015)Paper Review/Model Architectures 2026. 2. 3. 15:55
이때 당시(2015), 딥러닝의 핵심은 '깊이(Depth)'에 있었다. 층을 깊게 쌓을수록 모델은 이미지의 아주 미세한 특징부터 복잡한 구조까지 단계별로 학습할 수 있게 된다는 의미이다. 하지만 연구자들이 실제로 층을 계속 쌓아보니 이상한 현상이 발생했다.과거에는 층이 깊어지면 'Gradient Vanishing/Exploding' 문제로 학습 자체가 안되는 게 문제였지만, 이는 배치 정규화(Bath Normalization)같은 기술로 어느정도 해결된 상태였다. 그런데 그 문제가 해결되었음에도 불구하고, 일정 깊이를 넘어서면 Degradation(퇴화)이라는 새로운 문제가 발생한다.위 그림을 보면 확인할 수 있는게, 56층짜리 일반(Plain) 네트워크가 20층짜리보다 훈련 오차(Training err..
-
[Paper Review] In Search of a Data Transformation That Accelerates Neural Field(Seo et al., 2024)Paper Review/3D Vision 2026. 2. 3. 13:11
Neural Field(신경장)이란, 기존의 이미지는 픽셀 값들의 행렬(Grid)로 저장되었다면, Neural Field는 "좌표 $(x, y)$를 넣으면 색상 $(R, G, B)$가 나오는 함수" 자체를 신경망으로 학습시키는 방식이다. 이 방식은 고차원 데이터를 아주 세밀하게 표현할 수 있다는 장점이 있어서 3D 장면을 복원하는 NeRF 같은 기술의 핵심이 되었다. 하지만 치명적인 단점이 하나 존재하는데, 바로 데이터를 하나하나 표현할 때마다 신경망을 새로 '과적합(Overfitting)' 시켜야한다는 점이다. 이미지를 한 장 저장하려고 수천 번의 SGD(확률적 경사 하강법) 학습을 거쳐야 하니 시간이 너무 오래걸리게 된다.이 학습 속도를 늦추는 주범으로 논문은 최적화 편향(Optimization Bi..
-
[Paper Review] An Introduction to Convolutional Neural Networks (O'Shea & Nash, 2015)Paper Review/Model Architectures 2026. 1. 28. 22:27
인공 신경망(ANN)은 인간의 뇌 신경계가 작동하는 방식에서 영감을 받아 설계된 계산 처리 시스템이다. 뇌 속에 수많은 뉴런이 얽혀 있듯이, ANN 역시 수많은 계산 노드(Computational nodes)들이 상호 연결되어 분산된 방식으로 데이터를 처리한다.위 그림을 보면, 가장 기본적인 3계층 구조가 나온다.입력층 (Input Layer) : 외부 데이터를 다차원 벡터 형태로 받아들여 분배한다.은닉층 (Hidden Layer) : 이전 층에서 받은 정보를 바탕으로 결정을 내린다. 여기서 저자들은 "자신의 내부 상태에 확률적인 변화(stochastic change)를 주어 최종 결과가 개선되는지 나빠지는지를 따져보는 것"이 바로 "학습(Learning)"이라고 정의한다.출력층 (Output Layer..
-
[Paper Review] Data-Free Quantization Through Weight Equalization and Bias Correction (Nagel et al., ICCV 2019)Paper Review/Model Compression 2026. 1. 28. 02:30
과거에 연구실의 고성능 GPU 서버에서만 돌아가던 모델들이, 이제는 클라우드를 넘어 엣지 디바이스(Edge Devices), 즉 스마트폼이나 IoT 기기로 들어오고 있다.그런데 이런 디바이스들은 전력도 제한적이고, 계산 속도(Latency)도 빨라야한다. 그래서 연구자들은 무거운 32비트 부동소수점(FP32) 대신, 가볍고 빠른 8비트 고정소수점(Fixed-point quantization, INT8)을 사용하여 추론(Inference) 효율을 높이려고 노력해왔다.하지만 문제는, 멀쩡하던 FP32 모델을 8비트로 깎아내리면(Quantization), 성능 저하(Degradation)가 발생한다는 것이다. 어떤 모델은 조금 떨어지고 말지만, MobileNetV2처럼 효율적인 구조를 가진 모델들은 성능이 처..
-
[Paper Review] Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference (Jacob et al., 2017)Paper Review/Model Compression 2026. 1. 27. 00:02
딥러닝의 역사를 바꾼 AlexNet이 등장한 이후, CNN(Convolution Neural Networks) 모델들은 많은 발전을 이루어냈다. 하지만 여기에는 한 가지 맹점이 존재한다. 바로 "정확도(Accuracy)"라는 숫자를 높이는 데만 너무 집중을 해버린 것이다. 모델이 얼마나 복잡한지, 계산량이 얼마나 많은지는 뒷전이였던 것이다. 그 결과 이때 당시(2017) SOTA(State-of-the-Art) 모델들은 성능은 좋지만, 너무 무겁고 느린 속도를 갖게 되었다.현재 우리가 살고 있는 시대는 모바일 시대이다. 우리가 살아가는 세상은 스마트폰, AR/VR 기기, 드론 등과 같은 모바일 플랫폼이 대다수이다. 우리가 사용하는 이 작은 기기들은 거대한 서버 컴퓨터와 다르다. 작은 기기들(모바일, 엣지..