CNN
-
[Paper Reivew] SQuant: ON-THE-FLY Data-Free Quantization VIA Diagnal Hessian Approximation (Guo et al., ICLR 2022)카테고리 없음 2026. 2. 19. 00:38
딥러닝 모델을 경량화하는 데 있어 Quantization은 선택이 아닌 필수이다. 그런데 여기서 가장 골치 아픈 문제는 바로 "데이터"이다. 개인정보 보호나 보안 문제 때문에 원본 학습 데이터를 사용할 수 없는 경우가 허다하다. 그래서 나온 개념이 Data-Free Quantization(DFQ)이다. 말 그대로 데이터 없이 양자화를 진행하는 것이다.하지만 지금까지의 DFQ는 데이터가 없으니 정확도가 뚝 떨어지거나, 이를 보완하기 위해 가짜 데이터(Synthetic Data)를 생성하려다 보니 시간이 너무 오래걸리고 비용이 많이 들었다. 이 문제를 해결하기 위해 SQuant를 제안한다.SQuant 저자들은 양자화로 인해 발생하는 손실(Loss)을 수학적으로 분석하기 위해 2차 미분 정보인 Hessian에..
-
[Paper Review] Post training 4-bit quantization of convolutional networks for rapid-deployment (Banner et al., Intel, 2019)Paper Review/Model Compression 2026. 2. 18. 22:35
합성곱 신경망(CNN)은 성능은 뛰어나지만, 연산 과정에서 엄청난 메모리 대역폭과 저장 공간을 소모한다. 이를 해결하기 위해 소수점 데이터를 정수 데이터로 바꾸는 '양자화'를 사용하는데, 문제는 기존의 방식들(예: 8-bit 미만 양자화)이 성능 하락을 막기 위해 전체 데이터셋을 가지고 다시 학습(Fine-Tuning)하는 과정을 거쳐야 한다는 점이다. 하지만 실제 현장에서는 보안이나 개인 정보 문제로 전체 데이터를 사용할 수 없는 경우가 많고, 학습 자체에 들어가는 시간과 비용도 만만치 않다. 이 논문은 바로 데이터가 부족하고 다시 학습할 시간도 없는데, 어떻게 하면 4-bit 수준의 정밀한 양자화를 성공시킬 수 있을까?라는 질문에서 연구를 시작한다.이 논문은 추가 학습 없이도 정확도를 유지하기 위해 ..
-
[Paper Review] MobileNetV2: Inverted Residuals and Linear Bottlenecks (Sandler et al., 2019)Paper Review/Model Architectures 2026. 2. 6. 03:02
MoblieNetV1이 Depthwise Separable Convolution을 이용해 경량화의 가능성을 증명했다면, V2는 그 구조를 한 단계 더 진화시켜 '효율'과 '성능'이라는 두 마리 토끼를 어떻게 더 완벽하게 잡을 것인가에 대한 해답을 제시한다.논문의 Abstract에서는 저자들이 MobileNetV2가 단순한 분류(Classification)를 넘어 객체 탐지(SSDLite)와 시멘틱 세그멘테이션(Mobile DeepLabv3) 등 다양한 테스크에서 당시 최고 수준(State-of-the-art)의 성능을 달성했음을 강조한다.MobileNetV1에서 V2로 넘어갈 때, 가장 핵심적인 변화는 두 가지이다. 하나는 Inverted Residual(역잔차 구조)이고, 다른 하나는 Linear Bo..
-
[Paper Review] Deep Residual Learning for Image Recognition(He et al., 2015)Paper Review/Model Architectures 2026. 2. 3. 15:55
이때 당시(2015), 딥러닝의 핵심은 '깊이(Depth)'에 있었다. 층을 깊게 쌓을수록 모델은 이미지의 아주 미세한 특징부터 복잡한 구조까지 단계별로 학습할 수 있게 된다는 의미이다. 하지만 연구자들이 실제로 층을 계속 쌓아보니 이상한 현상이 발생했다.과거에는 층이 깊어지면 'Gradient Vanishing/Exploding' 문제로 학습 자체가 안되는 게 문제였지만, 이는 배치 정규화(Bath Normalization)같은 기술로 어느정도 해결된 상태였다. 그런데 그 문제가 해결되었음에도 불구하고, 일정 깊이를 넘어서면 Degradation(퇴화)이라는 새로운 문제가 발생한다.위 그림을 보면 확인할 수 있는게, 56층짜리 일반(Plain) 네트워크가 20층짜리보다 훈련 오차(Training err..
-
[Paper Review] An Introduction to Convolutional Neural Networks (O'Shea & Nash, 2015)Paper Review/Model Architectures 2026. 1. 28. 22:27
인공 신경망(ANN)은 인간의 뇌 신경계가 작동하는 방식에서 영감을 받아 설계된 계산 처리 시스템이다. 뇌 속에 수많은 뉴런이 얽혀 있듯이, ANN 역시 수많은 계산 노드(Computational nodes)들이 상호 연결되어 분산된 방식으로 데이터를 처리한다.위 그림을 보면, 가장 기본적인 3계층 구조가 나온다.입력층 (Input Layer) : 외부 데이터를 다차원 벡터 형태로 받아들여 분배한다.은닉층 (Hidden Layer) : 이전 층에서 받은 정보를 바탕으로 결정을 내린다. 여기서 저자들은 "자신의 내부 상태에 확률적인 변화(stochastic change)를 주어 최종 결과가 개선되는지 나빠지는지를 따져보는 것"이 바로 "학습(Learning)"이라고 정의한다.출력층 (Output Layer..
-
[Paper Review] Data-Free Quantization Through Weight Equalization and Bias Correction (Nagel et al., ICCV 2019)Paper Review/Model Compression 2026. 1. 28. 02:30
과거에 연구실의 고성능 GPU 서버에서만 돌아가던 모델들이, 이제는 클라우드를 넘어 엣지 디바이스(Edge Devices), 즉 스마트폼이나 IoT 기기로 들어오고 있다.그런데 이런 디바이스들은 전력도 제한적이고, 계산 속도(Latency)도 빨라야한다. 그래서 연구자들은 무거운 32비트 부동소수점(FP32) 대신, 가볍고 빠른 8비트 고정소수점(Fixed-point quantization, INT8)을 사용하여 추론(Inference) 효율을 높이려고 노력해왔다.하지만 문제는, 멀쩡하던 FP32 모델을 8비트로 깎아내리면(Quantization), 성능 저하(Degradation)가 발생한다는 것이다. 어떤 모델은 조금 떨어지고 말지만, MobileNetV2처럼 효율적인 구조를 가진 모델들은 성능이 처..
-
[Paper Review] Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference (Jacob et al., 2017)Paper Review/Model Compression 2026. 1. 27. 00:02
딥러닝의 역사를 바꾼 AlexNet이 등장한 이후, CNN(Convolution Neural Networks) 모델들은 많은 발전을 이루어냈다. 하지만 여기에는 한 가지 맹점이 존재한다. 바로 "정확도(Accuracy)"라는 숫자를 높이는 데만 너무 집중을 해버린 것이다. 모델이 얼마나 복잡한지, 계산량이 얼마나 많은지는 뒷전이였던 것이다. 그 결과 이때 당시(2017) SOTA(State-of-the-Art) 모델들은 성능은 좋지만, 너무 무겁고 느린 속도를 갖게 되었다.현재 우리가 살고 있는 시대는 모바일 시대이다. 우리가 살아가는 세상은 스마트폰, AR/VR 기기, 드론 등과 같은 모바일 플랫폼이 대다수이다. 우리가 사용하는 이 작은 기기들은 거대한 서버 컴퓨터와 다르다. 작은 기기들(모바일, 엣지..