DeepLearning
-
[Paper Review] Token Merging: Your ViT But Faster (ICLR, 2023)Paper Review/Model Compression 2026. 3. 14. 14:50
양자화가 모델의 가중치나 활성화 값의 정밀도를 낮춰 메모리와 연산량을 줄인다면, 이 논문은 트랜스포머가 처리하는 데이터의 단위인 '토큰(Token)'의 개수 자체를 줄여버림으로써 연산 병목을 해결하고자 하는 아주 직관적인 방법론을 제시한다.트랜스포머 모델, 특히 컴퓨터 비전 분야에서 널리 쓰이는 ViT(Vision Transformer)는 성능은 대단히 훌륭하지만, 연산량이 너무 많다는 치명적인 단점이 존재한다. 이 논문에서는 새롭게 모델을 처음부터 다시 학습시킬 필요 없이, 기존에 잘 학습된 ViT 모델의 처리 속도를 획기적으로 높일 수 있는 '토큰 병합(ToMe)'이라는 아주 간단하면서도 강력한 방법을 제안하고 있다.이 기술의 핵심 아이디어는 트랜스포머 층을 통과할 때마다 서로 비슷한 의미나 정보를 ..
-
[Paper Reivew] SQuant: ON-THE-FLY Data-Free Quantization VIA Diagnal Hessian Approximation (Guo et al., ICLR 2022)카테고리 없음 2026. 2. 19. 00:38
딥러닝 모델을 경량화하는 데 있어 Quantization은 선택이 아닌 필수이다. 그런데 여기서 가장 골치 아픈 문제는 바로 "데이터"이다. 개인정보 보호나 보안 문제 때문에 원본 학습 데이터를 사용할 수 없는 경우가 허다하다. 그래서 나온 개념이 Data-Free Quantization(DFQ)이다. 말 그대로 데이터 없이 양자화를 진행하는 것이다.하지만 지금까지의 DFQ는 데이터가 없으니 정확도가 뚝 떨어지거나, 이를 보완하기 위해 가짜 데이터(Synthetic Data)를 생성하려다 보니 시간이 너무 오래걸리고 비용이 많이 들었다. 이 문제를 해결하기 위해 SQuant를 제안한다.SQuant 저자들은 양자화로 인해 발생하는 손실(Loss)을 수학적으로 분석하기 위해 2차 미분 정보인 Hessian에..
-
[Paper Review] Post training 4-bit quantization of convolutional networks for rapid-deployment (Banner et al., Intel, 2019)Paper Review/Model Compression 2026. 2. 18. 22:35
합성곱 신경망(CNN)은 성능은 뛰어나지만, 연산 과정에서 엄청난 메모리 대역폭과 저장 공간을 소모한다. 이를 해결하기 위해 소수점 데이터를 정수 데이터로 바꾸는 '양자화'를 사용하는데, 문제는 기존의 방식들(예: 8-bit 미만 양자화)이 성능 하락을 막기 위해 전체 데이터셋을 가지고 다시 학습(Fine-Tuning)하는 과정을 거쳐야 한다는 점이다. 하지만 실제 현장에서는 보안이나 개인 정보 문제로 전체 데이터를 사용할 수 없는 경우가 많고, 학습 자체에 들어가는 시간과 비용도 만만치 않다. 이 논문은 바로 데이터가 부족하고 다시 학습할 시간도 없는데, 어떻게 하면 4-bit 수준의 정밀한 양자화를 성공시킬 수 있을까?라는 질문에서 연구를 시작한다.이 논문은 추가 학습 없이도 정확도를 유지하기 위해 ..
-
[Paper Review] Activation Quantization of Vision Encoders Needs Prefixing Registers (Kim et al., 2025)Paper Review/Model Compression 2026. 2. 17. 05:59
꽤나 유명한 CLIP이나 DINOv2 같은 모델들은 현대 인공지능의 시각 지능을 담당하는 핵심 엔진들이다. 하지만 이런 모델들을 자율주행 웹 에이전트나 로봇 제어 같은 실제 환경에 적용하려면, 엄청난 양의 시각 데이터를 실시간으로 처리해야 한다. 그래서 계산 비용을 줄이는 것이 매우 중요한데, 가장 효과적인 방법 중 하나가 바로 모델의 숫자를 더 작은 비트로 표현하는 '양자화'이다.문제는 8비트(INT8) 수준의 정밀도에서도 양자화가 여전히 어렵다는 것이다. 그 주 범은 바로 Activation Outlier, 즉 모델 내부의 활성화 값 중 유난히 큰 값을 가지는 놈들이다. 이 튀는 값 하나 때문에 전체적인 숫자의 범위를 넓게 잡아야 하고, 결과적으로 나머지 평범한 값들의 정밀도가 뭉개지면서 모델의 정확..
-
[Paper Review] MobileNetV2: Inverted Residuals and Linear Bottlenecks (Sandler et al., 2019)Paper Review/Model Architectures 2026. 2. 6. 03:02
MoblieNetV1이 Depthwise Separable Convolution을 이용해 경량화의 가능성을 증명했다면, V2는 그 구조를 한 단계 더 진화시켜 '효율'과 '성능'이라는 두 마리 토끼를 어떻게 더 완벽하게 잡을 것인가에 대한 해답을 제시한다.논문의 Abstract에서는 저자들이 MobileNetV2가 단순한 분류(Classification)를 넘어 객체 탐지(SSDLite)와 시멘틱 세그멘테이션(Mobile DeepLabv3) 등 다양한 테스크에서 당시 최고 수준(State-of-the-art)의 성능을 달성했음을 강조한다.MobileNetV1에서 V2로 넘어갈 때, 가장 핵심적인 변화는 두 가지이다. 하나는 Inverted Residual(역잔차 구조)이고, 다른 하나는 Linear Bo..
-
[Paper Review] Deep Residual Learning for Image Recognition(He et al., 2015)Paper Review/Model Architectures 2026. 2. 3. 15:55
이때 당시(2015), 딥러닝의 핵심은 '깊이(Depth)'에 있었다. 층을 깊게 쌓을수록 모델은 이미지의 아주 미세한 특징부터 복잡한 구조까지 단계별로 학습할 수 있게 된다는 의미이다. 하지만 연구자들이 실제로 층을 계속 쌓아보니 이상한 현상이 발생했다.과거에는 층이 깊어지면 'Gradient Vanishing/Exploding' 문제로 학습 자체가 안되는 게 문제였지만, 이는 배치 정규화(Bath Normalization)같은 기술로 어느정도 해결된 상태였다. 그런데 그 문제가 해결되었음에도 불구하고, 일정 깊이를 넘어서면 Degradation(퇴화)이라는 새로운 문제가 발생한다.위 그림을 보면 확인할 수 있는게, 56층짜리 일반(Plain) 네트워크가 20층짜리보다 훈련 오차(Training err..
-
[Paper Review] In Search of a Data Transformation That Accelerates Neural Field(Seo et al., 2024)Paper Review/3D Vision 2026. 2. 3. 13:11
Neural Field(신경장)이란, 기존의 이미지는 픽셀 값들의 행렬(Grid)로 저장되었다면, Neural Field는 "좌표 $(x, y)$를 넣으면 색상 $(R, G, B)$가 나오는 함수" 자체를 신경망으로 학습시키는 방식이다. 이 방식은 고차원 데이터를 아주 세밀하게 표현할 수 있다는 장점이 있어서 3D 장면을 복원하는 NeRF 같은 기술의 핵심이 되었다. 하지만 치명적인 단점이 하나 존재하는데, 바로 데이터를 하나하나 표현할 때마다 신경망을 새로 '과적합(Overfitting)' 시켜야한다는 점이다. 이미지를 한 장 저장하려고 수천 번의 SGD(확률적 경사 하강법) 학습을 거쳐야 하니 시간이 너무 오래걸리게 된다.이 학습 속도를 늦추는 주범으로 논문은 최적화 편향(Optimization Bi..
-
[Paper Review] An Introduction to Convolutional Neural Networks (O'Shea & Nash, 2015)Paper Review/Model Architectures 2026. 1. 28. 22:27
인공 신경망(ANN)은 인간의 뇌 신경계가 작동하는 방식에서 영감을 받아 설계된 계산 처리 시스템이다. 뇌 속에 수많은 뉴런이 얽혀 있듯이, ANN 역시 수많은 계산 노드(Computational nodes)들이 상호 연결되어 분산된 방식으로 데이터를 처리한다.위 그림을 보면, 가장 기본적인 3계층 구조가 나온다.입력층 (Input Layer) : 외부 데이터를 다차원 벡터 형태로 받아들여 분배한다.은닉층 (Hidden Layer) : 이전 층에서 받은 정보를 바탕으로 결정을 내린다. 여기서 저자들은 "자신의 내부 상태에 확률적인 변화(stochastic change)를 주어 최종 결과가 개선되는지 나빠지는지를 따져보는 것"이 바로 "학습(Learning)"이라고 정의한다.출력층 (Output Layer..