VIT
-
[Paper Review] Activation Quantization of Vision Encoders Needs Prefixing Registers (Kim et al., 2025)Paper Review/Model Compression 2026. 2. 17. 05:59
꽤나 유명한 CLIP이나 DINOv2 같은 모델들은 현대 인공지능의 시각 지능을 담당하는 핵심 엔진들이다. 하지만 이런 모델들을 자율주행 웹 에이전트나 로봇 제어 같은 실제 환경에 적용하려면, 엄청난 양의 시각 데이터를 실시간으로 처리해야 한다. 그래서 계산 비용을 줄이는 것이 매우 중요한데, 가장 효과적인 방법 중 하나가 바로 모델의 숫자를 더 작은 비트로 표현하는 '양자화'이다.문제는 8비트(INT8) 수준의 정밀도에서도 양자화가 여전히 어렵다는 것이다. 그 주 범은 바로 Activation Outlier, 즉 모델 내부의 활성화 값 중 유난히 큰 값을 가지는 놈들이다. 이 튀는 값 하나 때문에 전체적인 숫자의 범위를 넓게 잡아야 하고, 결과적으로 나머지 평범한 값들의 정밀도가 뭉개지면서 모델의 정확..