ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [Paper Review] CATSplat: Context-Aware Transformer with Spatial Guidancefor Generalizable 3D Gaussian Splatting from A Single-View Image
    Paper Review/3D Vision 2026. 4. 5. 15:56

    3D 장면 복원(3D scene reconstruction)은 2D 이미지들을 이용해 3D 공간 모델을 만드는 과정이며, 새로운 시점 합성(Novel View Synthesis, NVS)은 카메라가 찍지 않은 각도에서 본 장면을 가상으로 생성해내는 기술이다. 과거에는 NeRF(Neural Radiance Fields)라는 방식이 유행했는데, 이는 공간을 수학적인 함수로 표현하여 매우 사실적인 결과를 냈지만 계산량이 너무 많아 실시간으로 화면을 보여주기 어렵다는 단점이 존재했다.

    이러한 한계를 극복하기 위해 등장한 것이 바로 3D Gaussian Splatting(3DGS)이다. 3DGS는 공간을 수많은 미세한 '3D 가우스 타원체(Gaussian Primitives)'들의 집합으로 표현한다. 이 방식은 수학적 함수 대신 명시적인 점(Point) 형태의 데이터를 사용하기 때문에 렌더링 속도가 비약적으로 빠르며 실시간 구동이 가능하다는 강력한 장점이 있다.

    최근 연구 흐름은 Generalizable 모델을 만드는 방향으로 가고 있다. 기존 방식들은 새로운 장면을 볼 때마다 모델을 새로 학습시켜야 하는 번거로움이 있어지만, 일반화 가능한 모델은 한 번 학습해두면 처음 보는 장면의 이미지라도 즉시 3D로 복원할 수 있다. 보통 이런 모델들은두 장 이상의 사진을 입력받아 사진 사이의 공통된 부분을 찾는 '교차 뷰 대응(Cross-View correspondence)'을 통해 깊이 정보를 계산한다.

    하지만 이 논문이 주목하는 단일 뷰(Single-View) 환경은 이야기가 다르다. 사진이 한 장뿐이니 비교할 대상이 없어 기하학적 정보를 얻기가 극도로 어렵다. 마치 우리가 한쪽 눈을 감고 물체의 거리를 가늠하기 어려운 것과 비슷하다. CATSplat은 이 '부족한 정보'를 채우기 위해 인간이 세상을 이해하는 방식에서 힌트를 얻었다.

    Context-Aware Transformer with Spatial Guidance는 이름에도 알 수 있듯이, 이 모델은 부족한 시각 정보를 보완하기 위해 문맥(Contextual) 정보와 공간적(Spatial) 가이드를 동시에 활용한다.

    먼저 문맥적 사전 지식(Contextual Prior)은 시각-언어 모델(Visual-Language Model, VLM)을 통해 얻는다. 우리가 부엌 사진을 볼 때, 싱크대 옆에 가스레인지가 있을 것이라고 예측하는 것처럼, VLM은 이미지에서 '나무 수납장이 있는 주방'과 같은 텍스트 설명을 추출하여 3D 구조를 예측하는 데 도움을준다. 아래 그림에서 볼 수 있듯이, 'Kitchen #1'과 'Unseen Kitchen'은 서로 다른 장소지만 '주방'이라는 공통된 의미 정보를 공유함으로써 모델이 처음 보는 장면에서도 당황하지 않고 올바른 가우시안을 배치할 수 있게 하는 '앵커(Anchor)' 역할을 수행한다.

    두 번째는 공간적 가이드(Spatial Guidance)이다. 기존에는 2D 깊이 지도(Depth map)를 단순히 이미지의 한 채널처럼 사용했지만, CATSplat은 이를 3D 공간의 Point Cloud 형태로 다시 투영(Back Project)한다. 깊이 지도는 평면적인 격자에 갇혀 있지만, Point Cloud는 x,y,z 축의 연속적인 3D 좌표 정보를 직접적으로 담고 있다. 모델은 이 3D 특징점들을 통해 공간의 물리적인 구조를 훨씬 더 깊이 있게 이해하게 된다.

    위에 있는 그림을 다시 보면, CATSplat의 전체 흐름이 명확히 보이는데, 시스템은 Encoder, Feed Forward Network, Decoder 세 단계로 구성된 End-to-End 미분 가능한 구조를 가진다. 인코더가 이미지를 분석하면, 모델의 핵심인 피드포워드 네트워크가 앞서 말한 텍스트 정보와 3D 점 특징을 결합하여 '고도로 정보가 풍부한 특징(Highly Informative Image Features)'을 만들어낸다.

    마지막으로 디코더는 이 특징들을 각 픽셀에 대응하는 3D 가우시안들의 위치($\mu$), 불투명도($\alpha$), 공분산($\Sigma$), 그리고 색상 정보($c$)를 예측한다. 아래 그림에서는 이 과정에서 VLM이 텍스트 특징을, 깊이 추정 모델이 Point Cloud를 생성하여 이미지 특징을 강화하는 과정을 요약해서 보여주고 있다.

    결론적으로 CATSplat은 단일 이미지라는 제한된 자원 속에서도, 텍스트를 통한 '상황 이해'와 Point Cloud를 통한 '공간 이해'를 결합함으로써 기존의 한계를 뛰어넘었다. 이는 복잡한 실제 환경에서도 모델이 더 유연하게 작동할 수 있는 기반을 마련했으며, 다양한 데이터셋에서 최고 수준(State-of-the-art)의 성능을 입증하는 결과로 이어졌다.

    Related Work

    Sparse-view 3D Reconstruction

    전통적으로 3D 모델을 만드려면 아주 많은 사진이 필요했지만, NeRF(Neural Radiance Fields)와 같은 신경망 기반 렌더링 기술이 등장하면서 적은 수의 이미지로도 정교한 복원이 가능해졌다. 초기에는 FreeNeRF처럼 주파수를 조절해 학습 효율을 높이거나, pixelNeRF처럼 여러 장의 사진에서 특징을 뽑아 한 번에 복원하는 '피드포워드(Feed-forward)' 방식이 제안되었다. 최근에는 3D Gaussian Splatting(3DGS)이 등장하면서 실시간 렌더링이 가능해졌고, 이를 바탕으로 두 장의 이미지를 이용해 공간을 복원하는 pixelSplat이나 여러 장의 상관관계를 분석하는 MVSplat 같은 모델들이 분야의 주류가 되었다. 여기서 핵심 개념인 '교차 뷰 대응(Cross-view correspondence)'은 서로 다른 각도에서 찍은 사진들 사이의 공통된 지점을 찾아내어 거리감을 계산하는 기술인데, 이는 마치 우리 양쪽 눈이 입체감을 느끼는 원리와 같다.

    하지만 사진이 단 한 장뿐인 단일 뷰(Single-View) 3D 복원으로 넘어오면 문제는 훨씬 까다로워진다. 앞서 말한 '양 눈의 차이'를 이용할 수 없기 때문이다. 초창기에는 SynSin처럼 점들을 투영해 새로운 시점을 흉내 내거나, 여러 장의 투명한 막을 겹쳐 입체감을 주는 MPI(Multiplane Images) 방식이 사용되었다. 기술이 발전하면서 NeRF를 기반으로 MINE이나 BTS 같은 모델들이 등장했고, 최근에는 3DGS를 단일 이미지에 적용한 Splatter Image나 Flash 3D가 선구적인 역할을 했다. 특히 Flash 3D는 외부의 깊이 추정 모델에서 얻은 힌트를 사용해한 장의 사진으로도 가우시안을 배치하는 데 성공했지만, 여전히 한 장의 사진에 담긴 정보만으로는 복잡한 장면을 완벽히 이해하기에 부족함이 있었다.

    이러한 정보의 공백을 메우기 위해 CATSplat이 도입한 세 번째 흐름이 바로 시각-언어 모델(VLM)이다. CLIP이나 ALIGN 같은 초기 VLM은 이미지와 텍스트를 하나의 공통된 수학적 공간에 묶어 '개'라는 단어와 강아지 사진이 서로 가깝게 위치하도록 학습되었다. 최근에는 LLaVA나 BLIP-2처럼 거대 언어 모델(LLM)과 결합하여 이미지의 구체적인 상황을 문장으로 묘사할 수 있는 수준까지 발전했다. CATSplat은 바로 이 점에 착안했다. 이미지 한 장에는 픽셀 정보가 들어있지만, 이를 텍스트로 해석하면 "주방의 가스레인지 위에 냄비가 있다."와 같은 고차원적인 문맥(Context)을 얻을 수 있고, 이것이 3D 복원의 강력한 가이드가 될 수 있다고 본 것이다.

    아래 이미지는 이러한 요소들이 어떻게 하나의 시스템으로 결합되는지 보여준다.

    전체 구조는 크게 3 갈래의 입력으로 시작된다. 중앙에는 원본 이미지가 있고, 위쪽에는 VLM을 통해 얻은 텍스트 정보가, 아래쪽에는 깊이 추정 모델을 거쳐 3D로 변환된 Point cloud 정보가 위치한다. 이 세 가지 정보는 '트랜스포머 레이어(Transformer Layers)' 안에서 하나로 융합된다.

    트랜스포머 내부의 작동 원리를 보면, 이미지 특징($F_i^I$)이 질문을 던지는 주체인 'Query($q$)' 역할을 하고, 텍스트 특징($F_i^C$)과 점 특징($F_i^S$)이 대답을 주는 주체인 'Key($k$)'와 'Value($v$)' 역할을 수행하는 '교차 어텐션(Cross-Attention)' 구조를 취하고 있다. 즉, 이미지가 "여기에 어떤 물체가 있고 거리는 어느 정도인가?"라고 물으면, 텍스트 정보는 "여기는 부엌이니 냉장고가 있을거야"라고 문맥을 짚어주고, 점 특징은 "그 지점의 실제 3D 위치는 여기야"라고 공간 정보를 보충해 주는 방식이다.

    이렇게 정교해진 특징들은 마지막으로 두 개의 디코더를 거친다. 가우시안 디코더는 각 3D 가우시안 타원체의 크기, 색상, 투명도를 결정하고, 오프셋 디코더는 초기 깊이 지도에서 발생할 수 있는 오차를 미세하게 수정하여 가우시안의 정확한 3D 위치($\mu$)를 확정한다. 결과적으로 CATSplat은 한 장의 사진만으로도 여러 정보의 연결 고리를 이용해 마치 여러 장의 사진을 본 것처럼 풍부한 3D 장면을 구성하게 되는 것이다.

    Single-View 3D Reconstruction

    초창기 연구들은 2D 이미지를 3D로 투영하기 위해 물리적인 기하학 구조를 직접 활용하는 전략을 취했다. 그 대표적인 사례인 SynSin은 이미지의 각 픽셀을 3D 공간상의 점으로 간주하고, 이를새로운 시점으로 투영하여 렌더링하는 '미분 가능한 Point Cloud 렌더러'를 도입했다. 이 방식은 Point Cloud라는 명시적인 형태를 사용해 직관적인 복원을 가능하게 했다.

    반면, 또 다른 초기 방식인 MPI(Multiplane Images)는 장면을 서로 다른 깊이에 놓인 여러 장의 투명한이미지 층으로 나누어 표현하는 방식을 선택했다. 마치 여러 장의 유리판에 그림을 그려 겹쳐 놓음으로써 입체감을주는 것과 같은 원리인데, 이는 여러 뷰 사이의 복잡한 상관관계 없이도 단일 이미지에서 직접 깊이감을 예측할 수 있게 해주었다.

    기술의 흐름은 점차 고정된 층이나 점을 넘어, 공간을 연속적인 함수로 표현하려는 NeRF(Neural Radiance Fields)의 시대로 접어들었다. 이 혁신을 단일 뷰에 접목한 MINE은 앞서 언급한 MPI의 BTS라는 모델은 복잡한 구조 대신 상대적으로 덜 복잡한 '연속적인 밀도필드(Continuous density fields)를 이미지로부터 직접 예측함으로써 단일 뷰 복원의 효율성을 높였다. 이러한 연구들은 공간의 빈틈을 수학적으로 매끄럽게 메우는 데 집중하며 복원 품질을 비약적으로 상승시켰다.

    최근에는 렌더링 속도와 품질이라는 두 마리 토끼를 잡기 위해 3D Gaussian Splatting(3DGS)을 활용하는 것이 가장 핫한 주제이다. Splatter Image는 이미지 대 이미지(Image-to-Image) 신경망 구조를 활용해 단일 물체의 3D 가우시안 파라미터를 예측하는 방식을 제안했다. 이 흐름에서 본 논문의 직접적인 비교 대상이되는 Flash3D는 매우 중요한 위치를 차지한다. Flash3D는 별도의 반복적인 최적화 과정 없이, 단 한 번의 연산(Single forward pass)만으로픽셀 단위의 가우시안 파라미터를 예측한다. 특히 기초적인 단일 뷰 깊이 추정 모델로부터 얻은 깊이 단서를 활용해 복원 성능을 높였다.

    하지만 이러한 발전에도 불구하고, 기존 방식들은 오로지 '이미지 안에 담긴 시각적 정보'나 '단순한 2D 깊이 지도'에만 의존한다는 한계가 있었다. 사진 한 장에는 보이지 않는 가려진 영역(Occlusion)이나 복잡한 사물의 맥락 정보가 빠져있기 마련이다.

    CATSplat은 기존의 일반화 가능한 3DGS 프레임워크를 계승하되, 단일 이미지의 정보 부족을 메우기 위해 '두 가지 지능적인가이드'를 도입한다. 하나는 인간의 언어를 통해 사물 간의 관계와 상황을 이해하는 문맥적 가이드이고, 다른 하나는 2D깊이를 넘어선 3D Point Cloud 기반의 공간적 가이드이다.

    Vision-Language Models for Vision Tasks

    전통적인 컴퓨터 비전에서 이미지와 텍스트는 완전히 다른 세상의 데이터, 즉 서로 다른 모달리티(Modality)로 취급되었다. 하지만 최근의 VLM은 대규모 이미지-텍스트 쌍(Image-Text Pair) 데이터를 학습하여, 시각적 정보와 언어적 정보를 하나의 공통된 수치 공간(Shared Embedding Space) 안에서 이해할 수 있게 되었다. 이러한 모델들은 이미지의 내용을 설명하는 캡셔닝(Captioning), 텍스트로 이미지를 찾는 검색(Retrieval), 그리고 이미지에 대해 질문을 던지면 답을 하는 시각적 질의응답(VQA) 등 다양한 분야에서 놀라운 성능을 보여주고 있다.

    VLM의 발전 단계를 보면, 크게 두 시기로 나눌 수 있다. 첫 번째는 CLIP이나 ALIGN으로 대표되는 초기 접근 방식이다. 이들은 '대조 학습(Contrastive Learning)'이라는 기법을 사용하여, "강아지"라는 단어의 벡터와 실제 강아지 사진의 벡터가 수학적으로 가까운 위치에 놓이도록 학습시켰다. 이를 통해 모델은 학습 과정에서 보지 못한 새로운 사물에 대해서도 텍스트 힌트만 있다면 유연하게 대응할 수 있는 '제로샷(Zero-shot) 일반화' 능력을 갖추게 되었다.

    두 번째 단계는 최근 인공지능 열풍의 중심인 거대 언어 모델(LLM)과의 결합이다. BLIP-2나 LLaVA와 같은 최신 모델들은 미리 학습된 강력한 LLM의 언어 공간에 이미지의 시각적 특징을 연결하는 방식을 취한다. 단순히 "개"라는 단어를 인식하는 수준을 넘어, "따뜻한 햇살 아래 잔디밭에서 공을 가지고 노는 갈색 리트리버"와 같이 아주 구체적이고 풍부한 문맥을 파악할 수 있게 된 것이다.

    이러한 발전은 3D 복원 분야에 새로운 가능성을 열어주었다. 단일 이미지로 3D를 복원할 때 가장 큰 문제는 사진에 찍히지 않은 뒷면이나 가려진 부분의 정보가 전혀 없다는 것이다. 이때 VLM은 우리에게 일종의 '상식'을 제공한다. 예를 들어, 사진 속 장소가 "주방"이라는 것을 VLM이 텍스트로 짚어준다면, 모델은 "아, 주방이니까 싱크대 옆에는 보통 조리대가 있고 그 아래엔 수납장이 있겠구나"라는 문맥적 단서(Contextual Clues)를 얻게 된다.

    결국 CATSplat이 VLM의 텍스트 임베딩을 사용하는 이유는 한 장의 사진 속에 숨겨진 추상적인 정보를 끌어내기 위함이다. 픽셀 정보만으로는 파악하기 힘든 사물의 정체, 사물 간의 관계, 장면의 전반적인 구성을 텍스트라는 고차원적인 지도로 변환하여 학습에 활용하는 것이다. 이는 모델이 처음 보는 생소한 장소를 맞닥뜨렸을 때도, 텍스트가 제공하는 '공통된 의미 정보'를 바탕으로 훨씬 더 안정적이고 정확한 3D 가우시안을 생성할 수 있도록 돕는 강력한 무기가 된다.

    Method

    Overview

    CATSplat은 기본적으로 단일 이미지로부터 3D 장면을 구성하는 가우스 원형(Gaussian Primitives)들의 파라미터를 단 한 번의 연산으로 예측하는 '피드 포워드(Feed-forward)' 방식을 취하고 있다. 이 방식의 핵심은 모델이 학습하는 과정에서 수많은 장면을 미리 경험함으로써, 처음 보는 장면(Unseen scene)이라 할 수 있는 단일 이미지 한 장만 보고도 그 안에 담긴 3D 구조를 직관적으로 파악해내는 '일반화 성능'에 있다.

    전체적인 파이프라인의 시작은 우리가 가진 유일한 정보인 입력 이미지 $I \in \mathbb{R}^{H \times W \times 3}$에서 출발한다. 하지만 앞서 언급했듯이 이미지 한 장에는 깊이 정보가 없기 때문에, 연구진은 먼저 학습된 단일 뷰 깊이 추정 모델을 사용하여 잠재적인 가우시안의 중심점이 될 수 있는 깊이 지도 $D \in \mathbb{R}^{H \times W \times 1}$를 예측한다. 여기서 흥미로운 점은 이미지 $I$와 깊이 지도 $D$를 채널 방향으로 결합하여 $\mathbb{R}^{H \times W \times 4}$ 형태의 데이터를 만든 뒤, 이를 ResNet 기반의 이미지 인코더에 통과시킨다는 것이다. 이렇게 하면 인코더가 단순히 색상 정보만 보는 것이 아니라, 예측된 깊이 정보에 최적화된 계층적 깊이 조건부 이미지 특징($F_i^{\mathcal{I}}$)을 뽑아낼 수 있게 된다.

    이 특징들은 이제 본 논문의 핵심 장치인 다중 해상도 트랜스포머(Multi-resolution Transformer)로 전달된다. 트랜스포머의 보통 문장의 앞뒤 맥락을 파악하는 데 탁월하다고 알려져 있는데, 3D 복원에서도 마찬가지로 장면의 전체적인 구조(Global Structures)와 아주 세밀한 디테일(Fine details)을 동시에 파악하는 역할을 수행한다. CATSplat은 총 3개의 레이어를 사용하여 서로 다른 해상도의 특징들을 처리하며, 각 레이어 내부에서는 앞서 우리가 중요하게 다뤘던 두 가지 사전 지식인 '텍스트 정보'와 '3D 점 특징'이 교차 어텐션(Cross-Attention) 메커니즘을 통해 이미지 특징과 상호작용한다.

    이 반복적인 레이어를 거치고 나면, 원래의 이미지 특징은 단순한 시각 정보를 넘어 문맥과 공간 정보를 가득 머금은 고도로 정보가 풍부한 이미지 특징($\tilde{F}_i^{\mathcal{I}}$)으로 거듭나게 된다. 이는 마치 요리사가 식재료(이미지)만 보고 요리하는 것이 아니라, 레시피(텍스트 가이드)와 주방의 도구 배치(공간 가이드)를 모두 숙지한 상태에서 완벽한 요리를 준비하는 것과 같다. 이렇게 완성된 특징들은 마지막 단계인 ResNet 기반의 디코더들로 넘어가게 된다.

    최종적으로 디코더는 각 픽셀에 정렬된 수많은 3D 가우스 원형
    ${(\mu_{j},\alpha_{j},\Sigma_{j},c_{j})}_{j}^{J}$의 파라미터들을 쏟아낸다. 여기서 $\mu_j$는 위치, $\alpha_j$는 불투명도, $\Sigma_j$는 형태를 결정하는 공분산, 그리고 $c_j$는 색상을 나타내는 구면 조화 함수 계수이다. 이 모든 과정이 단 한 번의 전방향 연산(Forward Pass)으로 이루어지기 때문에 실시간성이 매우 유리하며, 복잡한 최적화 과정 없이도 생생한 3D 장면을 재구성할 수 있는 기반이 된다.

    Context-Aware 3D Reconstruction

    이제 CATSplat이 어떻게 단순한 이미지를 넘어 '문맥'을 읽어내는 지, 그 핵심 기술이 문맥 인식 3D 복원을 봐보자.

    우리가 일상에서 마주하는 실제 환경은 교과서처럼 규칙적이지 않으며, 객체들은 저마다의 불규칙한 패턴으로 배치되어 있다. 단 한 장의 사진(Monocular Image)만으로 이러한 복잡한 장면을 복원하는 것이 어려운 이유는 사진 속에 담긴 정보가 기하학적 구조를 완벽히 설명하기에 턱없이 부족하기 때문이다. CATSplat의 저자들은 이 한계를 극복하기 위해 이미지 안에 숨겨진 풍부한 맥락 정보를 '텍스트'라는 형태로 끌어올려 일반화 성능을 높여야 한다고 주장한다.

    이러한 철학을 구현하기 위해 모델은 대규모 시각-언어 모델(VLM)이 가진 방대한 사전 지식을 빌려온다. 구체적인 과정을 살펴보면, 먼저 입력된 이미지 $I$를 보고 VLM에게 "이 이미지를 한 문장으로 자세히 묘사해줘"라는 프롬프트를 던진다. 이때 중요한 점은 모델이 우리가 읽는 실제 문장을 사용하는 것이 아니라, 문장으로 번역되기 직전의 수학적 상태인 텍스트 임베딩($F^C$)을 직접 활용한다는 것이다. 이 임베딩 데이터 안에는 사물의 정체성, 사물 간의 공간적 관계, 그리고 장면의 전반적인 의미(Semantics)가 고스란히 담겨 있어, 3D 가우시안을 어디에 어떻게 배치해야 할지 결정하는 강력한 힌트(Bias)가 된다.

    이렇게 얻은 텍스트의 지혜를 이미지 특징($F^{\mathcal{I}}$)에 부드럽게 주입하기 위해 CATSplat은 교차 어텐션(Cross-Attention) 레이어를 반복적으로 사용한다. 여기서 딥러닝의 핵심 개념인 '차원 맞추기'가 등장하는데, 텍스트 임베딩 $F^C$를 선형 레이어(Linear Layer)에 통과시켜 이미지 특징의 해상도에 맞는 $F_i^C$로 변환하는 과정을 거친다. 아래 그림을 보면 이 과정이 시각적으로 잘 나타나있다.

    이제 준비된 특징들로부터 트랜스포머의 세 가지 구성 요소인 쿼리(Query), 키(Key), 값(Value)을 다음과 같이 추출한다.
    $$\mathbf{Q}i = W_q \cdot F{i}^{\mathcal{I}},;: \mathbf{K}i = W_k \cdot F{i}^{C},;: \mathbf{V}i = W_v \cdot F{i}^{C} \text{ --- (1)}$$

    이 수식에서 $W$는 학습 가능한 파라미터로, 모델이 이미지($Q$)에서 무엇을 궁금해하고 텍스트($K, V$)에서 어떤 정보를 가져올지 스스로 배우게 된다. 이렇게 뽑아낸 요소들은 아래의 어텐션 수식을 통해 하나로 융합된다.
    $$F_i^{\mathcal{IC}} = \text{Softmax}\left(\frac{\mathbf{Q}_i \cdot \mathbf{K}_i^T}{\sqrt{D_i}}\right)\mathbf{V}_i \text{ --- (2)}$$

    이 연산의 결과물인 $F_i^{\mathcal{IC}}$는 단순한 픽셀 정보를 넘어 "이곳은 주방이고, 저기 있는 것은 나무 수납장이다."라는 문맥적 이해가 결합된 아주 영리한 특징이 된다. 위 그림을 다시 보면 흥미로운 장치가 있는데, 바로 비율($\gamma$)을 조절하는 부분이다. 이는 모델이 텍스트 정보에 너무 매몰되지 않고 원래 이미지가 가진 시각적 정보를 적절히 유지하도록 균형을 맞추는 역할을 한다. 이러한 반복 학습 과정을 통해 CATSplat은 단일 이미지라는 제약을 넘어, 마치 우리가 눈으로 본 것을 머릿속 상식과 결합해 공간을 상상하듯 정교한 3D 복원을 수행할 수 있게 된다.

    Spatial Guidance for 3D Insights

    우리가 여러 각도에서 사진을 찍는 멀티 뷰(Multi-View) 환경에서는 서로 다른 시점이 제공하는 정보를 통해 복잡한 3D 구조를 비교적 쉽게 재구성할 수 있지만, 단 한 장의 사진만 사용하는 단일 뷰 환경에서는 이러한 입체적인 단서가 턱없이 부족하다. CATSplat은 이 정보를 보완하기 위해 단순히 평면적인 2D 깊이 지도(Depth map)를 사용하는 수준을 넘어, 이를 실제 3D 공간의 점들로 변환하여 모델에게 '진정한 공간적 통찰력'을 제공하는 전략을 취한다.

    가장 먼저 이해해야 할 핵심 개념은 역투영(Unprojection)이다. 우리가 흔히 보는 사진은 3D 세상을 2D 평면으로 압축한 결과물인데, 이를 다시 3D로 되돌리는 과정이 바로 역투영이다. 모델은 먼저 예측된 2D 깊이 값 $d$를 바탕으로, 카메라의 고유 파라미터 행렬 $K$를 이용해 각 픽셀 $u$를 3D 공간상의 좌표 $p$로 변환한다. 수학적으로는 $p = K^{-1} \cdot u \cdot d$라는 식을 통해 계산되며, 이를 통해 평면적인 격자 구조에 갇혀 있던 정보가 비로소 연속적인 x,y,z 축을 가진 Point Cloud 데이터 $P$로 확장된다.

    이렇게 생성된 점 구름은 정적인 깊이 정보보다 훨씬 풍부한 기하학적 세부 사항, 예를 들어 물체의 표면 방향(Surface orientation)이나 객체 간의 입체적 거리 관계를 담고 있다. CATSplat은 이 Point Cloud로 부터 유의미한 특징을 뽑아내기 위해 PointNet 기반의 인코더를 사용하며, 이를 통해 공간적 추론이 가미된 3D 임베딩 $F^S$를 생성한다. 이제 남은 과제는 이 3D 공간 정보를 원래의 2D 이미지 특징과 어떻게 자연스럽게 융합하느냐인데, 여기서 다시 한번 교차 어텐션(Cross-Attention) 메커니즘이 등장한다.

    앞서 텍스트 정보를 융합했던 것과 유사하게, 모델은 이미지 특징($F_i^{\mathcal{IC}}$)으로부터 쿼리($Q'_i$)를 만들고, 3D 점 특징($F_i^{S}$)으로부터 키($K'_i$)와 값($V'_i$)을 생성하여 다음과 같은 어텐션 연산을 수행한다.

    $$F_i^{\mathcal{ICS}} = \text{Softmax}\left(\frac{\mathbf{Q}'_i \cdot \mathbf{K}'^T_i}{\sqrt{D_i}}\right)\mathbf{V}'_i \text{ --- (4)}$$

    이 과정에서 모델은 이미지의 특정 부분이 실제 3D 공간의 어느 지점과 밀접하게 연관되어 있는지를 스스로 학습하게 된다. 특히 이 논문에서 주목할 점은 정보의 균형을 맞추는 잔차 연결(Residual connection) 방식이다. 모델은 다음과 같은 수식을 통해 원래의 시각 정보와 새롭게 유입된 공간 정보를 결합한다.
    $$\tilde{F}i^{\mathcal{ICS}} = \text{Norm}(F{i}^{\mathcal{I}} + \gamma \cdot \text{Dropout}(F_i^{\mathcal{ICS}})) \text{ --- (5)}$$

    여기서 사용된 비율($\gamma$)은 소스 이미지의 핵심 시각 정보를 보존하면서도 두 가지 강력한 사전 지식(텍스트와 공간 가이드)을 얼마나 반영할지 조절하는 '조율사' 역할을 한다. 마지막으로 이렇게 풍부해진 특징들을 Self-Attention 레이어에 통과시켜 전체 특징 공간 내에서 지식이 매끄럽게 흐르도록 정제한다. 결과적으로 완성된 특징 $\tilde{F}_i^{\mathcal{I}}$는 단 한장의 사진에서 얻었다고는 믿기 힘들 정도로 강력한 3D 공간 이해력을 갖추게 되며, 이는 매우 정교한 3D 가우시안을 배치할 수 있는 튼튼한 토대가 된다.

    Gaussian Parameters Prediction

    이전 단게에서 트랜스포머를 토앻 얻은 '고도로 정보가 풍부한 특징($\tilde{F}i^{\mathcal{I}}$)'은 이제 ResNet 기반의 디코덜을 거치며 $J$개의 픽셀 정렬된 3D 가우시안 원형들인 ${(\mu{j},\alpha_{j},\Sigma_{j},c_{j})}_{j}^{J}$로 변환된다. 여기서 각 가우시안은 단순한 점이 아니라, 공간상에 흩뿌려진 '부드러운 타원체'라고 생각하면 이해가 빠를 것이다.

    가장 먼저 결정해야 할 것은 가우시안의 중심점($\mu$)이다. 정교한 복원을 위해 모델은 단순히 초기 깊이 지도 $D$를 그대로 믿지 않고, 이를 보정하기 위한 깊이 오프셋($\delta$)과 중심 정렬을 위한 3D 오프셋($\Delta_{j}$)을 예측한다. 이렇게 정제된 깊이 $\tilde{d} = d + \delta$를 카메라 파라미터 $K$를 사용하여 3D 공간으로 역투영하면 가우시안의 중심점이 생성된다. 수학적으로 $j$번째 가우시안 중심 $\mu_{j}$는 다음과 같이 계산된다.

    $$\mu_{j} = K^{-1} \cdot u \cdot \tilde{d} + \Delta_{j} = (u_{x}\tilde{d}/f_x + \Delta_x, u_{y}\tilde{d}/f_y + \Delta_y, \tilde{d} + \Delta_z) \text{ [cite: 251, 253]}$$

    이 식에서 $u$는 이미지의 픽셀 좌표를 의미하며, 오프셋 덕분에 모델은 단일 이미지에서 발생할 수 있는 미세한 위치 오차를 스스로 교정할 수 있게 된다.

    다음으로 가우시안의 불투명도($\alpha$), 공분산($\Sigma$), 색상($c$)이 결정된다. 불투명도는 시그모이드(Sigmoid) 함수를 통해 0과 1 사이의 값으로 제한되어, 물체가 얼마나 투명한지를 결정한다. 타원체의 형태를 결정하는 공분산 행렬 $\Sigma$는 회전 행렬 $R$과 스케일링 $S$의 조합인 $\Sigma = RSS^T R^T$로 구성되는데, 이는 가우시안이 공간상에서 어떤 방향으로 얼마나 길쭉하게 뻗어 있는지를 정의한다. 마지막으로 색상은 구면 조화 함수(Spherical Harmonics, SH) 계수 $c$로 표현도니다. SH는 각도에 따라 색상이 변하는 특성을 모델링할 수 있게 해주어, 실제 세상의 반사광처럼 보는 방향에 따라 달라지는 현실적인 색감을 구현한다.

    이렇게 생성된 3D 가우시안들은 레스터화(Rasterization)라는 효율적인 연산을 통해 다시 2D 평면의 새로운 시점 이미지 $\hat{I}_t$로 렌더링 된다. 이제 모델이 얼마나 잘 학습했는지 평가하기 위해 실제 정답(Ground Truth) 이미지 $I_t$와 비교하는 손실 함수(Loss function)단계가 필요하다. CATSplat은 세 가지 서로 다른 성격의 손실을 합산하여 최적화를 진행한다.

    이 수식에서 $\mathcal{L}{\ell 1}$은 픽셀 단위의 색상 차이를 아주 직접적으로 계산하며, $\mathcal{L}{ssim}$은 이미지 구조적 유사도를 측정하여 전체적인 형태가 무너지지 않도록 돕는다. 특히 중요한 것은 $\mathcal{L}_{lpips}$인데, 이는 신경망이 인지하는 '지각적 유사도'를 사용하여 인간의 눈에 얼마나 자연스럽고 고품질로 보이는지를 정밀하게 조절한다. 각 손실 항 앞의 하이퍼파라미터 $\gamma$는 모델이 어떤 오차에 더 집중할지를 결정하는 조절 손잡이 역할을 한다.

    결과적으로 CATSplat은 텍스트와 공간 가이드를 통해 얻은 깊은 통찰력을 바탕으로, 수학적으로 정교하게 설계된 가우시안 파라미터를 예측하고, 이를 다각적인 손실 함수로 다듬음으로써 단 한 장의 사진에서 생생한 3D 세상을 창조해낸다.

    Experiments

    CATSplat은 우수성 입증을 위해 대규모 실내 영상 데이터셋인 RealEstate10K (RE10K)**를 중심으로 학습을 진행하였으며, 모델의 범용성을 확인하기 위해 실내(NYUv2), 자연 경관(ACID), 자율 주행 도로(KITTI)와 같이 성격이 완전히 다른 데이터셋들을 활용해 '제로샷(Zero-Shot)' 테스트를 수행핸다.

    실험 결과를 분석하기에 앞서, 3D 복원 분야에서 활용하는 세 가지 핵심 지표를 이해할 필요가 있다.
    먼저 PSNR은 픽셀 단위의 수치적 정확도를, SSIM은 이미지의 구조적 유사도를 측정한다. 마지막으로 LPIPS는 딥러닝 특징을 활용해 인간의 눈이 느끼는 시각적 자연스러움을 평가하는데, 수치가 낮을수록 실제와 더 가깝다는 의미이다.

    위 표를 보면, CATSplat은 기존의 최첨단 모델인 Flash3D나 MINE 등을 모든 지표에서 압도하고 있다. 특히 입력 이미지로부터 거리가 먼 프레임($n=10$ 또는 랜덤)에서도 성능 저하가 적다는 점이 인상적인데, 이는 우리가 주입한 텍스트 문맥과 공간 가이드가 부족한 시각 정보를 효과적으로 메워주고 있음을 시사한다.

    보통 3D 복원은 입력된 사진들 사이의 공간을 채우는 보간(Interpolation)과 사진이 찍히지 않는 바깥 영역을 예측하는 외삽(Extrapolation)으로 나눈다. 위 표는 단 한 장의 사진만 사용하는 CATSplat이 외삽 설정에서 기존의 두 장을 사용하는 모델(pixelSplat, latentSplat)보다 더 높은 성능을 기록했다. 이는 45프레임 이상 떨어진 보이지 않는 영역을 상상해야 하는 극한의 상황에서, VLM의 '상식(문맥 정보)'이 기하학적 계산보다 더 강력한 힘을 발휘할 수 있음을 증명한 것이다.

    위 표는 교차 데이터셋(Cross-dataset) 실험 결과이다. 집 내부 영상으로만 학습한 모델이 드론으로 찍은 자연 경관(ACID)이나 도심 주행 영상(KITTI)에서도 Flash3D보다 뛰어난 복원 품질을 보여준다. 이는 CATSplat이 특정 환경의 픽셀값만 외우는 것이 아니라, 텍스트와 3D Point Cloud를 통해 '공간을 이해하는 법' 자체를 배웠다는 것을 의미한다.

    마지막으로 각 구성 요소의 기여도를 분석한 Ablation Study를 보면, Table 4는 베이스라인 모델에 문맥 정보와 공간 가이드를 각각 추가할 때마다 성능이 계단식으로 상승하며, 두 가지를 모두 사용했을 때 최상의 결과를 낸다는 것을 알 수 있다.

    이러한 정보 융합의 효과는 Fig 5.의 에러 맵(Error Map)에서 시각적으로 극명하게 드러난다. 트랜스포머의 교차 어텐션(CA) 레이어를 반복해서 거칠수록 에러를 나타내는 붉은색 영역이 줄어들고 이미지가 훨씬 선명해지는 것을 확인할 수 있다.

    또한 위 Table 5.에서는 VLM에게 어떤 식으로 질문했을 때 가장 효과적인지를 분석했는데, 단순히 "부엌"이라고 단어만 주는 것보다 구체적인 "한 문장의 설명"을 임베딩으로 사용했을 때 모델이 가장 풍부한 정보를 얻는 것으로 나타났다.

    하지만 여기서 흥미로운 점은 너무 상세한 묘사, 즉 두 문장 이상의 긴 설명(Extended Sentences)을 제공했을 때 오히려 성능이 소폭 하락하거나 정체되는 현상이 발견되었다는 점이다. 이는 지나치게 긴 설명이 실제 이미지에는 없는 정보를 과장하거나 모델을 혼란스럽게 만드는 '과잉 진술'을 포함할 수 있기 때문이다. 결론적으로 물체 간의 관게와 전반적인 구성을 가장 적절하게 담아낼 수 있는 '상세한 한 문장 설명'의 임베딩을 사용하는 것이 최적의 성능을 낸다는 사실을 밝혀 냈다. 이는 딥러닝 모델에게 어떤 '귀납적 편향(Inductive Bias)'을 줄 때, 정보의 양보다 질과 적절한 수위가 얼마나 중요한지를 잘 보여준다.

    기하학적 단서(Geometric Cues)에 대한 분석 역시 공학적으로 매우 유의미한 시사점을 준다. 연구진은 단순히 이미지만 사용하는 것보다 2D 깊이 정보를 결합하는 것이 성능 향상에 필수적임을 확인했지만, 여기서 한 발 더 나아가 정보를 결합하는 '방법'에 대해 고민했다. 단순히 깊이 지도나 역투영된 3D 점들을 이미지 특징 뒤에 이어 붙이는 '단순 결합(Concatenation)' 방식은 기대만큼의 효과를 내지 못했다. 하지만 트랜스포머의 교차 어텐션을 통해 3D 점들의 특징을 이미지 특징과 상호작용하게 했을때, 비로소 모델은 공간의 입체적인 구조를 완벽히 이해하기 시작했다. 이는 2D의 픽셀 세계와 3D의 좌표 세계가 서로 유기적으로 소통할 수 있는 통로를 마련해 주는 것이 핵심임을 시사한다.

    이러한 정밀한 설계의 결과는 시각적 비교(Visual Comparison)에서 극명하게 드러난다. 아래 그림을 보면, 기존의 선도적인 모델 Flash3D와 비교헀을 때 CATSplat은 의자나 싱크대 같은 물체의 위치를 훨씬 정확하게 배치하고 테두리를 선명하게 표현한다. 특히 텍스처가 부족하여 거리감을 잡기 힘든 계단 영역에서도 얼룩덜룩한 유물(Artifacts) 없이 깨끗한 복원을 수행하는 점이 놀랍다.

    또한 아래 그림에서 보여주듯이, CATSplat이 생성한 3D 가우시안 타원체들은 훨씬 더 정돈된 형태를 띄며, 이를 통해 렌더링된 깊이 지도 역시 실제 지형지물과 매우 유사한 고해상도의 결과를 보여준다.

    수치적 지표와 시각적 품질을 넘어, 연구진은 100명의 참여자를 대상으로 대규모 사용자 평가(User Study)를 실시하여 모델의 실효성을 검증했다. 아마존 메카니컬 터크를 통해 진행된 이 평가에서, 사용자들은 거의 90%에 육박하는 압도적인 비율로 CATSplat의 결과물을 선호했다. 특히 7점 리커트 척도 기반의 시각적 품질 평가에서도 CATSplat은 Flash3D를 크게 앞질렀으며, 좁은 신뢰 구간은 이러한 결과가 특정 장면에 국한된 것이 아니라 보편적으로 우수한 성능을 보임을 뒷받침한다.

    논문의 결론에서 저자들은 CATSplat이 단일 뷰 이미지라는 제약을 극복하고 일반화 가능한 3DGS의 새로운 지평을 열었음을 강조한다. 물론 본 모델도 물체에 가려진 영역(Occluded area)이나 이미지의 가장 자리에서 잘린 부분(Truncated area)를 복원하는 데에는 여전히 어려움이 있다는 한계가 존재한다.

    CATSplat이 보여준 '문맥과 공간의 융합'이라는 아이디어는 앞으로 3D Computer Vision이 단순한 기하학 계산을 넘어 인지적 이해의 단계로 나아가는 이정표가 될 것이다.

Designed by Tistory.