-
[Paper Review] EditSplat: Multi-View Fusion and Attention-Guided Optimizationfor View-Consistent 3D Scene Editing with 3D Gaussian SplattingPaper Review/3D Vision 2026. 4. 4. 16:59
최근 AR/VR 산업이 커지면서 사용자가 채팅하듯 텍스트만 입력하면 3D 장면을 실시간으로 수정할 수 있는 기술에 대한 수요가 폭발적으로 늘었다. 하지만 기존 기술들은 두 가지 커다란 벽에 가로막혀 있었다.
첫 번째는 Multi-view Inconsistency 문제이다.
현재 가장 뛰어난 이미지 생성 도구인 2D Diffusion Model을 3D에 그대로 가져다 사용하면, 왼쪽에서 본 얼굴과 오른쪽에서 본 얼굴이 서로 다르게 수정되어 버리는 고질적인 문제가 발생한다.두 번째는 최근 3D 업계의 대세인 3D Gaussian Splatting(3DGS)을 편집할 때 나타나는 최적화 효율 저하이다. 이미 학습이 끝난 기존 가우시안들이 원래의 정보(색상, 형태 등)을 너무 강하게 유지하려다 보니, 새로운 텍스트 명령에 맞춰 변하는 것을 방해하게 되는 것이다.
이 논문에서 제안하는 EditSplat은 이 두 가지 문제를 해결하기 위해 MFG와 AGT라는 두 가지 장치를 도입한다.
Multi-view Fusion Guidance(MFG)는 3DGS의 기하학적 구조를 활용하여 여러 각도의 시각 정보를 확산 모델의 생성 과정에 직접 주입함으로써, 어떤 방향에서 보더라도 일관된 결과를 만들어낸다. 쉽게 말해, 확산 모델에게 "지금 네가 그리는 이 부분은 저쪽 각도에서도 이렇게 보여야 해"라고 정확한 가이드를 주는 것이다.
Attention-Guided Trimming(AGT)은 3DGS의 명시적인(Explicit) 특성을 십분 활용한다. 확산 모델이 텍스트 명령을 처리할 때 어디에 집중하는지를 나타내는 '어텐션(Attention)' 정보를 이용해, 수정이 필요한 부분의 가우시안들을 솎아내고(Pruning) 선택적으로 최적화한다. 이를 통해 불필요한 과거 정보의 간섭을 줄이고, 아주 정교하고 의미 있는 지역적 편집을 가능하게 만든다.
결론적으로 EditSplat은 이러한 기법들을 통해 텍스트 기반 3D 편집 분야에서 기존의 한계를 넘어선 새로운 기준(SOTA, State-of Art)을 정립했다고 선언한다. 이 연구는 2D의 강력한 생성 능력과 3D의 정교한 구조를 어떻게 유기적으로 결합할 것인가에 대한 매우 세련된 답변을 내놓고 있다.

Related Work
2D 이미지 편집 기술의 한계
3D 생성 모델은 비약적으로 발전해 왔지만, 실제 3D 편집에 적용하기에는 항상 데이터의 부족이라는 장벽에 부딪혔다. 이를 극복하기 위해 연구자들은 방대한 양의 데이터를 학습한 '2D Text-to-Image(T2I) 확산 모델'의 강력함을 3D로 빌려오기 시작했다.
대표적으로는 특정 피사체를 미세 조정하여 편집하는 DreamBooth나, 점진적으로 노이즈 제거 과정을 통해 이미지를 수정하는 DDS 같은 기술들이 등장했다. 또한, 이미지 생성 과정에서 단어와 이미지 영역 간의 관계를 정의하는 'Cross-attention map'을 활용해 정교한 수정을 가능케 한 Prompt-to-Prompt 기술도 큰 획을 그었다.
본 논문인 EditSplat은 이러한 2D 편집 기술 중에서도 InstructPix2Pix(IP2P)를 핵심 엔진으로 채택했다. IP2P는 "이 사람을 사이보그로 바꿔줘" 같은 자연어 지침을 직접 이해하고 이미지를 편집할 수 있는 모델이다. EditSplat은 IP2P의 이미지 가이드 능력을 3DGS의 다시점 정보와 결합하여, 단순히 2D 이미지를 고치는 수준을 넘어 3D 공간에서의 일관성을 확보하고자 했다.
텍스트 기반 3D 장면 편집의 Challenge
텍스트를 이용한 3D 편집의 궁극적인 목표는 정밀하고 효율적인 수정이다. 하지만 여기에는 세 가지 고질적인 난제가 존재한다.
첫째는 여러 각도에서 보았을 때 모습이 일치해야 하는 다시점 일관성(Multi-view consistency),
둘째는 수정하고 싶은 영역만 정확히 골라내는 의미론적 지역화(Semantic localization),
마지막으로는 빠른 수정이 가능하게 하는 최적화 효율성(Optimization efficiency)초기 연구인 IntructNeRF2NeRF는 렌더링된 이미지를 수정하고 모델을 업데이트하는 과정을 반복했지만, 각 시점을 독립적으로 다루었기 때문에 시점 간의 정보가 어긋나는 문제를 피할 수 없었다. 이후 VICA-NeRF나 ConsistDreamer 같은 모델들이 시점 투영 전략을 통해 이 문제를 해결하려 했으나, 투영 과정에서 발생하는 노이즈나 과도한 연산 비용이라는 새로운 숙제를 남겼다. 심지어 에피폴라 라인(Epipolar Lines)을 활용한 기하학적 제약 조건조차 아주 미세한 디테일을 보존하는 데에는 한계가 있었다.
EditSplat의 차별화된 접근 방식
대부분의 기존 연구들은 편집 영역을 지정하기 위해 원본 이미지에서 추출한 '이진 마스크(Binary mask)'에 의존해 왔다. 하지만 이는 수정하고자 하는 대상의 경계가 모호할 경우 편집 성능을 크게 저하시키는 원인이 된다. EditSplat은 이 지점에서 DreamEditor에서 영감을 얻어, 이진 마스크 대신 3D 가우시안에 직접 어텐션 맵을 할당하는 방식을 택했다. 이를 통해 마스크의 제약 없이도 훨씬 정밀하고 의미론적으로 풍부한 지역 편집을 수행할 수 있게 된 것이다.
또한, Edit Splat은 Multi-view consistency를 위해 추가적인 학습이나 복잡한 확산 정제 과정 없이도 순차적인 투영과 블렌딩을 수행하는 MFG(Multi-View Fusion Guidance)를 도입하여 노이즈 문제를 해결했다. 특히 주목할 점은, 이 논문이 3DGS 모델의 최적화 효율 저하 문제를 해결하기 위해 전략적으로 가우시안을 가지치기(Pruning)하는 기법을 제안한 최초의 연구라는 사실이다. 이는 기존 가우시안들이 가진 불필요한 정보의 간섭을 제거함으로써, 더 빠르고 정확한 편집을 가능하게 했다.
Method
Preliminaries
3D Gaussian Splatting은 장면을 연속적인 함수로 보는 NeRF와 달리, 수많은 '비등방성(Anistropic) 가우시안 타원체'의 집합 $G$로 장면을 명시적으로 표현한다. 여기서 각 가우시안 타원체 $g$는 수학적으로 다음과 같은 네 가지 핵심 파라미터를 가진다.
먼저 공간상의 중심 위치를 나타내는 $\mu \in \mathbb{R}^3$
타원체의 크기와 방향(모양)을 결정하는 공분산 행렬 $\Sigma \in \mathbb{R}^{3 \times 3}$
빛의 반사와 색상 특성을 담은 구면 조화 계수 $f \in \mathbb{R}^k$,
그리고 투명도를 결정하는 Opacity $\sigma \in \mathbb{R}$
특히 공분산 행렬 $\Sigma$는 타원체를 회전시키는 행렬 $R$과 크기를 조절하는 행렬 $S$의 조합인 $\Sigma = RSS^T R^T$로 정의되어, 타원체가 단순히 동그란 구 형태가 아니라 길쭉하거나 납작한 다양한 모양을 가질 수 있게 해준다.
이 가우시안 타원체들이 실제 이미지로 그려지는 과정은 가우시안 함수를 정의하는 것에서 시작된다. 구체적으로 가우시안 함수는 $g(x; \mu, \Sigma) = e^{-\frac{1}{2}{x-\mu)^T \Sigma^{-1}(x - \mu)}$로 표현되는데, 이는 중심 $\mu$에서 멀어질수록 값이 지수적으로 감소하는 분포를 의미한다. 렌더링 시에는 이 3D 공간상의 가우시안들을 2D 이미지 평면으로 투영(Project)한 뒤, 하나의 픽셀을 통과하는 광선(Ray)을 따라 가우시안들의 기여도를 합쳐 최종 색상 $C$를 계산한다. 이때 사용되는 수식은 다음과 같다.
$$C = \sum_{i \in N} c_i \alpha_i \prod_{j=1}^{i-1} (1-\alpha_j)$$
여기서 $c_i$는 가우시안의 색상이며, $\alpha_i$는 밀도 값과 Opacity $\sigma$를 곱해 얻은 블랜딩 가중치이다. 이 방식은 대량의 가우시안을 빠르게 계산할 수 있는 타일 기반(Tiled-based) 접근을 지원하여 실시간 렌더링을 가능하게 하며, 실제 장면과의 오차(Photometric loss)를 줄이는 방향으로 파라미터들이 최적화 된다.
Classifier-free Guidance
두 번째 기초 개념은 확산 모델(Diffusion Model)이 우리가 원하는 방향으로 이미지를 생성하도록 조절하는 Classifier-free Guidance(CFG)이다. 이 기법은 생성 모델이 "이미지 조건 $h_I$"과 "텍스트 명령 $h_T$"이라는 가이드라인을 얼마나 강하게 따를지를 수학적으로 결정한다. 본 논문에서 활용하는 InstructPix2Pic(IP2P) 모델의 경우, 노이즈가 섞인 이미지 상태 $z_t$에서 다음에 제거할 노이즈를 예측할 때 이 가이드라인들을 반영한다. 이때 최종적인 노이즈 예측치 $\tilde{\epsilon}_\theta$는 다음과 같은 결합 수식으로 도출된다.
$$\tilde{\epsilon}_\theta(z_t, h_I, h_T) = \epsilon_\theta(z_t, \emptyset, \emptyset) + s_I(\epsilon_\theta(z_t, h_I, \emptyset) - \epsilon_\theta(z_t, \emptyset, \emptyset)) + s_T(\epsilon_\theta(z_t, h_I, h_T) - \epsilon_\theta(z_t, h_I, \emptyset))$$
수식을 자세 뜯어보면, 아무 조건이 없는 상태($\emptyset$)의 베이스 예측치에 "이미지 조건에 의한 변화량"과 "이미지를 아는 상태에서의 텍스트에 의한 변화량"을 더해주는 형태임을 알 수 있다. 여기서 $s_I$와 $s_T$는 각 조건의 영향력을 조절하는 스케일 상수인데, 이 값들을 어떻게 설정하느냐에 따라 원본 이미지를 얼마나 유지할지, 혹은 텍스트 명령을 얼마나 강력하게 반영할지가 결정된다.
EditSplat은 바로 이 CFG의 원리를 3D 공간으로 확장하여, 단순히 2D 이미지를 고치는 데 그치지 않고 여러 시점의 정보를 융합한 $h_M$이라는 새로운 조건을 수식에 추가함으로써 다시점 일관성(Multi-View Consistency)을 확보하고자 한다.
또한, 3DGS의 명시적인 특성 덕분에 확산 모델 내부의 어텐션 맵 정보를 각각의 가우시안에게 직접 전달할 수 있는데, 이것이 바로 AGT 기술의 토대가 된다.Multi-View Fusion Guidance (MFG)
3D 컴퓨터 비전 연구에서 가장 까다로운 문제 중 하나는 서로 다른 각도에서 촬영된 이미지들이 하나의 일관된 3D 기하 구조로 통합되지 못하고 따로 노는 '다시점 불일치' 현상이다. 기존의 연구들은 여러 시점의 정보를 충분히 고려하지 못해 편집된 결과물이 흐릿해지거나 수정 사항이 거의 반영되지 않는 한계를 보였다. EditSplat은 이러한 문제를 정면으로 돌파하기 위해 2D 확산 모델의 생성 과정에 다시점 정보를 직접 주입하는 설계 전략을 취한다.
MFG의 첫 번째 단계인 Multi-View Fusion은 모든 소스 이미지를 확산 모델로 먼저 편집하는 것에서 시작한다. 여기서 핵심적인 공학적 장치는 3DGS가 제공하는 정교한 깊이 맵(Depth map)을 활용하여, 초기 편집된 이미지들을 타겟 시점으로 투영하고 섞어주는 과정이다. 단순히 모든 이미지를 섞는 것이 아니라, 인간의 선호도를 학습한 Image Reward를 도입하여 텍스트와의 정렬 상태나 이미지 품질을 평가하고 점수가 낮은 하위 15%의 이미지는 과감히 제외하여 노이즈를 걸러낸다.
투영 과정에서는 카메라의 위치와 방향을 계산해 타겟 뷰와 가장 가까운 5개의 인접 뷰를 선택하며, 픽셀이 겹치는 영역을 처리하기 위해 깊이 값에 기반한 반복적 알파 블렌딩(Iterative Alpha Blending) 전략을 사용한다. 가장 멀리 있는 픽셀부터 가까운 픽셀 순으로 차례대로 블렌딩을 수행함으로써 3D 공간 상의 선후 관계를 명확히 유지하며 시각적인 디테일을 통합한다. 이렇게 만들어진 이미지가 배경이 비어있는 성긴 상태가 될 때는 SAM(Segment Anything Model)을 활용해 원본 소스의 콘텐츠로 자연스럽게 채워 넣는 정제 과정을 거친다. 그 결과로 탄생한 다시점 융합 이미지 $h_M$은 각 타겟 뷰가 가져야 할 포괄적인 시각적 기하학적 정보를 모두 담게 된다.
두 번째 단계인 Alignment with Multi-View Information에서는 이 융합된 정보 $h_M$을 확산 모델이 어떻게 받아들일 것인지에 대해 수학적 해답을 제시한다. 연구진은 추가적인 모델 학습이나 복잡한 레이어 추가 없이도, Classifier-free Guidance(CFG)의 원리를 확장하여 다수의 조건(Conditioning)을 결합하는 방식을 택했다. 이를 통해 확산 모델은 생성 과정에서 다시점 융합 이미지의 특징, 색상 일관성, 그리고 구조적 속성에 높은 확률을 부여하게 된다. 이 과정에서 원본의 충실도를 유지하기 위해 소스 이미지 $h_s$ 또한 보조 가이드로 함께 사용된다. 이 정교한 제어 메커니즘을 수학적으로 표현한 최종 유도 점수 예측식 $\tilde{\epsilon}_{\theta}$는 다음과 같다.

이 수식에서 $h_M$은 다시점 융합 이미지, $h_S$는 원본 소스 이미지, $h_T$는 텍스트 프롬프트를 의미하며, 각각 $s_M, s_S, s_T$라는 스케일 인자에 의해 영향력이 조절된다. 이러한 방식은 렌더링된 이미지를 수정하고 3D 표현을 업데이트하는 과정을 무수히 반복하던 기존의 방식들과 달리, 소스 이미지 자체를 다시점 일관성을 가진 상태로 직접 편집하기 때문에 최적화 과정이 훨씬 빠르고 정확하다. 결국 MFG는 2D의 생성 자유도와 3D의 기하학적 제약 조건을 수식 하나로 통합해낸 결과물이라고 할 수 있다.
Attention-Guided Tramming (AGT)
앞서 설명한 MFG는 "어떤 모습으로 바뀔지"에 대한 일관된 가이드를 준다면, AGT는 "기존의 3D 구조를 어떻게 효율적으로 뜯어고칠 것인가"에 대한 해답을 제시한다.
3DGS는 특성상 이미 학습된 가우시안들이 원래의 색상이나 형태 정보를 아주 강하게 붙들고 있는 일종의 '기억의 관성'을 가지고 있다. 이 고집스러운 가우시안들은 새로운 편집 명령이 들어와도 잘 변하지 않으려 하며, 이는 결국 최적화 효율을 떨어뜨리고 결과물을 흐릿하게 만드는 원인이 된다. 기존 연구들은 이를 해결하기 위해 단순히 2D 마스크를 씌워 해당 영역만 수정하려 했지만, 이는 편집된 이후의 변화된 의미를 충분히 담아내지 못하는 한계가 있었다.
이 문제를 해결하기 위해 EditSplat은 확산 모델 내부의 어텐션 맵(Attention Map)에 주목한다. 확산 모델이 텍스트 명령을 처리할 때, 특정 단어(예: Clown)가 이미지의 어느 픽셀 영역과 밀접하게 연관되어 있는지를 수치화한 것이 바로 크로스 어텐션(Cross-Attention)이다. 수식으로는 $Softmax(\frac{QK^T}{\sqrt{q}})$로 표현되는데, 여기서 $Q$는 이미지의 특징을, $K$는 텍스트의 임베딩을 의미한다. 연구진은 이 2D 어텐션 맵이 "어디가 바뀌어야 하는지"를 알려주는 가장 정확한 이정표라고 판단했다.
이제 이 2D 정보를 어떻게 3D 가우시안들에게 전달할까? 여기서 Attention Weighting 3D Gaussians 기법이 등장한다. 연구진은 여러 각도($V$)에서 관찰된 2D 어텐션 맵을 역투영(Unproject)하여 각각의 3D 가우시안(j)에 누적된 가중치 $w_j$를 할당한다. 이를 수학적으로 나타내면 다음과 같다.
$$w_j = \frac{1}{\sum_{v \in V} |S_{v,j}|} \sum_{v \in V} \sum_{s \in S_{v,j}} Softmax\left(\frac{Q_vK^T}{\sqrt{q}}\right)_s$$
여기서 $S_{v, j}$는 $v$번째 뷰에서 $j$번째 가우시안에 의해 영향을 받는 어텐션 가중치들의 인덱스 집합을 의미한다. 즉, 모든 각도에서 해당 가우시안이 얼마나 텍스트 명령과 밀접하게 연관되어 있는지를 통합하여 점수를 매기는 것이다. 이렇게 계산된 가중치가 높은 가우시안들은 곧 "대대적인 수정이 필요한 영역"에 위치한 녀석들이라는 의미이다.
여기서 EditSplat은 "Trimming을 선택한다. 연구진은 변화가 많이 일어나야 하는 영역에서 기존의 고집스러운 정보를 가진 가우시안들이 오히려 최적화를 방해한다고 보았다. 그래서 가중치가 높은 상위 $k%$의 가우시안들을 과감하게 제거(Pruning)해 버린다. 이를 수식으로 표현한 것이 아래 수식이다.
$$G_{pruning} = \{g_j | g_j \in G, w_j' \ge Top\text{-}k \% (G) \}$$
이렇게 방해가 되는 가우시안들을 솎아내면($G_{agt} = G \setminus G_{pruning}$), 그 빈자리에 새로운 정보를 담은 가우시안들이 더 효율적으로 생성(Densification)되고 최적화될 수 있는 공간이 생긴다. 마지막으로, 이렇게 정리된 가우시안들을 대상으로 MFG를 통해 얻은 일관된 편집 이미지 ($I_v^{mfg}$)와 실제 렌더링 이미지 사이의 오차를 줄이는 최적화 과정을 거친다.

이때 손실 함수 $\mathcal{L}_{edit}$은 이미지의 픽셀 단위 차이를 보는 $L_1$ 손실과 인간의 지각적 유사도를 측정하는 $LPIPS$를 1:1 비율로 혼합하여 사용한다. 결국 AGT는 어텐션이라는 지능적인 도구를 이용해 3D 공간을 수술하듯 정교하게 도려내고, 새롭게 채워 넣음으로써, 단순한 색칠 공부를 넘어선 진정한 의미의 3D 형태 변형과 정밀한 지역 편집을 가능하게 만든 것이다.
Experiments
Implementation Details
EditSplat은 PyTorch 프레임워크를 기반으로 기존의 3D Gaussian Splatting(3DGS) 위에 구현되었으며, 2D 편집 엔진으로는 앞서 언급한 InstructPix2Pix(IP2P)가 사용되었다. 실험에는 복잡한 실세계 $360 \degree$ 장면을 포함하여 IN2N, BlenderMVS, Mip-NeRF360과 같은 대표적인 데이터셋들이 활용되었다. 특히 주목할만한 점은 "효율성"인데, 단일 RTX A6000 GPU 환경에서 "Face" 장면을 편집하는 데 단 6분밖에 소요되지 않아 실용성을 입증했다.
공정한 비교를 위해 하이퍼파라미터 설정에도 공을 들였다. 텍스트 가이드 스케일($s_T$)은 기존 모델들과 동일한 7.5로 고정하고, 이미지 관련 가이드 스케일($s_M + s_S$)의 합을 기준치인 1.5에 맞추어 실험 조건의 동일성을 확보했다. 또한 AGT의 핵심인 가우시안 제거 비율($k$)은 0.15로 설정하여, 불필요한 가우시안을 효과적으로 솎아낼 수 있도록 설계했다.
Baselines
EditSplat의 성능을 가늠하기 위해 현재 3DGS 기반 편집 기술의 정점에 있는 Gaussian Editor, GaussCtr, 그리고 DGE가 비교군(Baselines)으로 선정되었다. 각 모델은 서로 다른 입력 방식을 취하기도 하는데, 예를 들어 GaussCtrl은 설명형 프롬프트를 사용하므로 연구진은 공정한 대조를 위해 별도의 장면을 생성하여 입력 조건을 일치시키는 세심함을 보였다. 이
Quanlitative Comparisons

곰 조각상을 북극곰이나 맷돼지로 바꾸는 과정에서 여러 각도에서 보아도 질감이 깨지지 않고 유지되는 모습은 MFG의 강력한 다시점 일관성을 증명한다.

특히 "마인크래프트 캐릭터로 바꿔줘"라는 명령에서 다른 모델들은 얼굴 부위에 심한 아티팩트가 생기거나 흐릿한 결과를 내는 반면, EditSplat은 마치 실제 게임 캐릭터처럼 명확하고 각진 기하학적 형태를 구현해냈다.
또한 "가을 분위기로 바꿔줘"라는 명령을 내렸을 때, AGT의 효과가 극명하게 나타난다. 기존 방식들은 배경의 잎 색깔을 바꾸면서 원래 유지되어야 할 테이블의 색상까지 오염시키는 경향이 있었으나, EditSplat은 어텐션 맵을 기반으로 수정이 필요한 가우시안만 정밀하게 타격하여 최적화함으로써 테이블의 원본 색상은 보존하고 단풍만 선명하게 표현하는 '문맥 인지적 지역 편집'을 성공적으로 수행했다.
Quantitative Comparisons
주관적일 수 있는 시각적 품질을 객관화하기 위해 연구진은 인공지능 분야의 표준 지표인 CLIP 점수를 활용했다. 텍스트와 이미지간의 의미적 일치도를 측정하는 $\text{CLIP}{sim}$과 텍스트의 변화 방향과 이미지의 변화 방향이 얼마나 일치하는지를 보는 $\text{CLIP}{dir}$ 모두에서 EditSplat은 경쟁 모델들을 큰 차이로 따돌리며 가장 높은 점수를 기록했다.

위 표의 결과는 단순한 수치 이상의 의미를 갖는다. 특히 100명의 일반인을 대상으로 진행한 사용자 선호도 조사(User Study)에서 EditSplat은 0.4227이라는 압도적인 선택을 받았다. 이는 기계적인 지표뿐만 아니라 실제 사람이 느끼는 시각적 완성도 측면에서도 EditSplat이 현재 텍스트 기반 3D 장면 편집 분야에서 가장 진보된 기술(SOTA)임을 확고히 하는 대목이다.
Ablation Study

먼저 Multi-View Fusion Guidance(MFG)의 존재 이유를 살펴보자. 연구진은 MFG를 제외했을 때 어떤 현상이 발생하는지 관찰했는데, 결과는 꽤나 처참했다. 여러 각도의 정보를 통합하는 MFG가 없으면 2D 편집 모델이 각 시점마다 제멋대로 이미지를 수정하게 되고, 이는 결국 3D 공간에서 충돌을 일으켜 렌더링 결과물이 흐릿해지거나 아예 수정이 일어나지 않는 현상을 초래했다.예를 들어 '스티브 잡스'나 '빈센트 반 고흐'로 변하게 하는 실험에서 MFG가 없을 때는 얼굴이 뭉개지거나 거의 변하지 않았지만, MFG를 적용하자 모든 각도에서 일관되고 선명한 변신이 가능해졌다. 이는 다시점 일관성이 3D 편집의 생명줄임을 다시 한번 확인시켜 준 결과이다.

이어지는 Attention-Guided Trimming(AGT)의 제거 연구는 더욱 흥미로운 시각적 변화를 보여준다. AGT는 특히 코를 빨간 공 모양으로 바꾸는 것과 같은 '기하학적 변형'에서 그 진가를 발휘했다. AGT가 없을 때는 기존에 학습된 가우시안들이 원래의 얼굴 형태를 너무 강하게 기억하고 있어 새로운 코 모양이 제대로 형성되지 못하고 아티팩트만 남는 문제가 발생했다. 하지만 어텐션 맵을 기반으로 변화가 필요한 영역의 가우시안을 솎아내자, 3D 장면은 마치 찰흙을 새로 빚듯 유연하게 변하여 정교한 "마네킹" 얼굴을 만들 수 있었다. 또한 AGT는 편집하지 말아야 할 부분(예: 옷이나 배경)을 건드리지 않게 제어하는 정밀한 역할도 수행한다는 점이 증명되었다.
Conclusion
결론적으로 이 논문은 EditSplat이라는 견고한 프레임워크를 통해 텍스트 기반 3D 장면 편집의 새로운 기준을 세웠다. MFG를 통해 다시점 불일치라는 해묵은 과제를 해결하고, AGT를 통해 가우시안의 최적화 효율과 지역 편집의 정밀도를 획기적으로 끌어올렸다. 물론 모든 연구가 그렇듯 한게점도 명확히 짚고 넘어간다. EditSplat은 기본적으로 2D 확산 모델의 성능과 3DGS가 생성하는 깊이 맵의 품질에 의존하기 때문에, 기반 모델이 복잡한 프롬프트를 이해하지 못하거나 깊이 정보가 부정확할 경우 결과물에 영향을 줄 수 있다. 하지만 연구진은 앞으로 이러한 기반 기술들이 발전함에 따라 EditSplat의 성능 역시 더욱 강력해질 것이라는 긍정적인 전망을 내놓으며 논문을 마무리한다.
'Paper Review > 3D Vision' 카테고리의 다른 글