3D 카메라의 진짜 힘: 깊이 센서와 사진측량이 바꾸는 제작 워크플로

3D 카메라라고 하면 많은 사람이 아직도 “안경 쓰고 보는 입체 영상”부터 떠올린다. 실제로 2009년 전후의 3D 붐은 그런 기대 위에서 커졌다. 하지만 시간이 지나고 남은 것은 다른 종류의 3차원 기술이었다. 눈을 속이는 입체 효과보다, 카메라가 장면의 깊이와 형태를 얼마나 잘 파악하느냐가 더 중요해진 것이다.

지금의 변화는 여기서 출발한다. 깊이 센서는 사진을 더 잘 편집하게 만들고, 사진측량(photogrammetry)은 여러 장의 이미지를 3D 모델로 바꾸며, 모바일 기기의 전면 센서는 얼굴 표정을 실시간 데이터로 바꾼다. 여기에 여러 장의 사진으로 장면을 연속적인 3차원 표현처럼 학습하는 NeRF와, 수많은 3차원 점으로 장면을 빠르게 그리려는 3D Gaussian Splatting 같은 연구 흐름까지 더해지면서, “현실을 디지털 자산으로 가져오는 비용”이 빠르게 낮아지고 있다.

이 글에서는 3D 카메라의 가치를 입체 영상이 아니라 깊이 정보, 복원, 캡처의 관점에서 다시 정리해 보려 한다.

깊이 정보는 사진을 찍는 순간보다 편집 단계에서 더 강하다

깊이 센서의 가장 대중적인 성공 사례는 Apple의 인물 사진 모드(Portrait mode)다. Apple은 공식 안내에서 인물 사진 모드가 피사체는 선명하게 두고 배경에는 얕은 심도(depth-of-field) 효과를 만든다고 설명한다. 더 흥미로운 부분은 촬영 후 편집이다. 사용자는 사진을 찍은 뒤에도 심도 조절(Depth Control)로 배경 흐림 정도를 바꿀 수 있고, 일부 모델에서는 사진 모드로 찍은 결과물에도 인물 사진 효과를 나중에 적용할 수 있다.

이건 단순한 “예쁜 카메라 기능”이 아니다. 카메라가 장면의 깊이 정보를 함께 저장하거나 추론하기 때문에 가능한 후편집이다. 예전 같으면 배경 분리, 심도 표현, 초점 느낌 조정이 모두 촬영 시점의 장비와 렌즈 선택에 더 강하게 묶여 있었다. 지금은 일부 효과가 촬영 후 소프트웨어 단계로 넘어왔다.

물론 이것이 곧 사진이 완전한 3D 씬이 되었다는 뜻은 아니다. 하지만 최소한 한 장의 이미지가 더 이상 완전히 평면적인 기록만은 아니라는 점은 분명하다. 깊이 정보가 붙는 순간, 사진은 편집 가능한 공간 데이터를 일부 포함한 결과물이 된다.

게임 에셋 제작에서 중요한 건 “깊이 센서”보다 “현실을 3D로 바꾸는 파이프라인”이다

게임 개발자에게 더 직접적인 변화는 포토그래메트리와 3D 스캐닝 쪽에서 나타난다. Quixel의 Megascans는 이 흐름을 가장 잘 보여주는 사례다. Epic Games는 Quixel Megascans를 “광범위한 2D 및 3D photogrammetry assets library”라고 소개한다. 즉, 현실의 표면과 물체를 촬영해 디지털 자산으로 만들고, 그것을 바로 제작 파이프라인에 투입하는 방식이 이미 업계 표준 자산 공급망 중 하나가 된 셈이다.

중요한 것은 여기서 필요한 진입 장벽이 예전보다 낮아졌다는 점이다. RealityScan은 공식 페이지에서 여러 장의 이미지로부터 고충실도 3D 모델과 포인트 클라우드를 만들 수 있다고 설명하고, 모바일 앱은 “photos to 3D models in minutes”를 전면에 내세운다. 모바일 앱 소개만 봐도 피사체를 여러 각도에서 촬영하고, 실시간 피드백을 받으며, 생성된 모델을 다른 3D 소프트웨어로 내보내는 흐름이 이미 대중화되고 있음을 알 수 있다.

그래서 오늘날 실무에서 정말 중요한 질문은 “깊이 카메라가 있느냐”보다 “현실 데이터를 어떤 비용으로 에셋화할 수 있느냐”에 가깝다. LiDAR는 레이저로 주변 거리와 형태를 측정하는 센서 계열인데, 이런 장비가 있으면 일부 상황에서 도움을 받을 수 있지만 사진측량만으로도 꽤 많은 작업이 가능해졌다. 이 변화는 인디 팀이나 소규모 아트팀에 특히 크다. 처음부터 모든 것을 손으로 모델링하지 않아도 되는 선택지가 생기기 때문이다.

모바일 기기는 얼굴 캡처의 장벽도 낮췄다

깊이 기반 카메라가 게임 제작에 준 또 하나의 변화는 얼굴 표정 캡처다. Apple Developer 문서는 얼굴 추적(face tracking)에 전면 TrueDepth 카메라가 필요하다고 설명하는데, TrueDepth는 아이폰 전면에서 깊이 정보를 읽는 얼굴 인식용 카메라 시스템이다. 또 ARKit은 애플의 증강현실 개발 프레임워크로, 얼굴 표정을 세분화한 블렌드셰이프 계수(blendShapes)를 제공한다. 즉, 얼굴 움직임을 실시간으로 추적하고 디지털 캐릭터 애니메이션 데이터로 바꾸는 기반이 이미 모바일 플랫폼 차원에서 마련되어 있다.

언리얼 엔진 쪽에서도 이 흐름은 명확하다. Epic Games는 Live Link Face 앱이 iPhone의 TrueDepth 전면 카메라와 ARKit을 활용해 얼굴을 실시간 추적하고, 그 데이터를 네트워크를 통해 Unreal Engine으로 전송한다고 설명한다. 이 말은 곧 예전에는 전용 스튜디오나 고가 장비가 있어야 가능했던 얼굴 캡처의 일부가 이제는 상대적으로 저렴한 소비자 기기로 내려왔다는 뜻이다.

물론 모바일 캡처가 전문 스테이지를 완전히 대체하는 것은 아니다. 절대적인 정확도, 다중 배우 캡처, 후반 파이프라인 통합까지 생각하면 여전히 전문 환경의 강점이 있다. 그래도 프로토타입, 인디 프로젝트, VTuber 파이프라인, 1인 제작 환경에서는 “아이폰 한 대로 시작할 수 있다”는 사실 자체가 작업 범위를 크게 넓힌다.

NeRF와 Gaussian Splatting은 “사진에서 3D로” 가는 연구 속도를 끌어올렸다

최근 3D 복원 이야기를 할 때 빠지지 않는 이름이 NeRF다. NeRF는 Neural Radiance Fields의 약자로, 여러 장의 사진으로부터 장면을 연속적인 3D 표현처럼 학습하는 방법이다. 2020년 NeRF 논문은 알려진 카메라 포즈를 가진 이미지 집합만으로 복잡한 장면의 사실적인 새로운 시점을 렌더링할 수 있다고 설명했다. 쉽게 말해, 여러 장의 2D 사진으로부터 장면을 연속적인 3D 표현처럼 다루는 길이 본격적으로 열린 것이다.

그 뒤를 이은 3D Gaussian Splatting은 장면을 수많은 3차원 가우시안 점으로 표현해 더 빠르게 렌더링하려는 방법이다. 2023년 논문은 고품질 장면에 대해 1080p 기준 실시간 렌더링을 목표로 하며, 기존 radiance field 계열의 품질과 속도 문제를 동시에 개선하려고 한다고 밝힌다. 이 지점이 중요한 이유는 연구 단계의 3D 복원이 “멋지지만 느린 데모”에서 “실시간에 가까운 표현”으로 이동하기 시작했기 때문이다.

이 변화가 당장 모든 게임 파이프라인을 바꿨다고 말하는 것은 이르다. 편집성, 메모리, 충돌 처리, 머티리얼 워크플로 같은 과제가 여전히 남아 있다. 하지만 큰 흐름은 분명하다. 현실을 사진이나 영상으로 캡처하고, 그 결과를 3D 형태로 재구성하고, 다시 실시간에 가깝게 보여주는 경로가 매년 더 짧아지고 있다.

그래서 3D 카메라의 본질은 “보는 방식”이 아니라 “만드는 방식”에 있다

3D 카메라의 가치를 입체 영상으로만 보면 왜 시장이 식었는지만 보게 된다. 하지만 깊이 정보와 복원 워크플로의 관점에서 보면 이야기가 달라진다.

깊이 정보는 사진의 후편집 가능성을 넓힌다.
사진측량은 현실의 물체와 공간을 게임 에셋 후보로 바꾼다.
TrueDepth와 ARKit은 얼굴 캡처를 소형 기기로 끌어내린다.
NeRF와 Gaussian Splatting은 사진 기반 3D 복원의 품질과 속도를 동시에 끌어올리고 있다.

즉, 3D 카메라는 단순히 “더 입체적으로 보여주는 장치”가 아니라, 현실을 디지털 제작 파이프라인에 더 쉽게 편입시키는 장치다.

핵심 정리

3D 카메라의 진짜 힘은 입체 영상이 아니라 깊이 정보와 3D 복원 워크플로에 있다. Apple의 Portrait mode는 깊이 정보를 활용해 촬영 후에도 심도 효과를 조정할 수 있게 했고, RealityScan과 같은 도구는 모바일 사진만으로도 3D 모델을 만드는 과정을 대중화하고 있다. ARKit과 Live Link Face는 얼굴 캡처의 진입 장벽을 낮췄고, NeRF와 3D Gaussian Splatting은 사진 기반 3D 장면 복원의 표현력을 빠르게 밀어올리고 있다.

게임 개발 관점에서 이 변화의 핵심은 하나다. 현실 세계를 디지털 자산으로 바꾸는 비용이 계속 내려가고 있다는 것이다.

마치며

예전에는 3D 스캐닝과 페이셜 캡처가 “대형 스튜디오의 전유물”처럼 느껴졌다. 지금은 여전히 품질과 규모 면에서 전문 장비의 강점이 남아 있지만, 시작점 자체는 훨씬 가까워졌다. 휴대폰과 공개 도구만으로도 테스트용 자산을 만들고, 얼굴 애니메이션을 스트리밍하고, 현실 물체를 게임용 참고 모델로 바꾸는 일이 가능해졌기 때문이다.

그래서 3D 카메라의 미래를 묻는다면, 답은 더 화려한 입체 디스플레이보다 더 저렴하고 빠른 제작 파이프라인 쪽에 있을 가능성이 크다. 보는 기술보다 만드는 기술이 더 빠르게 바뀌고 있다.

참고 자료

Apple Support, Use Portrait mode on your iPhone: https://support.apple.com/en-afri/102398
Apple Support, Take portraits with your iPhone camera: https://support.apple.com/guide/iphone/take-portraits-iphd7d3a91a2/18.0/ios/18.0
Apple Newsroom, iPhone 12 Pro and iPhone 12 Pro Max introduce LiDAR Scanner: https://www.apple.com/newsroom/2020/10/apple-introduces-iphone-12-pro-and-iphone-12-pro-max-with-5g/
Apple Developer Documentation, Verifying Device Support and User Permission (ARKit face tracking / TrueDepth): https://developer.apple.com/documentation/ARKit/verifying-device-support-and-user-permission
Apple Developer Documentation, ARFaceAnchor blendShapes: https://developer.apple.com/documentation/arkit/arfaceanchor/blendshapes
Unreal Engine, Live Link Face iOS app: https://www.unrealengine.com/blog/new-live-link-face-ios-app-now-available-for-real-time-facial-capture-with-unreal-engine
Epic Games / Quixel, Megascans official description: https://www.unrealengine.com/pt-BR/blog/epic-games-and-quixel-join-forces-to-empower-creators
RealityScan Mobile: https://www.realityscan.com/mobile?lang=en-US
NeRF paper (2020): https://arxiv.org/abs/2003.08934
3D Gaussian Splatting paper (2023): https://arxiv.org/abs/2308.04079

3D 카메라의 진짜 힘: 깊이 센서와 사진측량이 바꾸는 제작 워크플로

3D 카메라의 진짜 힘: 깊이 센서와 사진측량이 바꾸는 제작 워크플로

깊이 정보는 사진을 찍는 순간보다 편집 단계에서 더 강하다

게임 에셋 제작에서 중요한 건 “깊이 센서”보다 “현실을 3D로 바꾸는 파이프라인”이다

모바일 기기는 얼굴 캡처의 장벽도 낮췄다

NeRF와 Gaussian Splatting은 “사진에서 3D로” 가는 연구 속도를 끌어올렸다

그래서 3D 카메라의 본질은 “보는 방식”이 아니라 “만드는 방식”에 있다

핵심 정리

마치며

참고 자료

함께 읽으면 좋은 글