Avatar 2, Wētā FX의 새로운 안면 파이프라인에 대한 논의

2023년 1월 2일
9분 분량

최종 수정일: 2023년 1월 6일

Joe Letteri, 2022년 12월 21일 MIKE SEYMOUR 게시

Wētā FX는 완전히 새로운 얼굴 파이프라인을 개발했다. 팀은 2019년에 이 획기적인 새로운 접근 방식을 처음 개발했지만 회사는 Avatar: The Way of Water의 출시와 동시에 한국에서 열리는 SIGGRAPH ASIA에서 새로운 접근 방식을 공개했다. 이 심도 있는 논의에서 우리는 Wētā FX Snr과 직접 대화를 나눈다. VFX 슈퍼바이저 Joe Letteri가 새로운 접근 방식을 개발하기로 결정한 이유와 기술 문서의 다른 저자 중 한 명인 Karan Singh에 대해 설명한다.

배경

얼굴 애니메이션의 새로운 시스템은 FACS 인형에서 해부학적 기반으로 근육 섬유 곡선으로 이동하는 것을 기반으로 한다. APFS(Anatomically Plausible Facial System)라고 하는 새로운 접근 방식은 안면 모델링, 애니메이션 및 리타겟팅 전송을 위한 애니메이터 중심의 해부학적으로 영감을 받은 시스템이다.

Figure 1Jake Sully

제이크 설리

새로운 시스템은 Wētā FX가 Golum 이후 지속적으로 사용해 온 수상 경력에 빛나는 FACS 파이프라인을 대체한다. 영화 <Alita: Battle Angel(2019)>을 위해 R&D FACS 접근 방식을 극도로 밀어붙인 Letteri는 FACS 기반 인형 시스템이 얼굴 근육 분리, 커버리지, 선형 조합 사용, 광범위한 중복성. 예를 들어, FACS는 근육으로 표현되는 표정을 나타내는 일련의 얼굴 포즈를 매핑하지만 적절한 얼굴 애니메이션을 얻기 위해 FACS 인형 장치는 최대 900개의 FACS 모양을 장치에 추가하여 애니메이터가 믿을 수 있는 성능 효과를 얻을 수 있도록 한다. FACS가 '잘못'이 아니라 시간 기반 얼굴 애니메이션용으로 설계된 시스템이 아니다. 그것은 말을 중심으로 구축된 것이 아니라 고립된 감정 표현이었다. Letteri는 “아티스트가 얼굴의 동작을 직접 제어할 수 있는 시스템이 필요했다. “FACS 시스템은 외부에서 얼굴만 에뮬레이트하고 기능이 매우 제한적이다. 감정 기반 시스템일 뿐이며 표정을 코딩한다. FACS에 인코딩된 대화는 없으며 대부분 우리가 하는 일은 대화이다.” FACS는 정확한 고립 표현을 나타낼 수 있지만 포즈 간 전환 방법에 대한 정보는 없다. ” Letteri가 설명한다. "또한 일종의 '고무'이다. FACS 시스템은 한 상태에서 다른 상태로 이동할 때 이러한 상태 변경이 기본적으로 얼굴 전체에서 선형으로 발생하기 때문에 매우 고무적일 수 있다."

Letteri와 그의 팀은 처음부터 다시 시작하여 전체 안면 파이프라인에 접근하기로 결정했다. “나는 문제를 살펴보고 생각하기 시작했다. 더 이상 이 일을 하고 싶지 않았다. 이것은 너무 어렵다. 더 나은 방법이있을 것이다.” 그는 회상하였다. “돌아가서 얼굴의 근육과 그것들이 어떻게 배치되고 어떻게 연결되어 있는지 살펴보기 시작했다. 이러한 연결을 매핑하면 얼굴을 설명할 수 있는 고차원 공간의 기반이 있다는 것을 깨달았다.”

표정을 짓고, 근육이 활성화되면서 다른 근육들이 동시에 활성화되거나 근육이 수동적으로 당겨진다는 점에 주목했다”고 설명했다. 신경망이다.”라고 Letteri는 추론했다. “그럼 근육을 기반으로 직접 사용하는 신경망을 만들면 어떨까 하는 생각이 들었다. 즉, 많은 딥 러닝은 문제에 숫자를 던지고 많은 데이터를 제공하면 상관 관계를 파악하려고 시도하였다. 그리고 나는 생각했다. 아니, 우리는 실제로 상관 관계를 이미 알고 있는데 그것을 기반으로 코딩하면 되지 않을까? 당신이 그것의 수학에 들어가면 그것은 큰 파생 체인이다. 기본 미적분이다.” 그런 다음 팀은 애니메이터에게 턱, 눈, 근육의 조합을 고유한 방법으로 표현할 수 있는 시스템을 통합하는 것을 목표로 했다. '근육'이 하는 일을 해결하려고 노력한 다음 그것을 캐릭터로 전송할 또 다른 네트워크를 실행한다.” 또한 근육 곡선을 통해 애니메이터는 이제 얼굴의 근육을 직접 제어할 수 있다. 그러나 근육 곡선이 피부 아래의 실제 근육과 일치하도록 설계된 일대일 구조가 아니라는 점을 지적하는 것이 중요하다. 근육 곡선은 얼굴을 해결하도록 설계되었지만 애니메이터가 제어할 수 있는 방식으로 매우 높은 수준의 충실도로 캡처된 성능인 얼굴 움직임과 일치한다.

APFS

새로운 APFS는 178개의 근육 섬유 곡선 또는 '스트레인' 곡선을 기반으로 한다. 이러한 곡선은 세밀하고 충실도가 높은 사람의 얼굴 표정을 제공하기 위해 수축하거나 이완할 수 있다. end-to-end 시스템은 inward-out(얼굴이 근육 섬유 곡선에 의해 구동됨)과 outside-in(애니메이터가 얼굴 표면에서 얼굴을 '정확하게' 드래그하여 이동할 수 있음)이다. 이 시스템은 인간 근육의 1:1 매핑이 아니다. 윗입술 곡률과 같은 일부 얼굴 측면은 실제로 턱과 아래 안면 근육에 의해 구동되는 결과이기 때문이다. 오히려 이 시스템은 해부학적으로 영감을 받은 컨트롤 세트를 허용하지만 직접적인 살/근육 에뮬레이션 및 시뮬레이션은 허용하지 않는 178개 곡선의 스패닝 어레이이다. 또한 FACS 인형은 회전을 포함하지 않는 FACS 표현식의 선형 조합을 기반으로 한다. 자연스럽게 안구 주위의 회전 구성 요소를 포함하는 올바른 눈꺼풀 애니메이션을 얻으려면 일련의 중간 FACS 모양을 추가해야 한다.

근육 곡선(L) 및 추적 마커(R)

눈꺼풀 예

각 근육 또는 스트레인 곡선에는 연관된 스트레인 값이 있다. 근육 곡선은 실제로 비틀리지 않지만 변형 값은 로컬 공간에서 곡선을 따라 수축 또는 확장을 제공한다. 어떤 의미에서는 백분율 길이 변화이다. 실제 곡선 변형 번호는 단위가 없으며 이는 다른 문자로 전송하는 데 도움이 된다. 스트레인 값은 세트의 일부로 수행되는 것만큼 고립되어 작동하지 않는다. 예를 들어, 눈꺼풀 깜박임의 경우 속눈썹 라인을 따라(수평으로) 근육 곡선과 직각으로(수직, 위아래, 눈 주위) 근육 곡선이 모두 있다. 이 경우 수평 곡선은 안구 위를 회전하기 때문에 실제 변형률 값이 크게 변하지 않는 반면 수직 곡선은 변형률 값이 크게 변한다. 그러나 가장 중요한 것은 수직 곡선이 안구의 곡선과 일치하는 근육 곡선의 곡선 모양을 따라 크기가 조정되기 때문이다. 열린 블렌드 셰이프와 닫힌 블렌드 셰이프 사이의 유사한 블렌드 셰이프 전환은 가까운 곳에서 열린 곳으로 직선으로 이동한다(안구 주위를 구부리지 않고). Maya에서는 블렌드 셰이프를 연결하여 안구 주변을 휘감는 눈꺼풀을 시뮬레이션할 수 있지만, 이 경우 다시 블렌드 셰이프 수가 부풀어 오른다.

FACS 솔루션은 안면 리그 전반에 걸쳐 일정 수준의 표준화를 허용했지만, FACS는 자발적이고 구별 가능한 안면 표정 스냅샷을 캡처하기 위해 심리적 관점에서 설계되었으며 컴퓨터 애니메이션에 적용할 때 분명한 한계가 있다. FACS 동작 단위(AU)는 여러 안면 근육의 동작을 결합하거나 안면 근육을 전혀 포함하지 않는 AU로 원하는 표현을 달성하기 위해 빼기와 결합되어야 한다. 실제로, 강력하게 관련되거나 상호 배타적임) AU는 경첩이 달린 턱과 사람 입술의 복잡한 모양 변형에 근사할 뿐이다. 기계 학습은 새로운 시스템을 구축하는 데 사용되었다. 80개의 동적 모션 클립에서 6000-8000 스캔(프레임)이 사용되었다. 약 60%는 FACS 모양 포즈이고 40%는 말 동작이다. 각 배우의 연기는 검증된 실측 표현의 340개 마커를 기반으로 해결되었다. APFS 파이프라인은 시간 정보를 인코딩하지 않으며 이는 성능 캡처 해결 자체에서 가져온다. 애니메이션은 본질적으로 배우의 움직임과 표정을 추적한다.

턱

새로운 시스템에서는 턱과 입술에 특별한 주의를 기울인다. “시스템을 구축할 때 알아차린 다른 것 중 하나는 얼굴 상태에 대한 기본 컨트롤이 턱이기 때문이다.”라고 Letteri는 회상한다. “특히 대화할 때는 턱이 계속 움직인다. 그것은 주요 원동력 상황이다.” 또한 사람의 턱은 방패의 궤적 모양으로만 움직일 수 있다. 하악골 또는 아래턱뼈는 측두하악 관절을 통해 두개골에 부착되고 인대와 근육에 의해 제자리에 고정된다. 이와 같이 턱의 동작 범위는 턱의 개념적 지점 집합을 추적하여 매핑할 수 있다. 가능한 모든 대화와 사람의 표현에 대해 이러한 점 집합을 매핑하면 방패 모양이 된다. 이것은 Posselt의 Envelope of Motion 또는 Posselt 방패로 알려져 있다. “보호막은 드라이버 자체를 위한 제약 시스템에 내장되어 있다.”라고 Letteri는 설명한다. "그 위에 근육이 풀린다." 그 이유는 팀이 어떤 배우를 위해 해결할 때 배우에게 디지털 해골을 포렌식으로 맞추기 때문이다. 그런 다음 턱의 움직임 범위를 파악한 다음 HMC 스테레오 카메라를 사용하여 해결하여 깊이 정보를 추출한다. “그런 다음 PCA를 실행하여 일관성 있는 메시를 갖도록 가장 적합하도록 노력한다. 그러면 턱과 두개골이 그에 맞춰진다.”라고 그는 덧붙인다. 팀이 성과를 포착하는 경우 동작과 이동 범위는 이미 인간 행동에서 고려된다. 그러나 손으로 애니메이션하는 경우 Jaw 컨트롤러에는 쉴드 제약 조건이 내장되어 있다. 해당 배우를 위해 각 카메라에서 캡처한 이미지와 치아 정렬을 관찰하여 애니메이션을 확인했다.

마찬가지로 배우의 눈은 매우 조심스럽게 다루어진다. 시스템의 안구 모델은 배우의 공막, 각막 및 홍채와 일치한다. 홍채 모델이 윤부 고리 및 동공과 정렬되도록 각 카메라에서 캡처한 이미지에서 볼 수 있도록 안구를 회전하여 각 프레임에서 시선 방향을 조정한다. 눈의 수정체와 눈이 표시하는 굴절로 인해 눈을 추적하기가 매우 어렵다. 정렬을 확인하고 각막에 의해 굴절된 빛을 설명하기 위해 여러 카메라 각도가 사용된다. 캐릭터의 눈의 사실성을 향상시키기 위해 각 눈 회전에 작은 정면 눈 돌출부도 적용된다.

사면체(Tet) 안면 볼륨

커브 근육은 선일 뿐이므로 변형 근육과 디지털 캐릭터의 피부 사이에 연결 고리가 있어야 한다. 곡선은 근육 활동의 선을 포착하고 있지만 실제 얼굴 내부에도 포함되어 있다. 여기서 얼굴은 캐릭터의 나머지 포즈에서 얼굴의 연조직을 이산화하는 사면체 체적을 사용하여 체적 표현으로 시뮬레이션된다. tet 볼륨 솔루션은 두개골과 턱의 피부와 뼈 사이에 위치합니다. tets는 개념적 또는 수학적 '젤로'를 형성한다. 피부 꼭지점과 두개골을 위치 제약 조건으로 하는 전체 스캔 시퀀스에 대해 이 tet 볼륨에서 수동 준정적 시뮬레이션이 수행된다. FEA(Finite Element Analysis)를 사용하여 135,000개의 tets(여러 위치, 슬라이딩 및 충돌 제약 조건으로 제한됨)의 '수동 시뮬레이션'이 프레임 간 방식으로 수행되며 이는 해부학적으로 그럴듯한 육체 동작을 생성한다. 여기서 생성되는 '플레쉬 마스크'는 수련 단계에서만 역할을 한다.

Figure 4 Note the second face is a view of the 135,000 tet face mask that combined with the strain curves (seen over the skull) – control skin deformation to form the final expression

두 번째 면은 스트레인 곡선(두개골에서 볼 수 있음)과 결합된 135,000 tet 안면 마스크의 보기입니다. 피부 변형을 제어하여 최종 표현을 형성한다.

실제 근육 리본 대 근육 곡선

얼굴의 근육은 리본 근육인 경우가 많지만 APFS 곡선에는 폭이 없다. 이를 설명하기 위해 필요한 곳에 추가 곡선이 추가되었다. 근육 곡선은 활동적인 근육 시뮬레이션이 아니며 "사실 애니메이터들은 그것을 원하지 않는다. “그들(애니메이터)은 프레임 간 제어를 원한다. 그들은 운동학적 변형 제어를 원한다. 그들은 (sim) 구성을 설정한 다음 실제 활성 시뮬레이션이 인계받는 것을 보기 위해 재생을 누르는 것을 정말로 원하지 않는다.” 그런 이유로 그는 팀이 커브 표현을 선택했고 "그냥 커브를 고수하기로 결정했다"고 덧붙였다. "우리는 우리가 할 수 있는 최소한의 파라메트릭 표현을 사용했다."

Figure 5 Neytiri

Karan Singh은 방문 연구원으로 뉴질랜드에 있었기 때문에 COVID 직전인 2020년에 팀에 합류했다. 자신이 수석 연구원은 아니지만 SIGGRAPH ASIA Submission을 위한 프로세스를 작성하는 데 중요한 역할을 했으며 라이브를 진행한 엄병국 최해광, Benjamin Mouscadet와 함께 프레젠테이션을 위해 내한했다. 프레젠테이션. 각 엔지니어는 대규모 종단 간 솔루션의 일부로 특정 초점과 모듈을 가지고 있었다. 이 논문에는 실제로 Joe Letteri와 Karan Singh을 포함하여 12명의 저자가 있다.

Singh은 경력 초기에 Autodesk의 Maya에서 실제 원본 blendshape 코드를 작성했기 때문에 FACS 인형 주변에서 사용되는 세부 코드에 매우 익숙하다. Singh은 새 파이프라인 내에서 기계 학습(ML) Autoencoder(AE)를 영리하게 사용하여 표현식을 모델에 유지한다고 지적한다. ML은 Wētā와 같은 파이프라인을 변화시키고 있지만 아직 많은 사람들이 완전히 이해하는 방식은 아니다. VAE와 딥페이크 얼굴 교환 도구로의 사용에 대해 많은 글이 작성되었지만 APFS 팀은 여기에서 AE와 같은 ML 도구가 최종 픽셀에 명시적으로 사용되지 않고 핵심 작업을 지원하기 위해 복잡한 파이프라인 내부에서 어떻게 사용되고 있는지 보여준다.

시스템은 기존 FACS 블렌드 셰이프를 사용하여 쉽게 모델을 벗어날 수 있지만 솔루션 공간은 AE에 의해 제한된다. "개별 캐릭터에 대한 초기 테스트 및 교육 데이터를 통해 정의하면 해당 캐릭터의 범위를 설정하는 것이다."라고 Singh은 설명한다. “오토인코더는 그것을 인코딩한다. – 따라서 인코딩하는 일반적인 설정이 아니다. 당신은 실제로 매우 특정한 공연 세트를 인코딩하고 있다.” 파이프라인이 구성되는 방식의 AE는 실제로 얼굴을 대상과 모델에 맞게 유지한다.

Figure 6 The autoencoder (AE), the Face Deformation Matrix fully connected layer (FCL), linear blend skinning (LBS) leading to the final output

오토인코더(AE), 얼굴 변형 매트릭스 완전 연결 레이어(FCL), 선형 블렌드 스키닝(LBS)으로 최종 출력

포즈 라이브러리 전송

애니메이터는 자연스럽게 포즈 라이브러리를 사용하는 데 익숙합하다. 그리고 포즈 라이브러리에는 아무런 문제가 없지만 포즈는 동작을 강제하거나 인코딩하지 않으며 조합 사용은 쉽게 모델을 벗어날 수 있다. 친숙한 작업 환경을 더 잘 제공하기 위해 애니메이터를 위해 스트레인 기반 모션 라이브러리가 구축되었다. 이 아웃사이드-인 접근 방식은 곡선에 대한 역 매핑을 제공한다. 그러나 시스템 구축 방식과 오토인코더 사용 방식을 고려할 때 애니메이터는 실수로 모델에서 벗어날 수 없다. 근육 스트레칭 및 수축은 직관적일 수 있지만 스트레인 벡터로 얼굴 표정을 구동하는 것은 간단하지 않다. 팀은 그럴듯한 얼굴 애니메이션의 경계 내에 유지되도록 스트레인 벡터를 제한함으로써 아티스트를 지원하기 위해 오토인코더(AE)를 통합했다. 온모델 솔루션 공간을 표현식 다양체라고 한다. 여기서 그럴듯한 것을 정의하는 것은 애니메이터의 몫이며, 애니메이터는 의도적으로 모델을 벗어나도록 선택할 수 있지만 여러 얼굴 표정의 큐레이팅된 샘플링과 해당 변형 벡터 또는 설정 범위를 사용하여 표현 매니폴드를 추정한다. .

Figure 7 Tuk (Trinity Bliss)

Deep Shape 깊은 모양

Avatar: The Way of Water에서 많은 배우들은 물 속에서 연기를 캡처했지만 대부분의 얼굴 애니메이션은 마른 땅에서 두 번째 캡처를 기반으로 한 다음 주요 연기 캡처와 혼합되었다. 얼굴 연기를 캡처할 때 배우들은 스테레오 헤드 리그(HMC)를 착용했는데, 최신 기술 덕분에 아바타 1의 원래 HMC보다 무겁지 않았다.

HMC 카메라의 고정된 스테레오 배열 덕분에 Wētā 팀은 Deep Shape라는 강력하고 새로운 시각화 도구를 개발했다. 스테레오 이미지는 어느 각도에서나 볼 수 있는 배우의 실제 연기를 3D 포인트 클라우드 스타일로 재구성하는 데 사용된다. 이미지는 단색이고 다각형이 아니지만 실제 성능을 잘 나타낸다. 이 새로운 시각화를 통해 애니메이터는 실제 캡처 카메라 중 하나의 원시 출력의 광각 왜곡 및 이상한 시야각 없이 얼굴에서 불과 몇 피트 떨어진 곳에서 촬영된 것처럼 가상화된 증인 카메라를 가질 수 있다. 이러한 3D 깊이 재구성 보기는 입술과 턱 확장을 보고 나중에 완전히 제어 가능하고 재구성된 애니메이션이 원시 보기에 충실한지 판단하는 훨씬 더 강력한 방법을 허용한다. 아무도 이것을 이전에 구현한 적이 없다는 것이 놀랍도록 매우 유용한 보기 장치이지만, 우리가 아는 한 Wētā FX는 Deep Shape 시각화 옵션을 정확하게 달성한 최초의 팀이다. 이 도구는 APFS 에뮬레이션을 비교하고 판단하기 위한 안면 실측의 핵심 참조 도구를 제공한다. 새로운 종단간 APFS 기반 솔루션의 또 다른 혁신이다.

Aging 노화

지금은 일반적인 방식으로 팀은 매우 충실하게 얼굴 표정과 일치하는 배우의 디지털 더블을 애니메이션한 다음 애니메이션을 캐릭터 모델로 전송한다. 애니메이션 전송에서 배우와 캐릭터의 얼굴 사이의 일치를 최대화하기 위해 Wētā는 캐릭터 훈련 프로세스를 전략적으로 설계하여 해당 배우의 기본 근육 동작을 공유한다. 3D 캐릭터 얼굴 모델은 각각의 액터와 동일한 동일한 공유 스트레인 오토인코더를 갖게 된다. 피부는 정확하게 매핑되고 눈과 턱 영역은 사용자 정의 가중치 맵을 사용하여 별도로 처리되어 주요 얼굴 부분의 표현을 보다 정확하게 전달할 수 있다. 당연히 Na'vi의 고유한 형태를 감안할 때 팀은 배우의 턱 리그를 캐릭터에 세심하게 맞추고 이를 사용하여 치아 지형 및 두개골 해부학의 편차를 보정해야 한다.

Figure 8 Sigourney Weaver as Dr. Grace Augustine, Director James Cameron, and Joel David Moore (Norm Spellman) behind the scenes.

곡선 근육 시스템에는 신체 성능 캡처와 더 나은 통합을 허용하기 위해 목 부분으로 확장되는 일련의 곡선이 있다. 귀에는 완전히 별도의 컨트롤이 있습니다. "이 특별한 경우에 귀를 캡처하려고 시도하지 않은 이유는 귀가 일종의 보조 효과이기 때문이다."라고 Letteri는 말한다. “귀는 실제로 스스로 아무것도 움직이지 않으며 Na'vi와 함께 인간에게는 분명히 전혀 표현되지 않는 표현적인 귀를 가지고 있습니다. 따라서 별도의 애니메이션 제어 시스템일 뿐이다.”

Figure 9 Kiri (Sigourney Weaver)

영화에는 자연히 Na'vi에 대한 다수의 리타게팅이 있지만 중요한 것은 두 가지 주요 디에이징 리타겟팅도 있다는 것이다. 두 배우 Sigourney Weaver와 Stephen Lang은 어린 캐릭터인 Kiri와 어린 Quaritch로 재타겟팅된다. 안면 근육의 이완 및 노화를 시뮬레이션하기 위해 다양한 변형 값을 탐색할 수 있지만 Letteri는 대상 변경이 이를 완전히 보상했으며 변형 값이 '완화'되거나 늘어날 필요가 없다고 지적한다. Letteri는 "우리는 그렇게 하는 것에 대해 생각했지만 불확실성이 더해질 것"이라고 말했다. “그래서 우리는 먼저 리타겟팅에서 시도해 본다. 효과가 있다면 훨씬 더 간단한 솔루션이 될 것이기 때문이다. 그리고 그것이 우리가 한 일입니다. 그리고 우리는 그것이 우리에게 잘 작동하도록 했다.”

Figure 10 Quaritch (Stephen Lang)

오리지널 Animatomy: an Animator-centric, Anatomically Inspired System for 3D Facial Modeling, Animation and Transfer SIGGRAPH ASIA

Avatar 2, Wētā FX의 새로운 안면 파이프라인에 대한 논의

최근 게시물

댓글

사단법인 한국시각효과협회