Activision의 가상 인간 '감정 도전'

Steve Kim
2022년 12월 13일
8분 분량

감정 도전

자세한 캐릭터 애니메이션과 얼굴 성능은 AAA 게임에서 점점 더 중요 해지고 있습니다. 이는 사실감 렌더링과 애니메이션 성능 모두에 대한 것입니다. Activision은 1979 년에 설립되었으며 세계 최초의 주요 독립 게임 개발자였습니다. 오늘날 Activision Blizzard는 세계에서 가장 큰 AAA 게임 퍼블리셔 중 하나입니다. 회사 내부에서 Activision Central Technology 팀은 최근 얼굴 성능 파이프 라인을 개선하기위한 프로젝트를 시작했습니다.

Activision의 중앙 기술 부서 내의 CTX 팀은 얼굴 캡처, 솔버 및 성능 재현을위한 강력한 솔루션을 개발하는 데 중점을 두었지만 다양한 프로젝트 파이프 라인에서이를 수행하고 때로는 외부 공급 업체를 참여시켜야합니다. 단일 프로젝트 내에서 캐릭터마다 시각적 일관성을 유지하는 것이 종종 어렵 기 때문에 작업이 중요하다고 여겨졌습니다. CTX 팀은 배우 유사성 획득, 퍼포먼스 캡처 및 캐릭터 애니메이션을위한 강력하고 확장 가능한 통합 파이프 라인을 연구해야 할 필요성을 확인했습니다.

이 문제를 해결하기 위해 그들은“감정 도전”이라는 내부 연구 프로젝트를 만들었습니다. ICT Light Stage의 자체 인수를 포함한 최신 기술을 사용하여 팀은 페이셜 파이프 라인의 각 단계를 연구 및 문서화하고 프로덕션 실행 가능성을 평가하기 시작했습니다. 그런 다음 이러한 연구 노력을 다양한 프로젝트에 걸쳐 기존 접근 방식을 확대하고 확장하기 위해 구현할 수있는 실제 기술로 변환하기 시작했습니다.

Emotion Challenge는 현재 모델 및 장비 제한 내에서 작동하고 기대할 수있는 무언가를 만들기 위해 시작되었으며 다음과 같은 작업도 수행 할 수 있습니다.

많은 캐릭터와 많은 공연을 효율적으로 처리하고,
사전 렌더링 된 시네마틱과 일관성을 유지하고
광범위한 애니메이션 파이프 라인 및 게임 엔진 지원

터커 스몰 우드

Tucker Smallwood는 Emotion Challenge에 선정 된 배우였습니다. 스몰 우드는 1967 년부터 1970 년까지 미군 보병 공수에서 복무했으며 베트남 전쟁 중 기동 자문 팀을 지휘하며 심각한 부상을 입었습니다. 부상에서 회복 된 후 그는 브로드 웨이, 영화, 텔레비전에서 배우가되었습니다. 그는 또한 그의 베트남 경험에 대한 책을 썼고 외상 후 스트레스 장애에 대한 그의 경험에 대해 공개적으로 이야기합니다.

Smallwood를 스캔하여 감성적으로 충전되고 기술적으로 까다로운 도전에 대한 기준 표준을 제공했습니다.

파이프 라인 개요

유사성 획득

디지털 인게임 캐릭터로서의 레크리에이션에 대한 배우의 모습을 충실히 포착하기 위해 Activision은 새로운 확장 버전의 ICT Light Stage 시스템으로 시작했습니다. 이 단계를 "Likeness Acquisition"이라고합니다.

Activision Light Stage는 편광 그래디언트 조명을 사용하여 고해상도 지오메트리 및 반사율 재구성을 위해 16 개의 DSLR을 사용합니다. 원래 USC ICT Light Stage와 마찬가지로이를 통해 반사 및 확산 피부 텍스처를 분리하고 고해상도 기하학적 재구성을 할 수 있습니다.

Activision은 70fps로 캡처하는 35 대의 머신 비전 카메라로 DLSR을 강화했습니다. 이 카메라는 중립 포즈와 다양한 극단적 인 포즈 사이에서 배우의 얼굴 움직임을 촬영했습니다.

16 DSLR 장비에서 가장 먼저 얻은 것은 배우의 중립 포즈입니다. 이것은 기본 지오메트리 재구성, 표면 법선 및 얼굴 텍스처를 제공합니다. “하지만 배우의 다른 포즈로 가고 싶을 때는 이러한 XIMEA 컴퓨터 비전 카메라와 잠재적으로 DSLR의 조합으로 수행됩니다.”라고 Central Tech의 Activision의 애니메이션 디렉터 인 Alex Smith가 말합니다. 다른 포즈의 정점 델타는 중립 포즈 모양을 기반으로 애니메이션 메시를 추적하는 데 있습니다. 이것은 배우가 각 포즈에 들어갈 때 추적되지만 이러한 키 포즈에 대한 주름 맵을 만들기 위해 DSLR 데이터도 사용할 수 있습니다. DSLR의 스틸은 그레이 스케일 푸티 지인 컴퓨터 비전 카메라의 프레임 (2k x 2k @ 70fps)보다 훨씬 높은 해상도입니다.

이를 통해 각 익스트림 포즈뿐만 아니라 모든 중간 포즈와도 애니메이션 메시 토폴로지를 일치시킬 수 있습니다. 포즈 간의 대응은 모든 포즈에서 얼굴의 기하학적 재구성만큼 중요한 측면입니다. 고해상도 디테일은 수정 된 동일한베이스 메시에 다시 투영 될 수 있습니다. 대응은 얼굴 애니메이션의 핵심입니다. 단일 사진 측량 포즈를 얻는 것은 비교적 쉽지만 포즈 사이를 정확하게 이동할 수있는 얼굴을 만드는 것은 사람의 얼굴 캡처의 핵심입니다.

DSLR 포즈 재구성 만 사용되는 경우 두 포즈 메시간에 대응이 없습니다. 그러나 포즈 사이의 메시를 추적 한 다음 고주파 주름을 다시 추가하면 메시가 동일한 메시이므로 100 % 일치합니다. “이렇게하면 메시 토폴로지가 일관되므로 중립 포즈에서 형성된 하나의 공통 애니메이션 메시가 생성되고 머신 비전 카메라를 통해이를 변형 할 수 있으며 각각의 새로운 포즈는 자세한 내용이 추가되었습니다. 이것은 텍스처가 모두 일관된 UV 공간에 있음을 의미합니다.”라고 Smith는 설명합니다. 정렬이 정확하지 않은 경우 혼합 된 주름지도로 DSLR 데이터를 투영하면 "이미지 또는 얼굴에 고스트 현상이 발생할 수 있습니다. 얼굴의 일부 세부 사항은 한 위치에서 가져오고 다른 세부 사항은 다른 위치에서 가져온 것처럼 보입니다." 추가합니다.

Activision Central Technology 팀에서 Lightstage를 사용하는 것이 USC ICT Light Stage 및 ILM과 같은 회사에서 사용되는 Disney Research Medusa 시스템과 같은 기타 유사한 구형 캡처 시스템과 어떻게 다른지 주목할 가치가 있습니다. 매우 성공적인 Medusa Rig는 일정한 조명을 사용하는 머신 비전, 시간 추적 접근 방식으로 작업하는 반면 USC ICT 원래 Lightstage는 기하학적 재구성 기반의 놀랍고 상세한 확산 / 반사 분리로 유명합니다. Activision은 다소 하이브리드로 보이지만 여전히 Paul Debevec 박사의 USC ICT 연구원이 특별히 개발 한 USC ICT Light Stage 조명 패턴을 사용하지만 시간 추적을 목표로합니다 (Disney Research 팀과는 다름).

스캔 외에도 리깅은 각 프로젝트에 대한 고유 한 작업입니다. 각 게임 팀에는 자체 페이스 리그가 있으며 이는 각각 자체 토폴로지가 있음을 의미합니다. 게임 팀의 캐릭터 아티스트는 Light Stage 세션에서 데이터를 가져와 메시 델타를 지역화하여 자체 프로젝트의 특정 얼굴 리그에 대한 블렌드 셰이프를 도출합니다.

손 연마

캐릭터의 광범위한 애니메이터 '수작업 연마'는 전통적으로 비용이 많이 듭니다. Activision은 블렌드 쉐이프 정리를 외부 공급 업체에서 처리 할 때 문자 당 약 25,000 달러의 비용이 들고 평균 2-4 주 소요되는 것으로 추정합니다. 이 연구 프로젝트가 끝날 무렵 Activision 팀은 내부적으로 처리 할 수있는 수준까지 정리를 완료했다고 믿습니다. 또한 그들은 1-3 일 (한 명의 아티스트가 한 캐릭터 당 한 작업을 수행하는 데)이 소요될 것으로 추정하며 전경 캐릭터와 거의 동일한 배경 파이프 라인을 사용하여 수행 할 수 있습니다.

맞춤형 Blendshapes

Activision은 기본 템플릿 안면 애니메이션 리그의 기본 사항을 유지하면서 배우 성능에서 개인화 된 블렌드 셰이프를 자동으로 생성하는 연구를 아직 사용하지 않고 있습니다. 일단 구현되면 이미지 기반 추적 알고리즘을 사용하여 각 포즈에서 3D 재구성을 수행 할 수 있습니다. 이 가능한 새로운 프레임 워크의 핵심은 성능 측정에 더 잘 맞을 수 있도록 블렌드 셰이프의 초기 추정을 반복적으로 개선하는 최적화 알고리즘입니다. 이 프레임 워크는 캐릭터 세트 전반에 걸쳐 일관된 동작으로 각 개인을위한 사실적인 디지털 더블 페이스 리그의 앙상블을 쉽게 만들 수 있습니다.

성능 캡처

이 공간은 처음에는 FACS에서 영감을 얻었지만 팀은 FACS를 넘어 진화했습니다. 그들은 이제 FACS, 음소, 감정을 넘어서는 마스터 세트를 도출하고 대신 문자 별 표현을 사용하는 것을 목표로하고 있습니다.

조작 된 얼굴이 만들어지면 배우의 연기에 따라 움직여야합니다. 이를 위해서는 배우의 표현을 정확하게 추적하고 표현 공간으로 해석해야합니다. 그러면 Light Stage에서 만든 리그로 변환 할 수 있습니다.

성능 캡처 연구 단계의 창의적인 목표는

게임에서 실행 가능한 파이프 라인을 사용하여 진정한 감정적 성능을 포착하고 전달합니다.
매우 미묘한 감정을 포착하고
광범위한 애니메이터 '손 연마' 없이 좋은 결과 를 제공합니다 (위 참조).

FACS 공간을 넘어서

초상 획득 중에 팀은 배우 얼굴의 전체 동작 범위를 포함하도록 설계된 포괄적 인 얼굴 표정 세트를 캡처했습니다. "처음에는 일반적인 FACS 기반 표현 세트를 사용했지만, 이후 배우의 공연 중에 정기적으로 발생하는 특정 얼굴 동작을 대상으로하는 많은 비 FACS 포즈를 포함하도록 해당 접근 방식을 개선하고 강화했습니다."라고 Wilson은 설명합니다. "특히 다양한 수준의 (성능) 강도에 걸쳐 대화를 표현하는 데 관련된 사람들".

팀은 또한 특정 배우가 자신의 역할에 맞는 캐릭터 특성을 묘사하는 데 사용할 수있는 고유 한 표현을 식별하고 캡처합니다. 이를 통해 배우의보다 완전한 '모션 유사성'을 구축 할 수 있습니다. 특정 연기 공연에서 흔히 볼 수있는 표현력에 조율 된 것.

또한 시스템은 정적 얼굴 포즈 만 캡처하는 것이 아닙니다. "우리 시스템, 우리는 또한 그 표현에 배우의 얼굴 이동의 동작을 캡처하고 선택할 수 있습니다 어떤 blendShape를로 추출하는 운동 내에서 프레임을." Wilson은 덧붙입니다.

HMC

얼굴 성능 캡처를 위해 Activision은 수직 스테레오 카메라 쌍이있는 HMC (head-mounted camera) 시스템을 사용하여 스테레오 60fps 영상을 수집합니다. 아래에 표시된 리그는 Technoprops에서 제작했습니다. 이 리그는 정확하고 가볍기 때문에 프리미엄 HMC 리그의 기본 '최신'산업 표준입니다.

온 액터 안면 획득 HMC 시스템은 복잡한 안면 퍼포먼스를 가능하게합니다. Activision은 배우의 얼굴에 메이크업 도트를 적용하는 마커 시스템을 사용하기로 결정했습니다. 그런 다음 반자동 도구를 사용하여 이러한 점을 추적하여 솔버에 희소 입력을 생성합니다. 추적 마커는 팀이 가장 효과적이라고 판단한 곳에 배치되었습니다. 그들은 연구 프로젝트에서 약 32 ~ 40 개로 시작했습니다 (특히 도전 프로젝트가 고밀도 스테레오 재구성을 탐구 할 때). 제작 과정에서 그들은 고밀도 스테레오 재구성 사용을 중단했으며 현재 일반적으로 제작 작업에 약 56 개의 마커를 사용합니다. 이러한 문제는 Activision의 자체 도구로 해결됩니다. 마커는 전체 머리 안정화에도 사용됩니다.

고밀도 스테레오 재구성 탐구

고밀도 입력을 위해 Activision은 모든 프레임의 뷰 사이에서 고밀도 스테레오 재구성을 계산했으며 각 프레임에서 다음 프레임으로의 고밀도 광학 흐름을 계산했습니다. 이것은 모두 위의 Likeness Acquisition Phase를 기반으로 해당 액터에 대해 구성된 블렌드 셰이프 기반을 사용하여 입력 데이터를 맞추는 최적화에 공급되었습니다.

결국 팀은 성능 캡처 솔버가 블렌드 셰이프 가중치와 프레임 당 고정 헤드 변환을 계산하기를 원했습니다.

조밀 한 스테레오 재구성은 Emotion Challenge에서 탐구되었지만 프로덕션에는 사용되지 않았습니다. 이는 부분적으로 제어 된 연구 실험실 조건에서 팀이 달성 할 수 있는 것과 비교할 때 생산시 매우 가변적 인 광원 때문입니다.

엔진 내 애니메이션

프레임 별 블렌드 셰이프 가중치는 엔진으로 직접 내 보내어 런타임에 얼굴 블렌드 셰이프를 구동 할 수 있습니다. 또는 프로젝트 파이프 라인에 따라 내보내기 전에 애니메이터를 추가로 다듬기 위해 안면 애니메이션 리그에 대한 입력으로 사용할 수 있습니다.

사내 테스트 게임 엔진

팀은 눈과 입 주위에 고밀도 스테레오와 마커를 사용하는 프로토 타입을 만들었습니다. 이것은 그들의 R & D 테스트 베드 내부 게임 엔진에서 실행되었습니다. 팀은 내부 엔진에서이 테스트 파이프 라인 렌더링을 사용하여 3 번의 공연을했습니다.

생산으로의 전환

Likeness Acquisition 파이프 라인은 프로덕션으로 확장 가능한 것으로 입증되었으므로 지금까지 약 215 명의 게임 내 캐릭터 생성에 적용되었습니다. 'Emotion Challenge'프로젝트는 성능 캡처 프로세스가 이상적인 조건에서 가장 실행 가능하다는 것을 보여주었습니다. “생산에 실제 적용 할 때 .. 우리가 생산에 사용하는 방식은 우리가 이상적인 조건에서했던 품질 기준을 얻지 못합니다. 결국 우리는 연구 프로젝트의 일부 제약을 포기했습니다. 생산의 현실을 받아들이십시오.”Alex Smith가 말했습니다.

위에서 언급했듯이 챌린지와 제작 방식의 또 다른 큰 차이점은 조명이었습니다. 연구 테스트 중에 배우 Tucker Smallwood는 균일 한 조명을 위해 주변의 LED 조명 패널을 마주보고 앉았습니다. 일반적으로 MoCap 무대에 추가되었습니다.”라고 Activision의 수석 비주얼 디렉터 인 Michael Sanders가 덧붙입니다.

프로덕션에서 발생하는 비 이상적인 조건은 성능 캡처 프로세스에 추가 문제를 제공합니다. 예를 들어 최적이 아닌 조명 외에도 배우가 땀을 흘리거나 헤드 기어 또는 헬멧이 움직일 수 있으며 초점 문제 및 모션 블러가있을 수 있습니다.

실제 생산 문제

주성분 분석 (PCA)

기술적으로 주성분 분석 (PCA)은 " 직교 변환을 사용 하여 상관 관계가있을 수있는 변수의 데이터 집합을 주성분이라고하는 선형 적으로 상관되지 않은 변수 값 집합 " 으로 변환 하는 통계 절차입니다 . 간단히 말해서 데이터의 분산을 가장 잘 설명하는 방식으로 데이터의 내부 구조를 드러내는 것으로 생각할 수 있습니다.

초기 연구 프로젝트 이후, 팀은 프로세스를 개선하기 위해 정렬하고 PCA를 중간 프로세스로 포함하는 솔루션을 찾았습니다. 이것은 부분적으로 다른 스튜디오가 모양을 설정 한 방법에 관계없이 일관된 결과를 얻기위한 것이 었습니다.

이로부터 PCA 솔루션은 실제 생산을위한 도구로 개발되었습니다. "애니메이션 리그 모양으로 직접 해결하는 대신 PCA 모양으로 해결 한 다음 PCA 모양에서 애니메이션 리그 모양으로 이동합니다."

https://www.fxguide.com/wp-content/uploads/2017/10/CTX-251_PCAbasis_1.mp4?_=2

비디오 플레이어

PCA 기준 (일반적으로 첫 번째 단계 이후 스튜디오에서 제공 한 애니메이션 리그 모양에서 파생 됨).

Activision 은 LA의 DigiPro 2017에서이 작업의 일부를 보여 주었지만 PCA 작업은 DigiPro 프레젠테이션에서 매우 간략하게 다루었습니다.

PCA는 최종 프로덕션 파이프 라인에서 중요한 역할을했습니다. 얼굴 변형의 대표적인 샘플에서 수학적으로 파생 된 모양 기반이 솔버에 대해 계산됩니다. 시스템은 PCA를 적용하여 배우의 얼굴 변형의 주요 모드를 얻습니다. 모양 변화의 약 92 %를 가장 많이 차지하는 PCA 모양을 선택합니다. 그런 다음 솔버가 얼굴 변형의 주요 모드를 담당하는 PCA 모양을 선호하고 필요에 따라 사소한 세부 사항을 설명하는 PCA 모양 만 다이얼링하도록 각 PCA 모양이 얼마나 통계적 분산을 설명하는지에 내재 된 가중치를 활용합니다.

이러한 방식으로 해석은 입력 성능 데이터의 노이즈에 대해 더 강력합니다.이 첫 번째 PCA 해결 중간에서 최종 해결로 변환하려면 주어진 성능에 대한 프레임 별 PCA 모양 가중치를 프레임 당 대상으로 다시 지정하는 두 번째 패스가 필요합니다. 애니메이션 리그 모양 가중치. 파이프 라인은이 변환을위한 두 가지 옵션을 제공합니다.

옵션 1, 기준 변경 :이 접근 방식에서 각 애니메이션 리그 모양은 PCA 모양의 선형 가중치 조합으로 근사화됩니다. 따라서 프레임 별 PCA 모양 가중치를 애니메이션 모양 가중치로 변환하는 것은 단순히 행렬 곱셈입니다. 간단한 경우에는 이것으로 충분합니다.

옵션 2, 두 번째 해결 과정 : 이 대체 접근 방식은 두 번째 해결 패스를 적용하여 프레임 별 정점 위치 (PCA 해결 가중치를 PCA 모양에 적용)를 애니메이션 모양에 대한 새 해결과 가장 잘 일치시킵니다. 두 번째 해결 방법에는 조정할 수있는 희소성 및 시간적 부드러움 조건과 특정 성능에 대해 특정 애니메이션 리그 모양을 제외하는 기능이 포함됩니다. 이러한 매개 변수는 첫 번째 해결 단계에도 있습니다. 그러나 두 번째 해결 (정점 위치)은 초기 해결 (입력 데이터)보다 훨씬 빠릅니다. 따라서 프로덕션에서 초기 해결의 매개 변수는 비교적 드물게 조정되는 반면 두 번째 해결 단계의 매개 변수는 샷마다 빠르게 반복 될 수 있습니다. 이 접근 방식을 통해 파이프 라인은 실제로 발생할 수있는 다양한 시나리오를 더 잘 처리 할 수 있습니다.

광학 흐름과 결합 된 56 개의 마커에서 배우 / 캐릭터 당 약 90 개의 PCA 모양이 있습니다. 이것은 약 120 개의 모양으로 구성되며 ~ 70 개의 애니메이션 리그 모양으로 다시 해석됩니다.

이 PCA 접근 방식은 잘 작동하는 것으로 보이며 많은 수동 조정 및 손 연마를 사용하는 이전 접근 방식을 제거하는 데 큰 도움이됩니다.

https://www.fxguide.com/wp-content/uploads/2017/10/beforeAfterPolish.mp4?_=3

비디오 플레이어

위 : re-solve PCA 통과 접근 방식과 '애니메이션 접근 방식'(실제 인간 애니메이터가 다듬은 방식) 비교. 보시다시피 둘 사이에는 거의 차이가 없습니다.

처리 시간

팀이 카메라에서 데이터를 확보하면, 추적의 감독 / 반자동 프로세스 (위에서 논의 됨)와 "실시간보다 느린 첫 번째 PCA 통과 후 두 번째 통과 해결 및 시각적 하지만 우리는 시간을 줄여서 세트에서 오후, 아침에 촬영 한 모든 것, 또는 아마 다음 날 데일리에서 검토 할 수 있도록하려고합니다.하지만 최종 품질을 달성하기에는 아직 멀었습니다. 지금 실시간으로”라고 Sanders는 말합니다.

"실시간으로 추진하는 사람은 현실 세계의 실용성을 인정하지 않습니다."라고 Smith는 말합니다. “창작 (캡처) 프로세스를 수행 할 때까지 자산이 준비되지 않은 경우가 많으며 실시간 접근 방식에는 위험이 있습니다. 대부분의 실시간 자산은 실제 자산 충실도의 (단순화 된) 하위 집합이며, 문제는 크리에이티브가 장비의 한계에 갇히거나 세트에서 보는 표준 이하의 성능에 빠질 수 있다는 것입니다. , 그러면 나중에이를 고 충실도 장비와 일치 시키려고 노력하고 있습니다.” 대신 Activision CTX 팀은 크리에이티브가 HMC 영상을 직접보고 "나중에 결승전이 일치하도록 보장 할 수 있습니다"라고 제안합니다.

향후 방향

약 215 명의 배우가 여러 프로덕션을 위해 Activision Light Stage를 통과했지만 지금까지 한 프로덕션에서만 세 명의 개별 캐릭터에 얼굴 솔버를 사용했지만 연구 수업이 본격적인 프로덕션으로 이동함에 따라 현재 더 많은 것이 평가되고 있습니다.

다음으로 팀은 다음을 살펴 봅니다.

눈 성능 캡처 및 눈 젖음 탐색,
눈꺼풀 주름 및 내부 입 작업
생산 입력 데이터의 다양한 측면이 결과를 해결하는 방법에 대한 평가
특정 측면을 더 어리석게 만들고
양식화 된 인간 캐릭터 및 생물 캐릭터 타겟팅 (재 타겟팅)

모든 이미지 Copyright Activision Publishing 2017. research.activision.com 에서 DigiPro 프레젠테이션을 다운로드 할 수 있습니다 .