Body-Part Embedding for Human Motion Generation

프로젝트 설명 영상

https://www.youtube.com/watch?v=GdDNbWcQvBw&t=65s

논문

Body-Part Embedding for Text-driven Human Motion Generation

소개

만약 텍스트 설명만으로도 복잡한 모션을 간단히 생성할 수 있다면, 모션 캡처 장비나 전문 애니메이터의 작업 부담을 크게 줄일 수 있습니다. 이를 목표로 텍스트에서 모션을 생성하는 기술을 연구했습니다. 이번 연구에서는 텍스트 설명을 기반으로 새로운 모션을 생성하기 위해 VQ-VAE와 Transformer를 활용한 독창적인 접근 방식을 제안하고 구현하였습니다.

문제점 및 해결 방안

기존 VQ-VAE 기반 연구들은 각 모션을 개별적으로 생성하는 데에는 우수한 성능을 보였으나, 여러 모션을 결합하거나 복합적인 동작을 자연스럽게 생성하는 데에는 한계를 보였습니다. 예를 들어, "오른손을 들고 스쿼트하기"와 같은 복합적인 동작을 처리하는 데 실패하거나, 신체의 좌우 구분이 제대로 이루어지지 않는 문제가 존재했습니다.

이를 해결하기 위해 우리는 신체를 여러 파트로 분리하여 학습하고, 이를 결합해 자연스러운 전체 모션을 생성하는 신체 파트 기반 학습(Body-Part Based Learning)을 제안했습니다.

방법론: 신체 파트 기반 모션 생성

신체 파트별 학습
- 신체를 5개의 주요 파트(예: 상체, 하체, 양팔, 머리 등)로 분리합니다.
- 각 파트는 독립적인 VQ-VAE를 통해 학습되며, 파트별 모션 데이터를 압축하여 특징 벡터로 변환하고 이를 코드북 벡터로 치환한 뒤 복원합니다.
- 이렇게 학습된 각 파트별 VQ-VAE는 신체 특정 부위의 모션을 정확히 재현하도록 최적화됩니다.
Transformer와 Body-Part Embedding 활용
- 텍스트 설명을 입력으로 받아 모션을 생성하는 Transformer 모델을 각 신체 파트별로 학습시킵니다.
- Body-Part Embedding을 도입하여 텍스트 설명의 각 단어와 신체 파트 간의 연관성을 매핑합니다.
  - 예를 들어, "오른손을 들기"라는 설명에서는 "오른손"이 오른팔과 강한 연관성을 가지도록 가중치를 부여합니다.
- GPT 모델을 활용해 텍스트에서 동작과 연관된 단어를 추출하고, 이를 각 신체 파트와 매핑하여 정확한 Body-Part Embedding 값을 생성했습니다.
- 이 과정은 텍스트에서 설명되지 않은 신체 부위의 불필요한 움직임을 억제하고, 동작 묘사를 텍스트에 더욱 충실하게 만듭니다.
Importance Connection을 통한 모션 자연스러움 개선
- 각각의 파트 Transformer는 독립적으로 학습되지만, 신체 파트 간의 상호작용이 부족할 경우 모션이 부자연스러울 수 있습니다.
- 이를 해결하기 위해 Importance Connection을 적용하여, 하나의 파트 Transformer 학습 시 다른 파트에서 생성된 정보를 지속적으로 참조하도록 설계했습니다.
- 이 방법은 파트 간 연속성과 자연스러운 연결성을 유지하여 모션의 일관성을 크게 향상시킵니다.

실험 및 결과

비교 대상

연구의 결과는 기존 SOTA(State of the Art) 모델인 MoMask, MDM, T2M-GPT와 비교하여 평가되었습니다.
- 실험에서는 "오른손을 들고 스쿼트하기", "앉은 상태로 오른손으로 전화하기"와 같은 복잡한 동작을 대상으로 모션 생성 정확도를 분석했습니다.
결과 분석
- 정확도 향상: 기존 모델들이 텍스트 설명을 잘못 해석하거나 모션을 정확히 생성하지 못한 반면, 본 연구의 모델은 명확하고 정확한 모션을 생성했습니다.
- 신체 파트별 정밀도 개선: Body-Part Embedding을 통해 좌우 구분이 명확해졌으며, 모션 생성에서 신체 부위별 정밀도가 크게 향상되었습니다.
- 자연스러운 모션 합성: Importance Connection을 통해 생성된 모션이 부드럽고 자연스러운 연결성을 보였습니다.
사례 연구
- "오른손을 들고 스쿼트하기" 실험에서 MoMask와 같은 기존 모델은 스쿼트 동작은 구현했지만 오른손의 움직임을 제대로 생성하지 못했습니다. 반면 본 연구 모델은 텍스트의 복합 동작 지시를 정확히 재현했습니다.
- "앉은 상태로 오른손으로 전화하기"에서는 신체 자세와 손 동작 모두 자연스럽게 생성되었습니다.

의의 및 결론