프로젝트 설명 영상

https://www.youtube.com/watch?v=GdDNbWcQvBw&t=65s

논문

Body-Part Embedding for Text-driven Human Motion Generation

소개

만약 텍스트 설명만으로도 복잡한 모션을 간단히 생성할 수 있다면, 모션 캡처 장비나 전문 애니메이터의 작업 부담을 크게 줄일 수 있습니다. 이를 목표로 텍스트에서 모션을 생성하는 기술을 연구했습니다. 이번 연구에서는 텍스트 설명을 기반으로 새로운 모션을 생성하기 위해 VQ-VAE와 Transformer를 활용한 독창적인 접근 방식을 제안하고 구현하였습니다.

문제점 및 해결 방안

기존 VQ-VAE 기반 연구들은 각 모션을 개별적으로 생성하는 데에는 우수한 성능을 보였으나, 여러 모션을 결합하거나 복합적인 동작을 자연스럽게 생성하는 데에는 한계를 보였습니다. 예를 들어, "오른손을 들고 스쿼트하기"와 같은 복합적인 동작을 처리하는 데 실패하거나, 신체의 좌우 구분이 제대로 이루어지지 않는 문제가 존재했습니다.

이를 해결하기 위해 우리는 신체를 여러 파트로 분리하여 학습하고, 이를 결합해 자연스러운 전체 모션을 생성하는 신체 파트 기반 학습(Body-Part Based Learning)을 제안했습니다.

방법론: 신체 파트 기반 모션 생성

  1. 신체 파트별 학습
  2. Transformer와 Body-Part Embedding 활용
  3. Importance Connection을 통한 모션 자연스러움 개선

실험 및 결과

  1. 비교 대상

    연구의 결과는 기존 SOTA(State of the Art) 모델인 MoMask, MDM, T2M-GPT와 비교하여 평가되었습니다.

  2. 결과 분석

  3. 사례 연구

의의 및 결론