상세 컨텐츠

본문 제목

소라(Sora) 작동 원리는 트랜스포머...챗GPT 개발사 마술 통했다 [동영상AI]

New research

by 애피스트 APPIST 2024. 2. 24. 00:22

본문

반응형

챗GPT 개발사 오픈AI가 만든 텍스트 투 비디오 AI 소라(Sora)의 작동원리

AI업계를 충격에 빠뜨린 소라(Sora)

[2023년 2월23일] 오픈AI가 공개한 비디오 동영상 인공지능(AI)인 소라(Sora)는 충격 그 자체였다. 피카아트 런웨이와 같은 가장 최전선에 있는 동영상 AI는 최대 길이가 고작 15초였다. 그것도 3초 영상을 만든 뒤 이를 이어 붙이는 식이다. 하지만 소라는 무려 이 길이를 4배나 늘렸다. 이 뿐 아니다. 일반적으로 동영상 AI는 3초 이상 제작시 어그러짐이 발생한다. 인물 영상이 깨지면서 마치 호러영화를 방불케 한다. 그만큼 15초 영상을 제작하려면, 과도한 비용이 발생하는 것이다. 하지만 소라는 19세기 서부 개척시대, 애니메이션, 일본 거리 여성 등을 과감하게 만들어냈다. 특히 도쿄 한복판 거리를 걷는 여자 뒷편에 늘어선 간판은 깨짐이 없다. 놀라운 발전이다.

압축된 입력 비디오가 주어지면, 트랜스포머 토큰 역할을 하는 시공간 패치 시퀀스를 추출한다.
시각 데이터의 차원을 줄이는 네트워크를 훈련한다. 원본 비디오를 입력으로 받아 시간적, 공간적으로 압축된 잠재적 표현을 출력한다. 소라는 이 압축된 잠재 공간 내에서 비디오를 학습한 후 생성한다.

타일러 페리 "1조 스튜디오 투자 보류"

소라는 일반인 보다 제작사들에 큰 충격을 안겼다. 미국 영화배우이자 제작자인 타일러 페리는 8억달러(약 1조원)을 투자해 큰 제작 스튜디오를 건설하려다 중단했다. 소라로 인해 스튜디오 자체가 필요 없는 시대가 펼쳐질 것이라는 염려였다. 소라는 어떤 원리로 움직이는 것일까. 또 어떤 원리가 있길래 종전 영상 편집기를 제친 것일까. 정답은 대규모언어모델(LLM)에 그 힌트가 있다. 많은 선행 연구에선 텍스트 투 비디오 AI를 만들고자 순환 네트워크, 생성적 적대 네트워크, 자동 회귀 변환기, 확산 모델 등을 주로 사용했다. 이러한 작업은 주로 이미지나 짧은 동영상에 적합하다. 하지만 오픈AI는 LLM에서 힌트를 얻었다고 말한다. 차이점은 LLM에는 텍스트 토큰이 있는 반면, 소라에는 시각적 패치가 있다는 점이다.

  1. 패치는 이전에도 시각 데이터 모델에 효과적인 표현으로 밝혀진 바 있다. 방법은 이렇다.
  2. 시각 데이터의 차원을 줄이는 네트워크를 훈련한다.
  3. 원본 비디오를 입력으로 받아 시간적, 공간적으로 압축된 잠재적 표현을 출력한다.
  4. 소라는 이 압축된 잠재 공간 내에서 비디오를 학습한 후 생성한다.
  5. 압축된 입력 비디오가 주어지면, 트랜스포머 토큰 역할을 하는 시공간 패치 시퀀스를 추출한다.
  6. 패치 기반 표현을 통해 소라는 다양한 해상도, 길이, 화면 비율의 비디오와 이미지를 학습한다.
  7. 소라는 확산모델로, 노이즈가 있는 패치 및 텍스트 프롬프트와 같은 컨디셔닝 정보가 입력되면 원래의 깨끗한 패치를 예측하도록 훈련한다.

프롬픝: 화려한 역사적인 홀에서 거대한 파도가 정점을 찍고 부서지기 시작합니다. 순간을 포착한 두 명의 서퍼가 능숙하게 파도를 헤쳐나갑니다.

스마트폰 화면 비율로 촬영한 동영상이 최적

트랜스포머가 비디오 모델로서도 효과적으로 확장된다는 사실을 발견한 것이다. 특히 소라는 와이드스크린 1920x1080p 동영상, 세로 1080x1920 동영상 등 모든 동영상을 생성할 수 있다. 오픈AI는 흥미로운 주장을 한다. "기본 화면 비율로 동영상을 학습하면 구도와 프레임이 개선됩니다." 즉, 스마트폰 사이즈로 훈련한 모델이, 정사각형 동영상으로 학습한 모델에 비해 탁월하다는 설명이다.

관건은 대규모 데이터세트다. 즉 문장을 입력해서 출력으로 동영상이 생성되려면, 해당 텍스트 캡션이 포함된 대량의 영상이 필요하다. 트랜스포머 모델이기 때문이다. 이에 오픈AI는 DALL-E에 도입된 리캡션 기법을 동영상에 적용했다. 먼저 설명력이 있는 캡션 모델을 학습시킨 다음, 이를 사용해 학습 세트의 모든 동영상에 대한 텍스트 캡션을 생성했다. "설명력이 높은 동영상 캡션을 학습하면 텍스트 충실도는 물론 동영상의 전반적인 품질이 향상됐다"는 것이 오픈AI의 설명이다.

4개의 동영상을 생성한 뒤 특정 지점에서 이어 붙인 소라

미드저니 스테이블디퓨전는 끝이 날까

이후 GPT를 투입했다. 챗GPT 유료 버전에 달려 있는 달리와 같은 기법이다. 예를 들어 사용자가 맛있는 사과를 먹고있는 모습을 생성하라고 짧게 입력할 경우 GPT가 이에 대한 프롬프트를 스스로 늘린다. 이를 통해 보다 정교한 영상을 표현할 수 있는 것이다. 다음은 다른 동영상 제너레이터와 동일한 기법이다. 소라는 동영상을 생성한 뒤 이를 이어 붙일 수 있도록 했다. 시작 점이 다른 4개의 동영상을 만든 뒤 특정 한 시점에서 이어 붙인 것이다. 오픈AI는 이를 통해 동영상을 끊김 없이 무한루프를 활용해 만들 수 있다고 설명했다.

소라는 향후 달리3를 대체할 것을 시사했다. 소라는 동영상 생성 뿐 아니라 이미지까지 실사로 생성이 가능하다. 가장 중요한 포인트는 일반세계모델(General World Models)을 일부 적용했다는 점이다. 오픈AI는 "소라는 때때로 간단한 방법으로 세상의 상태에 영향을 미치는 행동을 시뮬레이션할 수 있다"고 설명한다. 예를 들어, 캔버스에 그림을 그린다고 상상을 해 볼 때 손의 끊김없이 동영상을 생성할 수 있다. 또 한 남자가 햄버거를 먹으면 햄버거에 이 빨 자국을 남길 수 있다. '일반세계모델'의 개념은 2018년 당시 구글브레인 소속이었던 '데이비드 하'가 논문을 통해서 소개한 개념으로 알려져있다. 하지만 오픈AI는 소라에 일반세계모델을 어디까지 도입했는지 설명하지 않았다.

 

챗GPT 개발사 오픈AI, 소라(Sora) 공개...최대 1분 비디오 생성

챗GPT 개발사 오픈AI가 내놓은 텍스트 투 비디오(Text to Video) 오픈AI가 문장을 입력하면 비디오를 생성해 주는 '소라'를 전격 공개하면서, '텍스트 투 비디오(Text to Video)' 산업이 급변할 전망이다. 15

appist.tistory.com

 

아이돌 사진을 넣었더니, 내맘대로 춤을 춘다, 알리바바 드리무빙

알리바바그룹이 드리무빙이라는 AI 비디오 생성 프레임워크를 개발해 발표했다. 얼굴 이미지는 유지하면서도, 비디오 동작 역동성은 극대화 했다는 평가다. 알리바바 그룹 산하 지능형 컴퓨팅

appist.tistory.com

 

애플 AI 출격…동영상 넣으면 배경서 인물 떼어내 작동

아카이브에 '휴먼 가우시안 스플랫' 공개 애플 연구진이 인공지능(AI)에 대한 새로운 연구 결과를 아카이브(arxiv)에 전격 공개했다. '휴먼 가우시안 스플랫(HUGS·Human Gaussian Splats)'이라는 논문에서,

appist.tistory.com

 

반응형

관련글 더보기