상세 컨텐츠

본문 제목

챗GPT 개발사 오픈AI, 소라(Sora) 공개...최대 1분 비디오 생성 [동영상AI]

Tech news

by 애피스트 APPIST 2024. 2. 16. 10:19

본문

반응형

 

챗GPT 개발사 오픈AI가 내놓은 텍스트 투 비디오(Text to Video)

소라(Sora)의 영상은 매우 화려했다. 도쿄 거리 한복판을 걷는 여성 이미지가 대표적이다. 일반적으로 영상에 글자가 있으면 깨짐이나 번짐현상이 있어야 하지만 그런 점이 도드라지지 않았다.

오픈AI가 문장을 입력하면 비디오를 생성해 주는 '소라'를 전격 공개하면서, '텍스트 투 비디오(Text to Video)' 산업이 급변할 전망이다.

15일(현지시간) 오픈AI는 블로그를 통해 비디오 생성 인공지능(AI)인 소라를 공개했다. 특히 오픈AI는 "언어에 대한 깊은 이해를 갖고 있어 프롬프트를 정확하게 해석하고 생생한 감정을 표현하는 매력적인 캐릭터를 생성할 수 있다"며 "사용자가 프롬프트에서 요구한 것뿐만 아니라 프롬프트가 물리적 세계에 어떻게 존재하는지 이해한다"고 강조했다. 챗GPT 운영사 오픈AI가 제작한 소라는 스테이블 디퓨전, 런웨이 '젠-2', 피카랩스 피카와 함께 비디오 AI 4대장으로 통할 것으로 보인다. 이는 소라가 챗GPT 기반이기 때문이다. 오픈AI 이미지 생성 AI인 달리(DALLE-3)가 미드저니 등 다른 이미지 생성 AI와 다른 점이 자연어에 대한 이해가 높았다. 소라 역시 마찬가지일 것으로 보인다. 별도의 프롬프트 없이 자연어로 이미지 제작이 가능한 대목이다.

1분길이 동영상 제작 가능...경쟁사 15초 대비 4배 증가

오픈AI가 공개한 19세기 캘리포니아 골드러시 시대 영상. 빛 바랜 동영상인데 드론 뷰로 제작했다.

소라 Sora가 가장 주목 받는 대목은 최대 1분길이 동영상 제작이다. 현존하는 동영상 생성 AI는 3~4초 길이가 고작이다. 피카는 3초, 런웨이 '젠-2'는 4초다. 물론 연장 사용이 가능하다. 예를 들어 피카는 3초짜리 동영상을 생성한 뒤 뒤이어 4초 8초를 덧붙이는 방식으로 최대 15초 동영상을 제작할 수 있다. 젠-2역시 최대 16초 생성이 가능하다. 문제는 이렇게 제작된 동영상은 환각이 매우 극심하다는 점이다. 3초짜리 "웃는 사람의 얼굴"을 생성하는 것은 쉽지만, 이어서 4초짜리 영상을 붙이면 환각이 발생한다. 얼굴이 망가지고 턱이 돌아가며 찢어진다. 생성형 AI 동영상이 손쉽게 호러물로 바뀌는 대목이다. 때문에 사용자가 15초짜리 완성된 동영상을 만드는데는 수십차례 이상의 실험이 필요하다. 특히 동영상 AI는 사용료가 매우 높다. 때문에 긴 동영상을 만드는 데는 큰 비용이 들어간다. 오픈AI는 최대 1분을 강조했다.

하지만 어떤 방식으로, 1분짜리 비디오를 생성할지에 대해선 설명하지 않았다. 현재 다른 모델과 같은 방식이라면 15초짜리 영상을 제작한 뒤 이를 추가하는 방식이 될 것으로 보인다. 15초짜리에 이어 20초 또 다시 25초를 붙이는 방식이다. 실제로 이날 오픈AI가 공개한 소라의 대다수 동영상은 길이가 20초였다.

오픈AI가 벤치마크 성능은 공개하지 않았지만, 소라(Sora)의 영상은 매우 화려했다. 도쿄 거리 한복판을 걷는 여성 이미지가 대표적이다. 일반적으로 영상에 글자가 있으면 깨짐이나 번짐현상이 나타난다. 하지만 그런 점이 도드라지지 않았다. 또 다른 영상은 19세기 캘리포니아 골드러시 시대 영상이다. 빛 바랜 동영상인데 드론 뷰로 제작했다. 25초 분량을 공개했다. 마치 19세기 하늘을 촬영한 것 같은 느낌을 준다. 이 뿐 아니다. SUV를 뒤에서 추격하는 영상마저 공개했다. 20초 분량이다. 매우 생동감 있는 동영상이다. 하얀 SUV 뒤를 하이 앵글로 잡아 추격한다. 향후 영화 제작에 사용되도 이상하지 않을 정도다.

챗GPT 활용 자연어 인식...일부 크리에이터 대상 공개

다른 동영상 업체와 다른 점은 실사중심이라는데 있다. 물론 다른 동영상 역시 이미지를 업도르하고 원하는 동영상 제작을 요청하면 실사에 가까운 동영상을 만든다. 하지만 한계는 있다. 런웨이 피카 스테이블디퓨전과 같은 경쟁사 모델이 주로 애니메이션에 초점을 맞춘 것과 다르다는점에서 인상 깊다. 하지만 소라가 실제 서비스로 어떻게 나올지에 대해서 오픈AI는 함구했다. 또 가격 역시 알리지 않았다.

샘 올트먼 오픈AI 최고경영자(CEO)는 "당분간은 제한된 사용자만 상대로 허용하겠다"고 설명했다. 트위터인 X를 통해 한 말이다. 실제 제품이 나오기까지는 상당한 시간이 소요될 것으로 보이는 대목이다. 오픈AI가 염려하는 것은 딥페이크(Deep fake) 제작물로 악용되는 것이다. 오늘날 수많은 비디오 AI는 선거나 포르노그라피 등에 악용되고 있다. 소라 역시 그런 용도로 사용되지 말라는 법은 없다.

 

소라(Sora) 작동 원리는 트랜스포머...챗GPT 개발사 마술 통했다 [동영상AI]

AI업계를 충격에 빠뜨린 소라(Sora) [2023년 2월23일] 오픈AI가 공개한 비디오 동영상 인공지능(AI)인 소라(Sora)는 충격 그 자체였다. 피카아트 런웨이와 같은 가장 최전선에 있는 동영상 AI는 최대 길

appist.tistory.com

 

아이돌 사진을 넣었더니, 내맘대로 춤을 춘다, 알리바바 드리무빙

알리바바그룹이 드리무빙이라는 AI 비디오 생성 프레임워크를 개발해 발표했다. 얼굴 이미지는 유지하면서도, 비디오 동작 역동성은 극대화 했다는 평가다. 알리바바 그룹 산하 지능형 컴퓨팅

appist.tistory.com

 

애플 AI 출격…동영상 넣으면 배경서 인물 떼어내 작동

아카이브에 '휴먼 가우시안 스플랫' 공개 애플 연구진이 인공지능(AI)에 대한 새로운 연구 결과를 아카이브(arxiv)에 전격 공개했다. '휴먼 가우시안 스플랫(HUGS·Human Gaussian Splats)'이라는 논문에서,

appist.tistory.com

 

반응형

관련글 더보기