상세 컨텐츠

본문 제목

문장 넣으면 2D 게임이 '뚝딱'... 구글 딥마인드 '지니' 떴다 [챗GPT 개발사 오픈AI 소라의 맞수]

Tech news

by 애피스트 APPIST 2024. 3. 8. 11:36

본문

반응형


구글 딥마인드(Deepmind)가 문장을 입력하면 게임 프로그램을 생성하는 '지니(Genie)’를 블로그를 통해 전격 공개했다.

 

구글 딥마인드(Deepmind)가 문장을 입력하면 게임 프로그램을 생성하는 '지니(Genie)’를 블로그를 통해 전격 공개했다. 지니는 인터넷 동영상을 학습한 파운데이션 세계모델을 근간으로 했다. 이미지 사진 스케치 등 다양한 그림 파일을 학습한 모델로, 출력물은 이를 제어할 수 있는 2D 게임이다.

앞서 오픈AI가 세계를 이해할 수 있는 동영상 생성기인 소라(Sora)를 공개했는데, 이에 대해 맞불을 놓은 것이다. 딥마인드는 "지난 몇 년 동안 언어, 이미지, 심지어 동영상을 통해 참신하고 창의적인 콘텐츠를 생성할 수 있는 모델이 등장하는 등 제너레이티브 AI가 등장했다"면서 "오늘은 제너레이티브 AI의 새로운 패러다임인 제너레이티브 인터랙티브인 지니(Genie)을 소개한다"고 말했다.

구글 딥마인드(Deepmind)가 문장을 입력하면 게임 프로그램을 생성하는 '지니(Genie)’를 블로그를 통해 전격 공개했다. 사진을 넣으면 사진이 게임으로 전환된다.

일반세계모델 적용

이를 통해 한 프롬프트 창에서 상호작용하고 플레이할 수 있는 환경이 만들어진다. 주목되는 것은 지니가 일반세계모델(General World Models)을 기반으로 하고 있다는 점이다. 일반세계모델은 2018년 구글 브레인 소속 데이비드 하가 논문을 통해 정립한 개념이다. 사람은 우리 주위를 둘러싼 물리 법칙을 본능적으로 안다. 공을 하늘로 던지면 땅으로 떨어진다. 배우지 않아도 안다. 하지만 AI는 다르다. 앞서 오픈AI는 소라(Sora)를 공개하면서 "물리적 세계를 이해하는 방법을 AI에 학습시키고 있다"고 말했다.

구글 딥마인드(Deepmind)가 문장을 입력하면 게임 프로그램을 생성하는 '지니(Genie)’를 블로그를 통해 전격 공개했다.

액션레이블 학습 필요 없다

아울러 지니는 실제 사진이나 스케치 등 이미지만 갖고, 사람들이 상상하는 가상 세계와 상호작용할 수 있도록 지원한다. 액션 레이블 없이도 훈련이 가능하다. 딥마인드는 "대신 지니(Genie)는 공개적으로 사용 가능한 대규모 인터넷 동영상 데이터 세트를 통해 학습한다"면서 "2D 플랫포머 게임과 로보틱스 동영상에 초점을 맞추고있지만, 이 방법은 모든 유형의 도메인에 적용 가능하다"고 강조했다. 게임 영화와 같은 동영상 세트만 있다면, 무궁무진한 게임 생성이 가능하다는 설명이다.

구글 딥마인드(Deepmind)가 문장을 입력하면 게임 프로그램을 생성하는 '지니(Genie)’를 블로그를 통해 전격 공개했다. 아이가 스케치한 그림을 넣으면 게임이 된다.

동영상만 보고 플레이를 상상

또 다른 특징은 제어다. 지니는 동영상 이미지를 학습해 매우 세부적인 콘트롤 방법을 학습한다. 종전 모델에서는 움직임을 제어하려면 레이블이 필요했다. 예를 들어 마블 캐릭터가 오른쪽으로 가거나 왼쪽으로 가거나 아니면 점프를 하는 행동을 콘트롤 할 수 있도록 하려면, 일일이 레이블을 달아야했다. 하지만 지니는 영상을 학습하는 것 만으로 이러한 행동을 한다. 딥마인드는 "지니는 생성된 환경 전체에서 일관된 다양한 잠재 동작을 추론한다"고 강조했다.

이번 발표에서 딥마인드는 이매진2(Imagen2)로이미지를 생성하고 이를 지니(Genie)로 게임으로 전환한 영상을 시연했다. 아울러 스케치와 같이 사람이 디자인한 창작물을 갖고 게임을 만드는 것도 시연했다. 어린 자녀가 그린 캐릭터 스케치를 업로드해, 아이들만을 위한 게임을 만들 수 있는 것이다.

구글 딥마인드(Deepmind)가 문장을 입력하면 게임 프로그램을 생성하는 '지니(Genie)’를 블로그를 통해 전격 공개했다.

진화할 인공지능 에이전트

물론 이런 게임 모델이 없었던 것은 아니다. 하지만 생성할 수 있는 게임수가 제한됐다. 그러나 지니는 새로운 커리큘럼을 끝없이 훈련할 수 있다. RT1 액션이 없는 동영상으로 더 작은 25억 개의 모델을 훈련했다는 것이 딥마인드의 설명이다. 플랫포머의 경우와 마찬가지로, 동일한 잠재 액션 시퀀스를 가진 궤적은 일반적으로 유사한 동작을 보인다는 설명이다. 지니가 일관된 액션을 학습할 수 있으며, 이는 범용 AI를 구축하는데 보탬이 된다.

반응형

관련글 더보기