[2024년4월9일] 인텔 연구진이 라바-젬마(LLaVA-Gemma)라는 새로운 소형 비전-언어 모델을 공개했다. 인텔은 Gemma라는 대규모 언어 모델의 두 가지 변형인 Gemma-2B와 Gemma-7B를 내놓았다. 각각 파라미터수가 20억, 70억개 모델이다. 대규모 언어 모델(LLM)과 다중 멀티모달 기반 모델(MMFMs)에 대한 연구가 증가하면서, 시각과 언어 작업에서 높은 성능을 보인 모델들이 부상하고 있다. 인텔 역시 이에 대해 도전한 것이다.문제는 대규모언어모델에 필요한 막대한 추론 비용이다. 이에 따라 소규모 LLM에 대한 탐색이 이루어지고 있다.
인텔 랩스의 인지 AI 연구팀은 Gemma LLM 변형을 기반으로 한 비전-언어 어시스턴트 모음인 LLaVA-Gemma를 도입했다. 이 모델은 계산의 효율성을 높이면서도, 동시에 시각적 언어적 이해를 증가시킨 것이 특징이다. LLaVA-Gemma는 LLaVA 프레임워크를 따르되, CLIP과 같은 사전 훈련된 비전 인코더와 Gemma와 같은 사전 훈련된 언어 모델을 MLP 커넥터를 통해 결합하는 수정사항을 포함한다. 이 모델은 커스텀 데이터셋에서 MLP 커넥터의 사전 훈련 단계와 다중 모달 지시 튜닝 예시에서 언어 모델과 커넥터의 공동 파인 튜닝 단계로 구성된 두 단계 훈련 과정을 거친다.
인텔에 따르면, Gemma-2B 모델은 DinoV2 변형을 사용하여 모든 벤치마크에서 CLIP 변형을 제외하고 우수한 성능을 보였다. 두 모델 크기의 훈련 및 평가 속도를 비교했을 때, Gemma-2B 모델은 8개의 인텔 Gaudi 2® AI 가속기에서 4시간, Gemma-7B 모델은 동일한 조건에서 16시간의 훈련 시간이 소요됐다. 이는 Gemma-7B 모델이 Gemma-2B 모델에 비해 훈련 시간이 약 네 배 더 길다는 것을 나타낸다. 이러한 결과는 모델 크기와 훈련 효율성 사이의 교환을 강조한다.
연구진은 이번 발표에 대해 이렇게 설명한다.
소라(Sora) 작동 원리는 트랜스포머...챗GPT 개발사 마술 통했다 [동영상AI] (0) | 2024.02.24 |
---|---|
아이돌 사진을 넣었더니, 내맘대로 춤을 춘다, 알리바바 드리무빙 (1) | 2023.12.31 |
"언러닝 방법 나왔다" MS, 해리포터로 AI 저작권침해 방지 (0) | 2023.12.28 |
애플 AI 출격…동영상 넣으면 배경서 인물 떼어내 작동 (2) | 2023.12.22 |