상세 컨텐츠

본문 제목

인텔 연구진, 소형 비전-언어 모델 LLaVA-Gemma 런칭

New research

by 애피스트 APPIST 2024. 4. 9. 10:09

본문

반응형

인텔랩스, LLaVA-Gemma

Gemma-2B와 Gemma-7B

인텔랩스, LLaVA-Gemma

[2024년4월9일] 인텔 연구진이 라바-젬마(LLaVA-Gemma)라는 새로운 소형 비전-언어 모델을 공개했다. 인텔은 Gemma라는 대규모 언어 모델의 두 가지 변형인 Gemma-2B와 Gemma-7B를 내놓았다. 각각 파라미터수가 20억, 70억개 모델이다. 대규모 언어 모델(LLM)과 다중 멀티모달 기반 모델(MMFMs)에 대한 연구가 증가하면서, 시각과 언어 작업에서 높은 성능을 보인 모델들이 부상하고 있다. 인텔 역시 이에 대해 도전한 것이다.문제는 대규모언어모델에 필요한 막대한 추론 비용이다. 이에 따라 소규모 LLM에 대한 탐색이 이루어지고 있다.

인텔 랩스의 인지 AI 연구팀은 Gemma LLM 변형을 기반으로 한 비전-언어 어시스턴트 모음인 LLaVA-Gemma를 도입했다. 이 모델은 계산의 효율성을 높이면서도, 동시에 시각적 언어적 이해를 증가시킨 것이 특징이다. LLaVA-Gemma는 LLaVA 프레임워크를 따르되, CLIP과 같은 사전 훈련된 비전 인코더와 Gemma와 같은 사전 훈련된 언어 모델을 MLP 커넥터를 통해 결합하는 수정사항을 포함한다. 이 모델은 커스텀 데이터셋에서 MLP 커넥터의 사전 훈련 단계와 다중 모달 지시 튜닝 예시에서 언어 모델과 커넥터의 공동 파인 튜닝 단계로 구성된 두 단계 훈련 과정을 거친다.

인텔에 따르면, Gemma-2B 모델은 DinoV2 변형을 사용하여 모든 벤치마크에서 CLIP 변형을 제외하고 우수한 성능을 보였다. 두 모델 크기의 훈련 및 평가 속도를 비교했을 때, Gemma-2B 모델은 8개의 인텔 Gaudi 2® AI 가속기에서 4시간, Gemma-7B 모델은 동일한 조건에서 16시간의 훈련 시간이 소요됐다. 이는 Gemma-7B 모델이 Gemma-2B 모델에 비해 훈련 시간이 약 네 배 더 길다는 것을 나타낸다. 이러한 결과는 모델 크기와 훈련 효율성 사이의 교환을 강조한다.

연구진은 이번 발표에 대해 이렇게 설명한다.

  • 인텔 연구진은 효율적인 다중 모달 상호작용을 위한 컴팩트하고 강력한 Gemma 언어 모델을 활용하는 MMFM인 LLaVA-Gemma를 소개한다.
  • Gemma-2B와 Gemma-7B 모델 변형을 광범위하게 평가하여 LLM에서의 계산 효율성과 시각적 및 언어적 이해의 풍부함 사이의 교환에 대한 귀중한 통찰을 제공한다.
  • 대안적 설계 선택의 깊은 탐색을 제시하고 관련성 맵을 시각화하여 모델의 성능과 주의 이해를 강화한다.
  • 결론적으로, 이 연구는 Gemma LLM을 활용한 소형 비전-언어 모델인 LLaVA-Gemma를 소개한다. 이 연구는 연구자들에게 소규모 모델에서의 계산 효율성과 다중 모달 이해 사이의 교환을 탐구할 수 있는 독특한 기회를 제공한다. 평가는 LLaVA-Gemma의 다양한 데이터셋에서의 다재다능함과 효과성을 입증하며, 소형 비전-언어 모델 연구에 대한 향후 벤치마크로서의 잠재력을 강조한다.
반응형

관련글 더보기