상세 컨텐츠

본문 제목

엔비디아 폭락 원인...챗GPT 답변 속도 13배 높인 '그로크' 때문

Tech news

by 애피스트 APPIST 2024. 2. 21. 23:16

본문

반응형

그로크의 추론 성능

엔비디아 A100을 넘어선 설계


[2024년2월21일] 엔비디아는 2024년 귀속연도 4분기 실적 발표를 앞두고 휘청거렸다. 주가가 주가가 장중 4.35% 하락했다. 엔비디아 주가는 6개월새 50% 가까이 폭등했다. 작년 8월21일 469.67달러에서 올해 2월21일 694.52달러로 치솟았다. AI 학습용 칩인 그래픽처리장치(GPU) 시장을 무려 90% 장악하고 있기 때문이다. 오픈AI 챗GPT 구글 제미나이와 같은 방대한 파라미터를 보유한 대규모언어모델(LLM)을 학습하기 위해서는 엔비디아 칩이 필수적이다. 하지만 엔비디아 칩은 주문후 공급받는데 까지 걸리는 리드타임이 무려 52주에 달한다. 그만큼 품귀다.

하지만 실적 발표를 하루 앞두고 한 차례 이변이 발생했다. 구글 칩 엔지니어 출신인 조나단 로스 등이 설립한 반도체 설계 기업 그로크(Groq)가 LLM 전용 칩을 발표했기 때문이다. 그로크가 내놓은 AI 칩은 대규모언어모델에 특화된 LPU다. 그로크의 LPU는 5120개 벡터 산술 논리 장치(ALU),320 x 320 행렬 곱셈을 통해 INT8에서 750TOPS(TOPS는 1초당 1조번 AI 연산), FP16에서 188TFLOPS를 달성하는 TSP(Tensor-Streaming Processor) 아키텍처를 기반으로 한 싱글 코어 칩이다.

그로크 서비스 화면

챗GPT 성능 무려 10배 이상 높여


이는 상당히 높은 수준이다. INT8에서 엔비디아 H100 칩이 1,000 TOPS, A100이 624TOPS 수준이다. 애플 M1 울트라가 215 TOPS 정도다. 이들 칩은 멀티코어라는 점에서 그로크 칩과 대비된다. 그만큼 스타트업 칩으로서는 설계 자체가 탁월한 대목이다. 더욱이 그로크의 LPU는 대규모언어모델에서 특화돼 있다는 점에서 엔비디아에 위협적이라는 평가다.

벤치마크 테스트에서 그로크는 다른 8개 클라우드 기반 추론 성능을 앞질러 주변을 놀라게했다. 메타가 개발한 700억 파라미터 기반 LLM '라마 2'에서 그로크는 초당 241개 토큰을 생성했다. 반면 MS 애저클라우드는 초당 19개 토큰을 생성했다. 100개 토큰 생성에서도 그로크는 0.8초 MS는 10.1초 걸렸다. 만약 챗GPT를 그로크 LPU 기반에서 구동할 경우 응답속도가 무려 13배 이상 빠른 것이다. 통상 한국어세어 1토큰은 1음절이다. 200자 원고지 1매가 1초마다 생성되는 셈이다.

이에 대해 조나단 로스 크로크 최고경영자(CEO)는 "스피드는 엔지니어의 생각을 아이디어를 사업 솔루션과 삶을 변화시키는 애플리케이션으로 교체하는 것"이라고 강조했다. 그로크는 작년 삼성전자와 파트너십을 맺었다. 삼성전자의 텍사스 파운드리 공장에서 양산을 한다는 협약이다. 4나노 양산 기반으로 나올 전망이다.

조나단 로스 그로크 CEO

반응형

관련글 더보기