오픈AI가 인간 트레이너를 지원하는 크리틱GPT(CriticGPT)를 새롭게 개발했다. 크리틱GP 개발로 오픈AI의 AI 어시스턴트 성능은 한층 강화될 전망이다. 28일 오픈AI에 따르면, 오픈AI는 코드 평가를 담당하는 인간 트레이너를 지원하기 위해 GPT-4를 미세 조정해 새로운 모델을 개발했다. 크리틱GPT라고 불리는 새로운 모델은 인간이 놓친 버그를 잡아낼 수 있다. 인간 심사자한테 평가를 요청한 결과, 63%가 크리틱GPT의 코드 오류 수정이, 인간 디버거들 보다 우수했다고 답했다
오픈AI는 향후 새 모델을 코드외 분야로 확장한다는 방침이다. 챗GPT를 성공으로 이끈 핵심 요소 중 하나는 봇의 인공지능 모델에 좋은 결과물과 나쁜 결과물에 대한 지침을 제공한 인간 트레이너들이 있었기 때문이다. 오픈AI는 이제 인간 트레이너를 돕기 위해 더 많은 인공지능을 추가하면 인공지능 도우미를 더 똑똑하고 신뢰할 수 있게 만들려고 하는 것이다.
챗GPT를 개발하는 과정에서 오픈AI는 인간의 피드백을 통한 강화 학습, 즉 RLHF의 사용을 선구적으로 도입했다. RLHF는 인간의 피드백을 통한 강화 학습이다. 인공지능 모델이 인간의 평가를 받아 학습하는 방법인 것이다. 마치 선생님이 학생의 시험지를 채점해서 피드백을 주는 것과 비슷하다.
교사가 더 나은 답을 쓰도록 학습하지만, 교사의 평가가 항상 일관적이지 않거나 매우 어려운 문제에 대해 정확한 평가를 내리기 어려운 경우가 있는 것처럼, RLHF도 이런 문제를 겪을 수 있다. 해당 기술은 인간 테스터의 입력을 사용해 AI 모델을 미세 조정해 출력이 더 일관성 있고 이의가 적으며 더 정확하다고 판단되도록 한다. 트레이너가 제공하는 평가는 모델의 행동을 유도하는 알고리즘에 반영된다. 해당 기술은 챗봇의 신뢰성과 유용성을 높이고 오작동을 방지하는 데 매우 중요한 것으로 입증됐다
냇 맥엘리스 오픈AI 연구원은 “RLHF는 매우 잘 작동하지만 몇 가지 주요한 한계가 있다”면서 “매우 복잡한 결과물을 평가하기 어려울 수 있다”고 지적했다. 또한 이 프로세스는 모델을 최적화해 실제로는 정확하지 않지만 그럴듯해 보이는 결과물을 만들어낼 수 있다. 맥앨리스는 “우리는 이 기술을 RLHF 채팅 스택에 통합하기 위한 작업을 시작하고 있다”고 말했다. 크리틱GPT도 환각을 통해 실수를 할 수 있기 때문에 접근 방식이 불완전하다.
하지만 해당 기술은 인간 학습의 오류를 줄여 챗GPT 같은 도구뿐만 아니라 오픈AI의 모델을 더 정확하게 만드는 데 도움이 될 수 있다고 덧붙였다.
이달 초, 오픈AI의 전직 직원들이 설립한 오픈AI의 라이벌인 앤스로픽은 모델의 훈련 방식과 공급되는 데이터를 개선해 더 뛰어난 성능의 자체 챗봇 버전인 클로드(Claude)를 발표했다. 또한 앤스로픽과 오픈AI는 속임수와 같은 원치 않는 행동을 더 잘 방지하기 위해 AI 모델을 검사해 결과물에 도달하는 방법을 이해하는 새로운 방법을 선보였다.
이 새로운 기술은 오픈AI가 점점 더 강력한 AI 모델을 훈련하는 동시에 그 결과물이 더 신뢰할 수 있고 인간의 가치에 부합하도록 보장하는 데 도움이 될 수 있다. 특히 회사가 코드 이외의 더 많은 영역에 성공적으로 배포할 경우 더욱 유용할 것이다.
인텔 연구진, 소형 비전-언어 모델 LLaVA-Gemma 런칭 (1) | 2024.04.09 |
---|---|
소라(Sora) 작동 원리는 트랜스포머...챗GPT 개발사 마술 통했다 [동영상AI] (0) | 2024.02.24 |
아이돌 사진을 넣었더니, 내맘대로 춤을 춘다, 알리바바 드리무빙 (1) | 2023.12.31 |
"언러닝 방법 나왔다" MS, 해리포터로 AI 저작권침해 방지 (0) | 2023.12.28 |
애플 AI 출격…동영상 넣으면 배경서 인물 떼어내 작동 (2) | 2023.12.22 |