상세 컨텐츠

본문 제목

오픈AI, 크리틱GPT 출격...“인간 트레이너 지원하는 AI트레이너”

New research

by 애피스트 APPIST 2024. 6. 28. 12:00

본문

반응형

 

CriticGPT의 제안이 항상 옳은 것은 아니지만, 트레이너가 AI의 도움을 받지 않았을 때보다 모델이 작성한 답안에서 더 많은 문제를 발견하는 데 도움이 될 수 있다는 사실을 발견했다. 또한, 사람들이 CriticGPT를 사용하면 AI가 기술을 보강하여 사람이 혼자 작업할 때보다 더 포괄적인 비평을 하고, 모델이 혼자 작업할 때보다 환각 버그가 더 적다. 실험에서 두 번째 무작위 트레이너는 도움을 받지 않은 사람의 비평보다 휴먼+크리틱GPT 팀의 비평을 60% 이상 선호했다.

 

인간 트레이너 군단의 역할 강조

 

오픈AI가 인간 트레이너를 지원하는 크리틱GPT(CriticGPT)를 새롭게 개발했다. 크리틱GP 개발로 오픈AI의 AI 어시스턴트 성능은 한층 강화될 전망이다. 28일 오픈AI에 따르면, 오픈AI는 코드 평가를 담당하는 인간 트레이너를 지원하기 위해 GPT-4를 미세 조정해 새로운 모델을 개발했다. 크리틱GPT라고 불리는 새로운 모델은 인간이 놓친 버그를 잡아낼 수 있다. 인간 심사자한테 평가를 요청한 결과, 63%가 크리틱GPT의 코드 오류 수정이, 인간 디버거들 보다 우수했다고 답했다

오픈AI는 향후 새 모델을 코드외 분야로 확장한다는 방침이다. 챗GPT를 성공으로 이끈 핵심 요소 중 하나는 봇의 인공지능 모델에 좋은 결과물과 나쁜 결과물에 대한 지침을 제공한 인간 트레이너들이 있었기 때문이다. 오픈AI는 이제 인간 트레이너를 돕기 위해 더 많은 인공지능을 추가하면 인공지능 도우미를 더 똑똑하고 신뢰할 수 있게 만들려고 하는 것이다.

RLHF의 선구적 도입

챗GPT를 개발하는 과정에서 오픈AI는 인간의 피드백을 통한 강화 학습, 즉 RLHF의 사용을 선구적으로 도입했다. RLHF는 인간의 피드백을 통한 강화 학습이다. 인공지능 모델이 인간의 평가를 받아 학습하는 방법인 것이다. 마치 선생님이 학생의 시험지를 채점해서 피드백을 주는 것과 비슷하다.
교사가 더 나은 답을 쓰도록 학습하지만, 교사의 평가가 항상 일관적이지 않거나 매우 어려운 문제에 대해 정확한 평가를 내리기 어려운 경우가 있는 것처럼, RLHF도 이런 문제를 겪을 수 있다. 해당 기술은 인간 테스터의 입력을 사용해 AI 모델을 미세 조정해 출력이 더 일관성 있고 이의가 적으며 더 정확하다고 판단되도록 한다. 트레이너가 제공하는 평가는 모델의 행동을 유도하는 알고리즘에 반영된다. 해당 기술은 챗봇의 신뢰성과 유용성을 높이고 오작동을 방지하는 데 매우 중요한 것으로 입증됐다

냇 맥엘리스 오픈AI 연구원은 “RLHF는 매우 잘 작동하지만 몇 가지 주요한 한계가 있다”면서 “매우 복잡한 결과물을 평가하기 어려울 수 있다”고 지적했다. 또한 이 프로세스는 모델을 최적화해 실제로는 정확하지 않지만 그럴듯해 보이는 결과물을 만들어낼 수 있다. 맥앨리스는 “우리는 이 기술을 RLHF 채팅 스택에 통합하기 위한 작업을 시작하고 있다”고 말했다. 크리틱GPT도 환각을 통해 실수를 할 수 있기 때문에 접근 방식이 불완전하다.
하지만 해당 기술은 인간 학습의 오류를 줄여 챗GPT 같은 도구뿐만 아니라 오픈AI의 모델을 더 정확하게 만드는 데 도움이 될 수 있다고 덧붙였다.

크리틱GPT 성능

클로드, 역시 새 방법 발견

이달 초, 오픈AI의 전직 직원들이 설립한 오픈AI의 라이벌인 앤스로픽은 모델의 훈련 방식과 공급되는 데이터를 개선해 더 뛰어난 성능의 자체 챗봇 버전인 클로드(Claude)를 발표했다. 또한 앤스로픽과 오픈AI는 속임수와 같은 원치 않는 행동을 더 잘 방지하기 위해 AI 모델을 검사해 결과물에 도달하는 방법을 이해하는 새로운 방법을 선보였다.
이 새로운 기술은 오픈AI가 점점 더 강력한 AI 모델을 훈련하는 동시에 그 결과물이 더 신뢰할 수 있고 인간의 가치에 부합하도록 보장하는 데 도움이 될 수 있다. 특히 회사가 코드 이외의 더 많은 영역에 성공적으로 배포할 경우 더욱 유용할 것이다.

 

반응형

관련글 더보기