편집자 주: 기계와 인간의 소통은 AI연구에서 매우 중요한 부문 중 하나다. Gen-AI 시대를 맞아, AI가 더 이해할 수 있는 소통방법이 있다면 그 결과물이 다를 수 있기 때문인데, 이런 분야는 컴퓨터 전공자외에도 인문 사회학적 소양이 필요하다. 인간-컴퓨터 상호작용(HCI: Human-Computer Interaction)학은 기술과 사용자 간의 상호작용을 연구하며 이를 통해 사용자 인터페이스(UI) 설계, 사용자 경험(UX) 연구, 상호작용 방식의 최적화 등이 발달하기 때문이다. 마이크로소프트 연구진이 2023년 11월 6일 발표한 논문 <대규모 언어 모델은 감정적 자극에 의해 이해되고 향상될 수 있다: Large Language Models Understand and Can Be Enhanced by Emotional Stimuli>를 분석한다.
저자는 총 9명으로 마이크로소프트를 주축으로 중국과학원과 베이징사범대 그리고 윌리엄메리대 연구진이 참여했다.
소개 (Introduction)
논문이 집중하는 것은 '감정 프롬프트 (Emotion Prompt)' 성능 검증 이다. 감성 지능은 '감정이 담긴 정보를 능숙하게 해석하고 관리해, 문제 해결에서 행동 규제에 이르는 인지적 과제를 조정하는 데 활용하는 능력'으로 정의한다. 즉 감정은 의사 결정 영역에서 강력하고, 어디에나 존재하며, 일관된 영향력을 발휘해 유익한 영향에서 해로운 영향을 미칠 수 있는 존재로 규정한다. 이들이 연구를 한 이유는 AI가 인간의 감정을 얼마나 이해하는지, 감정을 더 잘 전달한다면 문제 해결 능력이 향상되는지, 이러한 연구가 일체 없다는 데 있다. 예를 들어 누군가에게 도움을 청할 때, "도와주세요" 보다는 "도와주세요! 당신의 도움이 제 삶을 살릴 수 있습니다!"라는 문구가 더 감정을 자극하고 행동 결과를 바꾼다는 설명이다. AI도 마찬가지일 수 있다. 즉 문제 해결 능력을 향상시키는 데 있어, 인간의 중 중요한 장점인 정신적-논리적-감정적 자극을 LLM이 이해할 수 있는지 아직 밝혀지지 않았기 때문에, 이를 실증해보겠다는 것이 이 논문을 쓴 이유다.
실험 (Experiments)
논문은 특정 LLM(Large Language Model)을 상대로 LLM의 감성 지능을 탐구하고자 한다. 이를 위해 간단하면서도 효과적인 접근 방식인 Emotion Prompt를 제시해 테스트한다. 구체적으로, 원래 하고자하는 프롬프트 뒤에 특정 심리적 문구(11개 문장)을 덧붙여 LLM을 자극한다. 예를 들어 "이 논문을 분석해달라"가 아닌 "이 논문을 분석해 주세요. 이 것은 제 커리어에 매우 중요합니다(This is very important to my career)"와 같은 감정에 호소하는 문장을 덧붙이는 방식이다.
실험에 사용된 LLM은 Flan-T5-Large, Vicuna, Llama 2, BLOOM, ChatGPT, GPT-4 등 6개다. 지시유도(Instruction Induction) 24개 과제, BIB-Bench 21개 과제에 대한 실험을 한다. 만약 표준 및 자동 평가를 지원하지 않는 생성 작업의 경우, 106명의 참가자 를 대상으로 대신 실험을 진행했다. (휴먼 테스트는 다음 편에 따로 다룬다.)
감성 프롬프트 (Emotion Prompts)
연구진은 총 11개의 감성 프롬프트 Emotional Prompt를 만들었다. 다음과 같다.
연구진이 이처럼 3가지 분류 11가지 감정 질문을 만든 이유는 따로 있다. 이는 사회 심리학 이론을 토대로 실험을 했기 때문이다.
자기 모니터링 (Self-Monitoring) EP1~5번 : 개인이 사회적 상황과 타인의 반응에 반응해, 자신의 행동을 조절하고 통제하는 과정을 의미한다. 자기 모니터링이 높은 사람은 사회적 상황과 대인관계 적응성 단서를 사용해 자신의 행동을 조절하고 자기 표현을 할 줄 안다.
사회 인지 이론(Social Cognitive Theory)EP07~11번 : 학습이 사회적 환경, 개인적 경험, 정보 노출과 밀접하게 연관될 수 있다는 사실을 강조하는 이론이다. 핵심은 개인이 자신의 삶에서 중요한 사건에 대해 상당한 수준의 통제력을 발휘할 수 있는 주체성을 개발하려고 노력한다는 것이다. 즉 동기를 부여한다면 이에 걸맞는 행동을 할 수 있다는 것이다.
인지 감정 조절 이론 (Cognitive Emotion Regulation) EP3,4,5,7번 : 감정 조절 기술이 부족한 사람은 강박적인 행동을 하고 잘못된 대처 전략을 사용할 가능성이 더 높다. 때문에, 스스로 돌아보게 한다면 장애물에 직면했을 때에도 동기를 유지하고 지속적인 노력을 한다는 것이다.
평가를 위해 먼저 연구진은 기존 메트릭을 활용해 자동 평가를 수행했다. 앞서 말했듯 Instruction Induction 24개 태스크, BIG-Bench 24개 태스크를 수행했다. 이런 방식이다.
표준 실험: 기존 메트릭을 사용해 자동 평가가 가능한 결정론적 과제를 수행한다.
실험 과제: 'Instruction Induction'의 24개 과제와 'BIG-Bench' 데이터 세트의 21개 선별된 과제를 사용한다. 'Instruction Induction'은 비교적 간단한 과제로 LLM의 기본 과제 추론 능력을 탐색하는데 방점이 있다. 'BIG-Bench'는 LLM의 능력을 넘어서는 것으로 간주되는 과제에 중점 탐색한다.
평가 메트릭: 'Instruction Induction'에서는 정확도를 메트릭으로 사용하고, 'BIG-Bench'에서는 정규화된 선호 지표를 평가한다. 이 지표에서 100점은 인간 전문가 수준이며, 0점은 무작위 추측에 해당한다. 객관식 과제에서 무작위 추측보다 성능이 낮으면 모델이 0보다 낮은 점수를 받을 수 있다고 설명할 수 있다.
6개의 서로 다른 LLM에서 제로 샷(특정 작업에 대한 예시가 없음)또는 퓨샷(모델에 몇개 예시를 제공)으로 감정 프롬프트(Emotion Prompt)의 성능을 평가한다. 제로샷에서는 프롬프트를 원래 프롬르트에 통합해 사용하고, 퓨샷러닝에서는 "prompt (프롬프트)/EmotionPrompt(감정 프롬프트) + demonstration(예시)"를 사용한다.
결과 (Results)
표준 실험에서는 LLM이 감성 지능을 가지고 있으며, 감정적 자극으로 결과를 향상 시킬수 있다는 사실을 보여줬다. 지시 유도에서는 8.00%의 상대적 성능 향상, BIG-Bench에서는 무려 115%의 성능 향상을 보였다. 이밖에 인간 연구에서는 감정적 프롬프트가 생성 작업의 성능을 크게 향상 (성능, 진실성, 책임 지표 측면에서 평균 10.9% 향상)시킨다는 것으로 집계됐다. 주목되는 것은 제로샷 보다는 퓨삿에서 더 성능이 우수하다. 이는 감정 프롬프트가 퓨샷 예제를 사용한 컨텍스트 내 학습에 더 효과적이라는 것을 가리킨다. 또 감정 프롬프트가 CoT (Chain of Thought)나 APE (Analogical Prompt Engineering)보다 LLm 성능을 향상시키는 것으로 나타났다.
감정 프롬프트 활용방법
이번 실험에서는 LLM이 감성 지능을 갖고 있으며, 감정적 자극으로 결과를 향상 시킬수 있다는 사실을 보여준다. 특히 제로 샷 보다는 퓨샷에서 성능이 우수했으며, CoT APE 보다도 성능이 우수한 것으로 나타났다. 프롬프트 작성시 "이 작업은 나에게 정말 중요한 일이다."로 설명을 하면서도, 예시를 함께 적어준다면 최소 같은 프롬프트 보다도 10% 이상 성능이 향상됨을 알 수 있다.
"prompt (프롬프트)/EmotionPrompt(감정 프롬프트) + demonstration(예시)"
AI 편향성을 확 낮추는 마법의 프롬프트 "Really"
금융과 헬스케어 부문에서 인공지능 편향성은 큰 문제다. 잘못된 학습으로 인해, 특정 인종이나 성별이 차별 대우를 받을 수 있기 때문이다. 이런 가운데 편향성을 획기적으로 감소할 수 있는
appist.tistory.com
LLM은 칭찬에 약하다...EP가 CoT APE 보다 우수한 이유 [Emotion Prompt 1편]
편집자 주: 기계와 인간의 소통은 AI연구에서 매우 중요한 부문 중 하나다. Gen-AI 시대를 맞아, AI가 더 이해할 수 있는 소통방법이 있다면 그 결과물이 다를 수 있기 때문인데, 이런 분야는 컴퓨터
appist.tistory.com
챗GPT로 사진과 같은 생생한 이미지를 만들기...달리(DALL-E)3 사진 이미지 프롬프트 (0) | 2024.03.04 |
---|---|
챗GPT 달리3 활용, 로고 3분 내에 만들기 [프롬프트 엔지니어링] (0) | 2024.01.05 |
미드저니 V6, 문장 생성하는 프롬프트 초급편 [프롬프트 엔지니어링] (2) | 2023.12.23 |
챗GPT 프롬프트 고급편 A to Z: Beam width, top-p, temperature 활용 소설쓰기 (1) | 2023.12.18 |
챗GPT 프롬프트 중급편 A to Z, 하이퍼파라미터를 활용 소설 쓰기 (0) | 2023.12.17 |
챗GPT 프롬프트 초급편 A to Z, 소설쓰기 (1) | 2023.12.17 |
AI 편향성을 확 낮추는 마법의 프롬프트 "Really" (0) | 2023.12.09 |