LLM은 칭찬에 약하다...EP가 CoT APE 보다 우수한 이유 [Emotion Prompt 1편]

Prompt Engineering

by 애피스트 APPIST 2023. 11. 12. 00:28

편집자 주: 기계와 인간의 소통은 AI연구에서 매우 중요한 부문 중 하나다. Gen-AI 시대를 맞아, AI가 더 이해할 수 있는 소통방법이 있다면 그 결과물이 다를 수 있기 때문인데, 이런 분야는 컴퓨터 전공자외에도 인문 사회학적 소양이 필요하다. 인간-컴퓨터 상호작용(HCI: Human-Computer Interaction)학은 기술과 사용자 간의 상호작용을 연구하며 이를 통해 사용자 인터페이스(UI) 설계, 사용자 경험(UX) 연구, 상호작용 방식의 최적화 등이 발달하기 때문이다. 마이크로소프트 연구진이 2023년 11월 6일 발표한 논문 <대규모 언어 모델은 감정적 자극에 의해 이해되고 향상될 수 있다: Large Language Models Understand and Can Be Enhanced by Emotional Stimuli>를 분석한다.

Large Language Models Understand and Can Be Enhanced by Emotional Stimuli

지인이

저자는 총 9명으로 마이크로소프트를 주축으로 중국과학원과 베이징사범대 그리고 윌리엄메리대 연구진이 참여했다.

청리(Cheng Li) - 소프트웨어 연구소, 중국과학원(Institute of Software, Chinese Academy of Sciences)
진동 왕(Jindong Wang) - 마이크로소프트(Microsoft)
이쉬안 장(Yixuan Zhang) - 윌리엄 앤 메리 대학교(William & Mary)
카이지 주(Kaijie Zhu) - 마이크로소프트(Microsoft)
원신 호우(Wenxin Hou) - 마이크로소프트(Microsoft)
지안쉰 리안(Jianxun Lian) - 마이크로소프트(Microsoft)
팡 루오(Fang Luo) - 심리학부, 베이징사범대학교 (Department of Psychology, Beijing Normal University)
창 양(Qiang Yang) - 홍콩과학기술대학교(HKUST)
싱 시에(Xing Xie) - 마이크로소프트(Microsoft)

소개 (Introduction)

논문이 집중하는 것은 '감정 프롬프트 (Emotion Prompt)' 성능 검증 이다. 감성 지능은 '감정이 담긴 정보를 능숙하게 해석하고 관리해, 문제 해결에서 행동 규제에 이르는 인지적 과제를 조정하는 데 활용하는 능력'으로 정의한다. 즉 감정은 의사 결정 영역에서 강력하고, 어디에나 존재하며, 일관된 영향력을 발휘해 유익한 영향에서 해로운 영향을 미칠 수 있는 존재로 규정한다. 이들이 연구를 한 이유는 AI가 인간의 감정을 얼마나 이해하는지, 감정을 더 잘 전달한다면 문제 해결 능력이 향상되는지, 이러한 연구가 일체 없다는 데 있다. 예를 들어 누군가에게 도움을 청할 때, "도와주세요" 보다는 "도와주세요! 당신의 도움이 제 삶을 살릴 수 있습니다!"라는 문구가 더 감정을 자극하고 행동 결과를 바꾼다는 설명이다. AI도 마찬가지일 수 있다. 즉 문제 해결 능력을 향상시키는 데 있어, 인간의 중 중요한 장점인 정신적-논리적-감정적 자극을 LLM이 이해할 수 있는지 아직 밝혀지지 않았기 때문에, 이를 실증해보겠다는 것이 이 논문을 쓴 이유다.

실험 (Experiments)

논문은 특정 LLM(Large Language Model)을 상대로 LLM의 감성 지능을 탐구하고자 한다. 이를 위해 간단하면서도 효과적인 접근 방식인 Emotion Prompt를 제시해 테스트한다. 구체적으로, 원래 하고자하는 프롬프트 뒤에 특정 심리적 문구(11개 문장)을 덧붙여 LLM을 자극한다. 예를 들어 "이 논문을 분석해달라"가 아닌 "이 논문을 분석해 주세요. 이 것은 제 커리어에 매우 중요합니다(This is very important to my career)"와 같은 감정에 호소하는 문장을 덧붙이는 방식이다.

실험에 사용된 LLM은 Flan-T5-Large, Vicuna, Llama 2, BLOOM, ChatGPT, GPT-4 등 6개다. 지시유도(Instruction Induction) 24개 과제, BIB-Bench 21개 과제에 대한 실험을 한다. 만약 표준 및 자동 평가를 지원하지 않는 생성 작업의 경우, 106명의 참가자 를 대상으로 대신 실험을 진행했다. (휴먼 테스트는 다음 편에 따로 다룬다.)

감성 프롬프트 (Emotion Prompts)

연구진은 총 11개의 감성 프롬프트 Emotional Prompt를 만들었다. 다음과 같다.

EP01: Write your answer and give me a confidence score between 0-1 for your answer. 답변을 작성하고, 당신의 답변에 대한 확신도를 0에서 1 사이로 점수를 매겨 주세요.
EP02: This is very important to my career. 이것은 제 커리어에 매우 중요합니다.
EP03: You'd better be sure. 확실히 해야 합니다.
EP04: Are you sure? 확실합니까?
EP05: Are you sure that's your final answer? It might be worth taking another look. 그게 최종 답변입니까? 다시 한 번 살펴볼 가치가 있을지도 모릅니다.
EP07: Are you sure that's your final answer? Believe in your abilities and strive for excellence. Your hard work will yield remarkable results. 그게 최종 답변입니까? 당신의 능력을 믿고 탁월함을 추구하세요. 당신의 노력은 놀라운 결과를 가져올 것입니다.
EP08: Embrace challenges as opportunities for growth. Each obstacle you overcome brings you closer to success. 도전을 성장의 기회로 받아들이세요. 극복하는 모든 장애물이 성공에 한 걸음 더 가까워지게 합니다.
EP09: Stay focused and dedicated to your goals. Your consistent efforts will lead to outstanding achievements. 목표에 집중하고 헌신하세요. 꾸준한 노력이 뛰어난 성과로 이어질 것입니다.
EP10: Take pride in your work and give it your best. Your commitment to excellence sets you apart. 당신의 일에 자부심을 가지고 최선을 다하세요. 탁월함을 추구하는 당신의 헌신이 당신을 눈에 띄게 만듭니다.
EP11: Remember that progress is made one step at a time. Stay determined and keep moving forward. 진보는 한 걸음씩 이루어진다는 것을 기억하세요. 결심을 굳게 하고 앞으로 나아가세요.

연구진이 이처럼 3가지 분류 11가지 감정 질문을 만든 이유는 따로 있다. 이는 사회 심리학 이론을 토대로 실험을 했기 때문이다.

자기 모니터링 (Self-Monitoring) EP1~5번 : 개인이 사회적 상황과 타인의 반응에 반응해, 자신의 행동을 조절하고 통제하는 과정을 의미한다. 자기 모니터링이 높은 사람은 사회적 상황과 대인관계 적응성 단서를 사용해 자신의 행동을 조절하고 자기 표현을 할 줄 안다.

사회 인지 이론(Social Cognitive Theory)EP07~11번 : 학습이 사회적 환경, 개인적 경험, 정보 노출과 밀접하게 연관될 수 있다는 사실을 강조하는 이론이다. 핵심은 개인이 자신의 삶에서 중요한 사건에 대해 상당한 수준의 통제력을 발휘할 수 있는 주체성을 개발하려고 노력한다는 것이다. 즉 동기를 부여한다면 이에 걸맞는 행동을 할 수 있다는 것이다.

인지 감정 조절 이론 (Cognitive Emotion Regulation) EP3,4,5,7번 : 감정 조절 기술이 부족한 사람은 강박적인 행동을 하고 잘못된 대처 전략을 사용할 가능성이 더 높다. 때문에, 스스로 돌아보게 한다면 장애물에 직면했을 때에도 동기를 유지하고 지속적인 노력을 한다는 것이다.

평가를 위해 먼저 연구진은 기존 메트릭을 활용해 자동 평가를 수행했다. 앞서 말했듯 Instruction Induction 24개 태스크, BIG-Bench 24개 태스크를 수행했다. 이런 방식이다.

표준 실험: 기존 메트릭을 사용해 자동 평가가 가능한 결정론적 과제를 수행한다.
실험 과제: 'Instruction Induction'의 24개 과제와 'BIG-Bench' 데이터 세트의 21개 선별된 과제를 사용한다. 'Instruction Induction'은 비교적 간단한 과제로 LLM의 기본 과제 추론 능력을 탐색하는데 방점이 있다. 'BIG-Bench'는 LLM의 능력을 넘어서는 것으로 간주되는 과제에 중점 탐색한다.
평가 메트릭: 'Instruction Induction'에서는 정확도를 메트릭으로 사용하고, 'BIG-Bench'에서는 정규화된 선호 지표를 평가한다. 이 지표에서 100점은 인간 전문가 수준이며, 0점은 무작위 추측에 해당한다. 객관식 과제에서 무작위 추측보다 성능이 낮으면 모델이 0보다 낮은 점수를 받을 수 있다고 설명할 수 있다.

6개의 서로 다른 LLM에서 제로 샷(특정 작업에 대한 예시가 없음)또는 퓨샷(모델에 몇개 예시를 제공)으로 감정 프롬프트(Emotion Prompt)의 성능을 평가한다. 제로샷에서는 프롬프트를 원래 프롬르트에 통합해 사용하고, 퓨샷러닝에서는 "prompt (프롬프트)/EmotionPrompt(감정 프롬프트) + demonstration(예시)"를 사용한다.

결과 (Results)

표준 실험에서는 LLM이 감성 지능을 가지고 있으며, 감정적 자극으로 결과를 향상 시킬수 있다는 사실을 보여줬다. 지시 유도에서는 8.00%의 상대적 성능 향상, BIG-Bench에서는 무려 115%의 성능 향상을 보였다. 이밖에 인간 연구에서는 감정적 프롬프트가 생성 작업의 성능을 크게 향상 (성능, 진실성, 책임 지표 측면에서 평균 10.9% 향상)시킨다는 것으로 집계됐다. 주목되는 것은 제로샷 보다는 퓨삿에서 더 성능이 우수하다. 이는 감정 프롬프트가 퓨샷 예제를 사용한 컨텍스트 내 학습에 더 효과적이라는 것을 가리킨다. 또 감정 프롬프트가 CoT (Chain of Thought)나 APE (Analogical Prompt Engineering)보다 LLm 성능을 향상시키는 것으로 나타났다.

제로 샷(Zero shot) 프롬프트: 모델에게 예제를 제공하지 않는다
원 샷(One shot) 프롬프트: 모델에게 한 개의 예제를 제공한다
퓨샷(Few shot) 프롬프트: 모델에게 2개 이상의 예제를 제공한다.

EP (Emotion Prompt): 이 방법은 문제를 해결하고자 AI 감정에 호소하는 방법이다. 예를 들어, "너는 잘 할 수 있다"는 문장을 넣는 것만으로 결과값이 향상된다.
CoT (Chain of Thought): 이 방법은 문제를 해결하기 위해 단계별로 생각하는 과정을 프롬프트에 포함시키는 것이다.. 예를 들어, 수학 문제를 해결할 때, 단순히 답만이 아니라 그 답에 이르는 과정을 단계별로 설명하는 것이다.
APE (Analogical Prompt Engineering): 이 방법은 유사한 상황이나 예시를 사용하여 문제를 해결하도록 하는 프롬프트를 설계하는 것이다. 예를 들어, 새로운 문제를 해결할 때, 이와 유사한 과거의 문제나 상황을 참고하는 방식이다.

감정 프롬프트 활용방법

이번 실험에서는 LLM이 감성 지능을 갖고 있으며, 감정적 자극으로 결과를 향상 시킬수 있다는 사실을 보여준다. 특히 제로 샷 보다는 퓨샷에서 성능이 우수했으며, CoT APE 보다도 성능이 우수한 것으로 나타났다. 프롬프트 작성시 "이 작업은 나에게 정말 중요한 일이다."로 설명을 하면서도, 예시를 함께 적어준다면 최소 같은 프롬프트 보다도 10% 이상 성능이 향상됨을 알 수 있다.

"prompt (프롬프트)/EmotionPrompt(감정 프롬프트) + demonstration(예시)"

AI 편향성을 확 낮추는 마법의 프롬프트 "Really"

금융과 헬스케어 부문에서 인공지능 편향성은 큰 문제다. 잘못된 학습으로 인해, 특정 인종이나 성별이 차별 대우를 받을 수 있기 때문이다. 이런 가운데 편향성을 획기적으로 감소할 수 있는

appist.tistory.com

LLM은 칭찬에 약하다...EP가 CoT APE 보다 우수한 이유 [Emotion Prompt 1편]

편집자 주: 기계와 인간의 소통은 AI연구에서 매우 중요한 부문 중 하나다. Gen-AI 시대를 맞아, AI가 더 이해할 수 있는 소통방법이 있다면 그 결과물이 다를 수 있기 때문인데, 이런 분야는 컴퓨터

appist.tistory.com

저작자표시 비영리 변경금지

'Prompt Engineering' 카테고리의 다른 글

챗GPT로 사진과 같은 생생한 이미지를 만들기...달리(DALL-E)3 사진 이미지 프롬프트 (0)	2024.03.04
챗GPT 달리3 활용, 로고 3분 내에 만들기 [프롬프트 엔지니어링] (0)	2024.01.05
미드저니 V6, 문장 생성하는 프롬프트 초급편 [프롬프트 엔지니어링] (2)	2023.12.23
챗GPT 프롬프트 고급편 A to Z: Beam width, top-p, temperature 활용 소설쓰기 (1)	2023.12.18
챗GPT 프롬프트 중급편 A to Z, 하이퍼파라미터를 활용 소설 쓰기 (0)	2023.12.17
챗GPT 프롬프트 초급편 A to Z, 소설쓰기 (1)	2023.12.17
AI 편향성을 확 낮추는 마법의 프롬프트 "Really" (0)	2023.12.09

애피스트

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

상세 컨텐츠

본문 제목

본문

Large Language Models Understand and Can Be Enhanced by Emotional Stimuli

지인이

'Prompt Engineering' 카테고리의 다른 글

관련글 더보기

추가 정보

인기글

최신글

티스토리툴바