Develop/AI

RLHF을 알아보자.

YOOZI. 2025. 3. 22. 22:57
728x90
사람의 피드백을 활용한 강화 학습

 

 

 

오늘은 RLHF 알아보자.

오늘의 배움
  • RLHF 개념과 정의
  • RLHF 학습 과정
  • RLHF와 InstructGPT/ChatGPT의 관계

1. RLHF (Reinforcement Learning from Human Feedback)

 

  • 정의: RLHF(Reinforcement Learning from Human Feedback)는 사람의 피드백을 보상 신호로 활용하여 AI 모델을 최적화하는 강화 학습 기법이다.
  • 한 줄 요약: AI 모델이 사람이 선호하는 답변을 학습하도록 강화 학습을 적용하는 기법이다.
  • 특징:
    • AI의 출력을 사람이 직접 평가하여 보상 모델을 만든다.
    • 강화 학습을 활용해 보상 모델을 최적화한다.
    • 모델이 더 자연스럽고 유용한 답변을 생성하도록 유도한다.
  • 필요성: 기존 AI 모델은 지도 학습(Supervised Learning) 데이터에만 의존해 정답이 없는 문제에서 비효율적이었다. RLHF는 사람의 피드백을 반영해 보다 사람 친화적인 AI를 만든다.
  • 장점/단점:
    • 장점: 자연스러운 응답 생성, 사용자 맞춤형 학습 가능, 다양한 도메인 적용 가능
    • 단점: 피드백 품질에 따라 성능이 좌우됨, 학습 비용이 높음, 편향(Bias) 문제 발생 가능
  • 예시:
    • ChatGPT가 사용자의 질문에 적절한 답변을 제공할 때, 사람이 더 좋은 답변을 골라 학습 데이터를 만드는 과정에서 RLHF가 적용된다.

 


 

2. 핵심 개념 정리

2-1. RLHF의 학습 과정

  • 주요 단계
    • 1단계: LLM을 기본적으로 학습 (Supervised Learning)
    • 2단계: 사람이 AI의 응답을 평가하여 보상 데이터를 생성
    • 3단계: 강화 학습(PPO 등)을 통해 보상 신호를 활용해 모델을 조정
  • 핵심 수식
    모델의 보상 R은 응답 a에 대해 다음과 같이 정의된다.
    • R(a)=human feedback score
    • 그리고 정책 πθ를 최적화하는 목적은 다음과 같다.
      max⁡θE[R(a)∣πθ]
    • 즉, 모델이 사람이 선호하는 응답을 최대한 생성하도록 보상을 학습하는 과정이다.

 

2-2. RLHF와 InstructGPT/ChatGPT

 

  • InstructGPT
    • OpenAI에서 RLHF를 적용한 GPT 모델
    • 사용자의 지시(instruction)에 최적화
    • RLHF를 통해 더 유용하고 사용자 친화적인 답변 제공
  • ChatGPT와 RLHF
    • ChatGPT는 GPT 모델에 RLHF를 추가해 학습
    • 강화 학습 과정
      1. GPT 모델을 사전 학습
      2. 사람이 응답을 평가하여 보상 모델 학습
      3. 보상 모델을 사용하여 강화 학습 수행 (PPO 알고리즘 적용)

 


3. 실제 예시

  1. [적용 예시 1 - AI 챗봇]
    •  AI가 사용자와 대화할 때, RLHF를 적용하면 사용자가 선호하는 응답 패턴을 학습할 수 있다.
      예를 들어, 고객 상담 AI가 친절한 응답을 더 선호하는 고객 피드백을 받으면, 이후 더욱 친절한 응답을 생성하도록 학습된다.
  2. [적용 예시 2 - AI 콘텐츠 생성]
    •  AI 기반 글쓰기 도구가 RLHF를 적용해 사용자가 더 유용하다고 평가한 문장 스타일을 학습하면, 이후 글을 생성할 때 해당 스타일을 반영하게 된다.

4. 비교 분석표

항목 RLHF 일반 지도 학습(Supervised Learning)
학습 방식 강화 학습 기반 주어진 정답 데이터를 기반으로 학습
사람의 역할 피드백을 통해 보상 제공 데이터셋 제공 및 정답 라벨링
장점 사람 선호도 반영, 유연한 모델 학습 대량 데이터로 빠르게 학습 가능
단점 피드백 품질에 따라 성능 좌우, 학습 비용 큼 정해진 데이터만 학습, 유연성이 낮음
대표 적용 사례 ChatGPT, InstructGPT, AI 챗봇 일반적인 분류 모델, 번역 모델

 

728x90