728x90
사람의 피드백을 활용한 강화 학습
오늘은 RLHF 알아보자.
오늘의 배움 |
|
1. RLHF (Reinforcement Learning from Human Feedback)
- 정의: RLHF(Reinforcement Learning from Human Feedback)는 사람의 피드백을 보상 신호로 활용하여 AI 모델을 최적화하는 강화 학습 기법이다.
- 한 줄 요약: AI 모델이 사람이 선호하는 답변을 학습하도록 강화 학습을 적용하는 기법이다.
- 특징:
- AI의 출력을 사람이 직접 평가하여 보상 모델을 만든다.
- 강화 학습을 활용해 보상 모델을 최적화한다.
- 모델이 더 자연스럽고 유용한 답변을 생성하도록 유도한다.
- 필요성: 기존 AI 모델은 지도 학습(Supervised Learning) 데이터에만 의존해 정답이 없는 문제에서 비효율적이었다. RLHF는 사람의 피드백을 반영해 보다 사람 친화적인 AI를 만든다.
- 장점/단점:
- 장점: 자연스러운 응답 생성, 사용자 맞춤형 학습 가능, 다양한 도메인 적용 가능
- 단점: 피드백 품질에 따라 성능이 좌우됨, 학습 비용이 높음, 편향(Bias) 문제 발생 가능
- 예시:
- ChatGPT가 사용자의 질문에 적절한 답변을 제공할 때, 사람이 더 좋은 답변을 골라 학습 데이터를 만드는 과정에서 RLHF가 적용된다.
2. 핵심 개념 정리
2-1. RLHF의 학습 과정
- 주요 단계
- 1단계: LLM을 기본적으로 학습 (Supervised Learning)
- 2단계: 사람이 AI의 응답을 평가하여 보상 데이터를 생성
- 3단계: 강화 학습(PPO 등)을 통해 보상 신호를 활용해 모델을 조정
- 핵심 수식
모델의 보상 R은 응답 a에 대해 다음과 같이 정의된다.- R(a)=human feedback score
- 그리고 정책 πθ를 최적화하는 목적은 다음과 같다.
maxθE[R(a)∣πθ] - 즉, 모델이 사람이 선호하는 응답을 최대한 생성하도록 보상을 학습하는 과정이다.
2-2. RLHF와 InstructGPT/ChatGPT
- InstructGPT
- OpenAI에서 RLHF를 적용한 GPT 모델
- 사용자의 지시(instruction)에 최적화
- RLHF를 통해 더 유용하고 사용자 친화적인 답변 제공
- ChatGPT와 RLHF
- ChatGPT는 GPT 모델에 RLHF를 추가해 학습
- 강화 학습 과정
- GPT 모델을 사전 학습
- 사람이 응답을 평가하여 보상 모델 학습
- 보상 모델을 사용하여 강화 학습 수행 (PPO 알고리즘 적용)
3. 실제 예시
- [적용 예시 1 - AI 챗봇]
- AI가 사용자와 대화할 때, RLHF를 적용하면 사용자가 선호하는 응답 패턴을 학습할 수 있다.
예를 들어, 고객 상담 AI가 친절한 응답을 더 선호하는 고객 피드백을 받으면, 이후 더욱 친절한 응답을 생성하도록 학습된다.
- AI가 사용자와 대화할 때, RLHF를 적용하면 사용자가 선호하는 응답 패턴을 학습할 수 있다.
- [적용 예시 2 - AI 콘텐츠 생성]
- AI 기반 글쓰기 도구가 RLHF를 적용해 사용자가 더 유용하다고 평가한 문장 스타일을 학습하면, 이후 글을 생성할 때 해당 스타일을 반영하게 된다.
4. 비교 분석표
항목 | RLHF | 일반 지도 학습(Supervised Learning) |
학습 방식 | 강화 학습 기반 | 주어진 정답 데이터를 기반으로 학습 |
사람의 역할 | 피드백을 통해 보상 제공 | 데이터셋 제공 및 정답 라벨링 |
장점 | 사람 선호도 반영, 유연한 모델 학습 | 대량 데이터로 빠르게 학습 가능 |
단점 | 피드백 품질에 따라 성능 좌우, 학습 비용 큼 | 정해진 데이터만 학습, 유연성이 낮음 |
대표 적용 사례 | ChatGPT, InstructGPT, AI 챗봇 | 일반적인 분류 모델, 번역 모델 |
728x90
'Develop > AI' 카테고리의 다른 글
합성곱(CNN) 신경망 알아보자. (0) | 2025.03.22 |
---|---|
DPO를 알아보자. (0) | 2025.03.22 |
파인튜닝 - PEFT를 알아보자. (0) | 2025.03.22 |
파인튜닝을 알아보자. (0) | 2025.03.16 |
프롬프트 엔지니어링 - Chain of Thought (CoT) 알아보자. (0) | 2025.03.16 |