RLHF을 알아보자.

Develop/AI

RLHF을 알아보자.

YOOZI. 2025. 3. 22. 22:57

728x90

사람의 피드백을 활용한 강화 학습

오늘은 RLHF 알아보자.

오늘의 배움

RLHF 개념과 정의
RLHF 학습 과정
RLHF와 InstructGPT/ChatGPT의 관계

1. RLHF (Reinforcement Learning from Human Feedback)

정의: RLHF(Reinforcement Learning from Human Feedback)는 사람의 피드백을 보상 신호로 활용하여 AI 모델을 최적화하는 강화 학습 기법이다.
한 줄 요약: AI 모델이 사람이 선호하는 답변을 학습하도록 강화 학습을 적용하는 기법이다.
특징:
- AI의 출력을 사람이 직접 평가하여 보상 모델을 만든다.
- 강화 학습을 활용해 보상 모델을 최적화한다.
- 모델이 더 자연스럽고 유용한 답변을 생성하도록 유도한다.
필요성: 기존 AI 모델은 지도 학습(Supervised Learning) 데이터에만 의존해 정답이 없는 문제에서 비효율적이었다. RLHF는 사람의 피드백을 반영해 보다 사람 친화적인 AI를 만든다.
장점/단점:
- 장점: 자연스러운 응답 생성, 사용자 맞춤형 학습 가능, 다양한 도메인 적용 가능
- 단점: 피드백 품질에 따라 성능이 좌우됨, 학습 비용이 높음, 편향(Bias) 문제 발생 가능
예시:
- ChatGPT가 사용자의 질문에 적절한 답변을 제공할 때, 사람이 더 좋은 답변을 골라 학습 데이터를 만드는 과정에서 RLHF가 적용된다.

2. 핵심 개념 정리

2-1. RLHF의 학습 과정

주요 단계
- 1단계: LLM을 기본적으로 학습 (Supervised Learning)
- 2단계: 사람이 AI의 응답을 평가하여 보상 데이터를 생성
- 3단계: 강화 학습(PPO 등)을 통해 보상 신호를 활용해 모델을 조정
핵심 수식
모델의 보상 R은 응답 a에 대해 다음과 같이 정의된다.
- R(a)=human feedback score
- 그리고 정책 πθ를 최적화하는 목적은 다음과 같다.
  max⁡θE[R(a)∣πθ]
- 즉, 모델이 사람이 선호하는 응답을 최대한 생성하도록 보상을 학습하는 과정이다.

2-2. RLHF와 InstructGPT/ChatGPT

InstructGPT
- OpenAI에서 RLHF를 적용한 GPT 모델
- 사용자의 지시(instruction)에 최적화
- RLHF를 통해 더 유용하고 사용자 친화적인 답변 제공
ChatGPT와 RLHF
- ChatGPT는 GPT 모델에 RLHF를 추가해 학습
- 강화 학습 과정
  1. GPT 모델을 사전 학습
  2. 사람이 응답을 평가하여 보상 모델 학습
  3. 보상 모델을 사용하여 강화 학습 수행 (PPO 알고리즘 적용)

3. 실제 예시

[적용 예시 1 - AI 챗봇]
- AI가 사용자와 대화할 때, RLHF를 적용하면 사용자가 선호하는 응답 패턴을 학습할 수 있다.
  예를 들어, 고객 상담 AI가 친절한 응답을 더 선호하는 고객 피드백을 받으면, 이후 더욱 친절한 응답을 생성하도록 학습된다.
[적용 예시 2 - AI 콘텐츠 생성]
- AI 기반 글쓰기 도구가 RLHF를 적용해 사용자가 더 유용하다고 평가한 문장 스타일을 학습하면, 이후 글을 생성할 때 해당 스타일을 반영하게 된다.

4. 비교 분석표

항목	RLHF	일반 지도 학습(Supervised Learning)
학습 방식	강화 학습 기반	주어진 정답 데이터를 기반으로 학습
사람의 역할	피드백을 통해 보상 제공	데이터셋 제공 및 정답 라벨링
장점	사람 선호도 반영, 유연한 모델 학습	대량 데이터로 빠르게 학습 가능
단점	피드백 품질에 따라 성능 좌우, 학습 비용 큼	정해진 데이터만 학습, 유연성이 낮음
대표 적용 사례	ChatGPT, InstructGPT, AI 챗봇	일반적인 분류 모델, 번역 모델

728x90

'Develop > AI' 카테고리의 다른 글

합성곱(CNN) 신경망 알아보자. (0)	2025.03.22
DPO를 알아보자. (0)	2025.03.22
파인튜닝 - PEFT를 알아보자. (0)	2025.03.22
파인튜닝을 알아보자. (0)	2025.03.16
프롬프트 엔지니어링 - Chain of Thought (CoT) 알아보자. (0)	2025.03.16

현재글RLHF을 알아보자.

YOOZI

브랜드 디자이너에서 개발자가 되기 위해 공부 중입니다. 비전공자의 시선으로 정보를 공유해요 :)

250x250

백준, AI, 코딩테스트, 딥러닝, Database, 알고리즘, 회고일지, Python, 머신러닝, IT, 코드오류, 개발자노트, 인공지능, backjoon, til, 데이터분석, 자연어처리, LLM, Baekjoon, 파이썬,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

YOOZI

RLHF을 알아보자.

1. RLHF (Reinforcement Learning from Human Feedback)

2. 핵심 개념 정리

2-1. RLHF의 학습 과정

2-2. RLHF와 InstructGPT/ChatGPT

3. 실제 예시

4. 비교 분석표

'Develop > AI' 카테고리의 다른 글

'Develop/AI'의 다른글

티스토리툴바

RLHF을 알아보자.

1. RLHF (Reinforcement Learning from Human Feedback)

2. 핵심 개념 정리

2-1. RLHF의 학습 과정

2-2. RLHF와 InstructGPT/ChatGPT

3. 실제 예시

4. 비교 분석표

'Develop > AI' 카테고리의 다른 글

'Develop/AI'의 다른글

관련글

티스토리툴바