ChatGPT1 [오늘의신기술] RLHF란 무엇일까? ChatGPT를 똑똑하게 만드는 기술 *RLHF란 무엇일까?RLHF는 인간의 선호(피드백)를 이용해 보상 모델을 학습시키고, 그 보상 모델을 강화학습의 보상함수로 사용해 언어모델(LLM) 같은 AI의 정책을 최적화하는 기법이다. 특히, 좋다/나쁘다처럼 수치화하기 어려운 목표를 인간이 직접 평가해 주기 때문에, 복잡하거나 정의하기 어려운 작업에 자주 활용된다. *RLHF 핵심 흐름1)인간 피드백 수집: 모델이 생성한 여러 출력(ex. 답변, 농담, 스토리)을 인간이 평가하거나 순위를 매긴다.2)보상 모델 학습: 수집된 선호 데이터를 바탕으로 출력의 ‘좋음’ 정도를 예측하는 보상모델을 학습한다.3)강화학습으로 미세조정: 보상 모델을 보상함수로 사용해, PPO등 알고리즘으로 모델의 정책을 업데이트한다. *적용 분야와 사례1)자연어 처리: 대화형A.. 2026. 4. 5. 이전 1 다음