RLHF기반 로봇 팔 제어 프로그램 개발
다품종 소량생산을 지향하는 스마트 팩토리에서는 다양한 유형의 생산 라인을 효율적으로 관리하는 것이 필수적이다. 이러한 환경에서 다양한 작업을 위해 로봇의 제어 프로그램을 일일이 설정하는 것은 비효율적이다. 이 문제에 대한 해결책으로 강화학습 기반의 자율 제어 프로그래밍이 제안되고 있다. 그러나 기존의 강화학습 방식을 적용할 때 매 작업에 특화된 보상 함수를 새로 설계해야 한다는 문제가 발생한다.
본 프로젝트는 인간의 피드백을 이용하여 보상 함수를 fine-tuning하는 RLHF(Reinforcement Learning with Human Feedback)를 통해 기존 강화학습 방식에서 발생하는 보상 함수 설계의 문제를 해결하고자 한다. 이를 통해 강화학습 기반의 high-dimension 환경에서 Agent가 보다 유연하게 작동할 수 있도록 하는 것이 목표이다.
RLIF: Interactive Imitation Learning as Reinforcement Learning