공부/단단한 강화학습
-
CHAPTER 02 다중선택공부/단단한 강화학습 2023. 11. 1. 05:01
강화학습의 특징 올바른 행동을 알려주는 지침(instruct)가 아닌 행동의 좋고 나쁨을 평가(evaluate)하는 훈련 정보를 사용 =>능동적인 탐험, 즉 좋은 행동을 찾기 위한 직접적인 탐색이 필요 전적으로 평가적인 피드백은 취해진 행동이 얼마나 좋은 지를 나타낼 뿐, 그것이 발생할 수 있는 최상/최악의 행동인지를 알려주진 않음 지침적인 피드백은 실제로 취해진 행동과는 상관없이 취해야 할 올바른 행동을 알려줌 =>평가적인 피드백은 취해진 행동에 전적으로 의존하는 반면, 지침적인 피드백은 취해진 행동과는 무관하게 이뤄짐 하나의 상황에 대해서만 행동을 학습 비연합(nonassociative)구조는 평가적인 피드백을 포함하는 과거 대부분의 연구들이 가정한 구조 해당 구조에서는 강화학습 문제를 전체적으로 다..
-
CHAPTER 01. 소개공부/단단한 강화학습 2023. 10. 28. 10:49
상호작용으로부터 배우는 과정에서 컴퓨터를 활용하는 방법을 탐구 강화학습 기계학습에 속하는 어떤 방법보다 상호작용으로부터 배우는 목표 지향적인 학습에 더욱 초점을 맞춘 방법 1.1 강화학습 강화학습? 주어진 상황에서 어떠한 행동을 취할지를 학습하는 것 이 때, 그 행동은 결과는 최대한의 보상을 가져다주어야 하며, 그 보상함수는 수치적으로 표현될 수 있어야함 학습자는 어떤 행동을 취할지에 대한 어떠한 지침도 받지 않고 오로지 시행착오를 통해 최대의 보상을 가져다주는 행동을 찾아내야만 함 특정 행동이 그 행동에 직접적으로 영향을 받는 보상뿐만 아니라, 그 다음에 이어지는 상황에도 영향을 미침으로써 연속적으로 보상에 영향을 미치는 (지연된 보상) 상황 =>강화학습의 특성 : 시행착오와 지연된 보상 강화학습 문제..