ABOUT ME

누추한 곳을 찾아주셔서 감사합니다 이름모를 귀한 분들,,,,

Today
Yesterday
Total
  • CHAPTER 01. 소개
    공부/단단한 강화학습 2023. 10. 28. 10:49
    728x90

    상호작용으로부터 배우는 과정에서 컴퓨터를 활용하는 방법을 탐구

    강화학습

    기계학습에 속하는 어떤 방법보다 상호작용으로부터 배우는 목표 지향적인 학습에 더욱 초점을 맞춘 방법

    1.1 강화학습

    강화학습?

    주어진 상황에서 어떠한 행동을 취할지를 학습하는 것

    이 때, 그 행동은 결과는 최대한의 보상을 가져다주어야 하며, 그 보상함수는 수치적으로 표현될 수 있어야함

    학습자는 어떤 행동을 취할지에 대한 어떠한 지침도 받지 않고 오로지 시행착오를 통해 최대의 보상을 가져다주는 행동을 찾아내야만 함

    특정 행동이 그 행동에 직접적으로 영향을 받는 보상뿐만 아니라, 그 다음에 이어지는 상황에도 영향을 미침으로써 연속적으로 보상에 영향을 미치는 (지연된 보상) 상황

    =>강화학습의 특성 : 시행착오와 지연된 보상

     

    강화학습 문제를 동적 시스템 이론의 개념, 특히 불확실한 마르코프 결정 과정에 대한 최적 제어 이론을 활용하여 체계화

    기본 아이디어

    • 목적을 위해 주변 환경과 상호작용하는 학습자가 직면하는 현실적인 문제의 가장 중요한 측면을 포착
    • 학습자는 주변 환경의 상태를 어느 정도까지는 감지하고 그 상태에 영향을 주는 행동을 취할 수 있어야만 함
    • 주변 환경의 상태와 관련된 하나 이상의 목표를 가져야만 함
    • 가장 간단한 형태의 마르코프 결정과정은 감지, 행동, 목표라는 세가지 측면만을 포함

    강화학습과 지도학습의 차이점

    지도 학습은 외부 전문가의 지침이 포함된 훈련 예제로부터 학습

    각각의 훈련 예제에는 어떤 상황과 그 상황에서 학습자가 취해야 할 올바른 행동에 대한 지침이 포함

    어떤 상황이 속한 범주를 식별하기 위한 지침이 되기도 함

    =>시스템의 행동 방식을 예측하거나, 일반화함으로써 훈련 예제에 포함되지 않은 상황에서도 시스템이 올바른 행동을 하도록 하는 것을 목표, 상호작용으로부터 학습하는 것에는 적합하지 않음

     

    강화학습과 비지도학습의 차이점

    비지도학습에서는 보통 지침이 없는 데이터의 집합 안에서 숨겨진 구조를 찾음

    바람직한 행동에 대한 지침을 필요로 하지 않는다는 특성을 공유한다는 이유로 강화학습을 비지도학습의 한 종류라고 생각할 수도 있지만, 강화학습은 보상을 최대로 만들기 위해 노력할 뿐 숨겨진 구조를 찾으려고 하지는 않음

     

    강화학습만이 갖는 어려운 점

    1. 탐험과 활용 사이를 절충하는 일

    많은 보상을 얻기 위해 강화학습 학습자는 과거에 보상을 획득하는데 효과적이었던 행동들을 선호해야만 함

    하지만 이런 효과적인 행동을 발견하려면 과거에 하지 않았던 행동들을 시도해봐야함

    학습자는 보상을 얻기 위해 이미 경험한 행동들을 활용(exploitation)해야 하지만, 한편으로는 미래에 더 좋은 행동을 선택하기 위한 탐험(exploration)을 해야함

    탐험과 활용 둘 중 하나만 추구한다면 목적을 이루지 못함

    학습자는 다양한 행동을 시도하고, 그 중 최상의 보상을 가져올 만한 행동을 계속해서 선호해야함

    확률이 지배하는 문제에서는 어떤 행동이 가져올 보상의 기댓값을 높은 신뢰도로 추정하려면 각각의 행동을 여러번 시도

    탐험과 활용 사이 균형을 잡는 문제는 최소한 가장 순수한 형태의 지도학습과 비지도 학습에서는 발생하지 않음

    2. 불확실한 주변 환경과 상호작용하는 목표 지향적인 학습자에 대한 모든 문제를 분명하게 고려해야함

    여러 하위 문제를 커다란 하나의 문제로 병합하는 방법을 제시하지 않을 채 하위 문제들만을 고려하는 다른 많은 방법과 구별되는 특성

    ex)지도학습의 유용성을 분명하게 밝히지 않고 지도학습을 다룬다고 말함

    ex)실시간 의사결정을 위한 계획의 역할을 고려하지 않거나 계획을 위해 필요한 예측 모델이 어디에서 나오는 지에 대한 고민 없이 일반적인 목적을 갖는 계획 이론을 개발하는 경우

    =>많은 유용한 결과를 도출했지만, 오직 흩어져 있는 하위 문제들에만 초점을 맞춤

    3. 상호작용을 하는 완전하고 목표 지향적인 학습자를 처음부터 고려한 상태로 시작

    모든 강화학습 학습자는 분명한 목표가 존재, 주변 환경의 여러 측면을 감지하며, 환경에 영향을 주기 위한 행동을 선택할 수 있음

    학습자는 자신이 마주한 환경이 불확실하더라도 학습을 수행해야한다는 사실을 인지한 상태로 학습 시작

    강화학습에 계획을 활용할 때는 환경에 대한 모델을 도출하고 개선하는 방법, 계획과 행동이 실시간으로 상호작용하도록

    4. 상호작용하는 완전한 목표 지향적 학습자 != 항상 완전한 유기체, 로봇 의미

    완전한 유기체나 로봇은 상호작용하는 완전한 목표 지향적 학습자의 좋은 예가 될 수 있지만, 더 큰 행동 체계를 구성하는 각 부분도 이러한 학습자에 포함

    학습자는 시스템의 나머지부분들과는 직접적으로 상호작용, 시스템 외부의 환경과는 간접적으로 상호작용

    ex)배터리 확인 후 로봇 제어 아키텍처에 명령을 보내는 학습자->학습자의 외부 환경은 학습자를 제외한 로봇 내부, 로봇 외부 환경 모두 포함

    강화학습의 기본구조가 갖는 보편성을 이해하기 위해서는 가장 분명하게 존재하는 학습자와 주변환경을 그려봐야함

    5. 공학 및 과학 분야와 실질적이고 생산적인 상호작용을 함

    인공지능과 기계학습은 통계학이나 최적화 같은 수학 분야와의 통합을 지향하는 큰 흐름

    ex)파라미터를 통해 시스템을 모사할 수 있는 강화학습의 능력은 시스템 운영에 대한 연구결과와 제어 이론에 내재해 있던 차원의 저주 문제를 해결

    강화학습이 심리학 및 신경과학이라는 분야와 상호작용하며 두 분야 모두 도움

    기계학습의 모든 형태 중에서 사람,동물의 학습과 가장 유사한 것이 강화학습

    강화학습의 많은 핵심 알고리즘은 생태계의 학습체계에서 영감을 얻어 만들어진 것들

    연구결과는 실험결과와 잘 들어맞는 동물학습의 심리학적 모델이나 뇌의 보상시스템에 대한 믿을만한 모델을 제공해주었고, 모델덕분에 우리는 생태계의 학습 체계를 더 잘 알게 되었음

    6. 간단하면서도 일반적인 원리를 탐구하고자 하는 인공지능 연구의 큰 경향성과 부합

    1960년대 후반 이후 많은 인공지능 연구자들은 인공지능에 있어서 일반적인 원리는 발견할 수 없다고 단정

    지능은 특별한 목적을 달성하기 위한 방법과 경험을 다수 확보함으로써 구현되는 것이라고 생각

    =사람들은 탐색이나 학습같은 일반적인 원리에 기반한 방법을 '약한 방법'이라고 인식한 반면, 특정한 지식에 기반한 방법을 '강한 방법'이라고 생각

    =>성급한 생각들

    일반적인 원리를 발견하기 위해 충분히 노력해 보기도 전에 일반적인 방법은 존재하지 않을 것이라고 단정

    현대 인공지능 연구의 상당수는 학습과 탐색, 의사결정의 일반원리를 찾으려고 노력

     

    1.2 예제

    ex1)숙련된 체스 선수가 말을 옮길 때 어느 위치로 말을 옮기는 것이 좋을지는 상대의 대응과 그에 대한 재대응을 예상하는 계획, 그리고 즉각적이고 직관적인 판단을 통해 결정

    ex2)석유 정제공장의 효율적 운영을 위해 적응 제어기를 이용하여 엔지니어가 설정한 초기 파라미터를 조정

    ex3)새끼 가젤은 태어난 지 몇분 지나지 않아 어렵게 혼자 힘으로 일어서고, 30분 후에는 시속 30km로 달릴 수 있음

    ex4)로봇 청소기는 더 많은 쓰레기를 모으기 위해 새방을 탐색할지, 아니면 충전 스테이션으로 돌아가야할지 결정, 현재 남아있는 배터리의 양과 얼마나 쉽고 빠르게 충전 스테이션을 찾을 수 있는 지에 대한 과거 경험에 의존

    ex5)일상적인 일에도 복잡한 조건부 행동 및 목표와 하위 목표 사이의 서로 맞물려 있는 관계들이 작용, 복잡하고 잘 ㅈ절된, 상호작용하는 연속적인 행동 필요, 모든 행동의 단계에는 정보를 얻고 목표물에 손을 뻗고 적합한 운동을 하기 위한 연속적인 눈의 움직임 포함, 판단이 계속해서 빠르게 이루어짐, 그 자체로 목표인 행동으로 구성되며 도시에 그러한 행동은 또 다른 목표를 이루기 위한 과정이 됨

    =>모든 예제는 학습자와 그를 둘러싼 주변 환경 사이의 상호작용을 다루고 있음

    주변환경에는 불확실한 요소들이 있지만, 학습자는 목표를 이루기 위한 방법을 모색

    학습자는 자신의 행동으로 주변 환경의 미래 모습에 영향을 미치고, 결국 미래에 자신이 취할 수 있는 행동과 기회에 영향을 줄 수 있는 권리를 가짐

    올바른 선택을 하기 위해서는 행동의 간접적인 영향과 지금의 행동이 일정 시간이 지난 후에 미칠 효과를 고려해야하고, 이를 위해 예지력이나 계획이 필요할 수도 있음

    =>하지만 행동의 결과를 완전히 정확히 예측할 수는 없기 때문에 학습자는 주변 환경을 자주 모니터링하고 적절한 대응을 해야함

    모든 예제에서 학습자는 자신이 직접 관찰한 사실을 통해 현 상황이 목표에 얼마나 가까이 다가가 있는지를 판단가능

    학습자는 자신의 목표를 분명하게 인식

    =>학습자는 자신의 경험을 활용하여 시간이 지남에 따라 행동의 능력을 키우게 됨

    이전의 경험을 활용하거나 또는 설계나 진화를 통해 주입된 지식을 활용하여 학습자가 어떤 일을 시작하려 할 때, 그 지식은 무엇이 유용하고 배우기 쉬운 것인가를 결정하는 데 영향

    학습자가 하려는 일의 분명한 특성을 이용하여 학습자가 행동을 조정하려고 할 때 주변 환경과의 상호작용과정은 필수

    1.3 강화학습의 구성요소

    학습자와 주변 환경을 제외하고도 4가지 주요한 구성 요소가 있음

    1. 정책(policy)
    2. 보상 신호(reward signal)
    3. 가치 함수(value function)
    4. (옵션)주변 환경에 대한 모델(model)

    정책?

    특정 시점에 학습자가 취하는 행동을 정의

    학스바작 인지한 주변 환경의 상태에 대해 학습자가 취해야 할 행동을 알려줌

    심리학의 자극-반응의 규칙이나 그와 관련된 것들과 대응

    정책 그 자체만으로도 행동을 결정할 수 있다는 점에서 정책은 강화학습 학습자에게 핵심이 되는 부분

    정책은 확률론적으로 행동을 선택할 수 있음

    보상 신호?

    무엇이 좋은 것인가를 즉각적으로 알려줌

    강화학습이 성취해야할 목표를 정의

    매 시간마다 주변 환경은 학습자에게 보상이라고 불리는 하나의 숫자(보상 신호)를 전달

    학습자의 유일한 목표는 장기간에 걸쳐 학습자가 획득하게 되는 보상의 총합을 최대로 만드는 것

    =>학습자는 보상 신호의 크기로부터 자신의 행동이 좋은 것인지, 나쁜 것인지를 판단

    보상은 학습자가 직면한 문제를 정의하는 즉각적인 시호

    보상 신호는 정책을 바꾸는 주된 원인

    보상 신호는 환경의 상태와 취해진 행동에 대해 확률적으로 그 값이 결정되는 확률론적 함수가 될수도 있음

    가치 함수?

    장기적인 관점에서 무엇이  좋은가

    특정 상태의 가치는 그 상태의 시작점에서부터 일정 시간 동안 학습자가 기대할 수 있는 보상의 총량

    가치란 주변 환경이 특정 상태에 놓여 있는 것이 우리를 얼마나 기쁘게, 기분 나쁘게 하는 가를 좀 더 정확하면서도 장기적인 관점에서 판단한 지표

    +보상과 가치

    보상이 어떤 순간에 주변 환경의 상태에 내재된 고유의 장점을 나타낸다면, 가치는 특정 시험 이후의 상태와 그 상태에 포함된 장점을 고려하여 장기적 관점으로 평가한 상태의 장점

    보상은 주된 것, 가치는 보상에 대한 예측이므로 부수적

    보상없이는 가치가 있을 수 없고, 가치를 평가하는 것도 오로지 더 많은 보상을 얻기 위해서

    어떤 결정을 내리고 그 결정을 평가할 때 가장 많이 고려하는 것은 가치!

    행동의 선택은 가치에 대한 판단을 기준으로 이루어짐

    보상이 최대인 행동보다는 가치가 최대인 행동을 선택=>이렇게 해야 장기적으로 최대한 많은 보상을 얻을 수 있기 때문

    보상이 얼마인지를 결정하는 것보다 가치의 크기를 결정하는 것이 훨씬 더 어려움

    보상은 주변환경으로부터 기본적으로 주어지지만, 가치는 학습자의 전 생애주기 동안 학습자과 관찰하는 것들로부터 반복적으로 추정되어야만 함

    모델

    환경 모델은 환경의 변화를 모사

    환경이 어떻게 변화해 갈지를 추정할 수 있게 해줌

    환경 모델은 현재 상태와 그에 따라 취해지는 행동으로부터 다음 상태와 보상을 예측

    모델은 계획(미래의 상황을 실제로 경험하기 전, 가능성만을 고려하여 일련의 행동을 결정하는 방법)을 위해 사용됨

    모델과 계획을 사용하여 강화학습의 문제를 해결하는 방법을 모델 기반 방법이라고 함

    시행착오로부터 환경 모델을 학습하고 동시에 그 모델을 사용하여 계획하는 과정을 수행하는 강화학습 시스템=>모델이 없는 방법

    1.4 한계와 범위

    강화학습은 상태(state)라는 개념에 크게 의존하는데 상태라는 것은 정책과 가치함수의 입력이 되기도 하고, 모델의 입력과 출력이 되기도 함

    상태란 특정 시각에 환경이 어떤 모습을 하고 있는지에 대한 정보를 학습자에게 전달하는 신호라고 정의

    학습자가 사용할 수 있는 환경에 대한 모든 정보를 상태로 생각하는 것이 좋음

    환경의 기본적 구성요소인 전처리 시스템이 상태를 제공한다고 생각할 수 있음

    이 책의 관심사는 상태를 설계하는 것이 아니라 어떠한 상태가 주어지든 상관없이 그 상태 정보로부터 학습자가 취해야 할 행동을 결정하는 것

    이 책에서 다루는 대부분의 강화학습은 가치 함수를 추정하기 위한 것

    하지만 강화학습 문제를 풀기 위해 반드시 가치 함수를 추정해야하는 것은 아님

    ex)유전자 알고리즘, 유전자 프로그래밍, 모의 담금질 같은 최적화 방법

    환경과 오랜 시간동안 불연속적 시간 간격으로 상호작용하는 다수의 정적 정책을 적용

    가장 큰 보상을 얻는 정책과 그것의 무작위 변형이 다음 세대의 정책으로 전달되는 일련의 과정을 반복

    =>이 과정을 진화적 방법이라 부르는데, 생물학적 진화를 통해 생산된 유기체는 생애주기 동안 학습한 적이 없음에도 노련한 행동을 할 수 있음

    정책의 개수가 충분히 적거나, 또는 좋은 정책을 쉽게 찾을 수 있도록 구조화되어 있는 상황이거나, 좋은 정책을 탐색할 시간이 충분한 경우에는 진화적 방법이 효과적

    학습자가 환경의 완전한 상태를 감지할 수 없다는 문제를 해결하는데 진화적 방법이 도움

    이 책은 환경과 상호작용하며 학습하는 강화학습 방법에 초점을 두고 있음

    이러한 학습은 진화적 방법으로는 해낼 수 없음

    개별행도의 상호작용이 갖는 세부 사항을 잘 활용할 수 있는 방법들은 많은 경우에 진화적 방법보다 훨씬 더 효율적

    진화적 방법은 그것이 찾는 정책이 상태로부터 행동을 도출하는 함수라는 사실을 활용하지 않음

    진화적 방법은 개별 학습자가 생애주기 동안 어떠한 상태를 통과하는지, 어떠한 행도으 ㄹ취해야하는지를 알려주지 않음

    어떤 경우에는 이런 정보를 알려주는 것이 잘못된 행동을 야기할 수도 있지만 대부분의 경우 효율적인 탐색을 가능하게 함

    진화와 학습은 많은 특징을 공유하며, 서로 자연스럽게 협력할 수 있음

    1.5 확장된 예제 : 틱택토

    1. 강화학습은 주변 환경과 상호작용하며 학습하는 것을 강조
    2. 강화학습에는 확실한 목표가 있고, 올바른 행동을 위해 학습자가 선택한 행동의 지연된 효과를 고려하는 계획 또는 예지가 필요
    3. 강화학습에는 예측 모델이 필요 없기 때문에 어떠한 문제에도 강화학습을 적용할 수 있음
    4. 모델 없는 시스템은 하나의 행동이 환경을 어떻게 변화시킬지를 생각할 능력도 없음
    5. 한 시스템의 높은 수준과 낮은 수준 모두에서 사용될 수 있음

     

     

    '공부 > 단단한 강화학습' 카테고리의 다른 글

    CHAPTER 02 다중선택  (1) 2023.11.01

    댓글

Designed by Tistory.