도라에몽주머니

[G검정/5장] 강화학습 (모델 베이스, 모델 프리, Q학습) 본문

Certificate/G検定

[G검정/5장] 강화학습 (모델 베이스, 모델 프리, Q학습)

에몽쓰 2024. 7. 9. 13:05

강화학습

: 주어진 환경과 상호작용하여 좋은 점수를 얻는 방향으로 성장하는 머신러닝 분야

 

요소

  • 에이전트(agent): 인공지능 플레이어
  • 환경(state): 에이전트가 솔루션을 찾기 위한 무대
  • 행동(action): 에이전트가 환경 안에서 실행하는 상호작용
  • 보상(reward): 에이전트의 행동에 따른 점수, 결과

 

알고리즘

 

https://dacon.io/forum/406104

모델 프리 알고리즘(Model-Free)

  • モデルフリー 方策ベース (Policy-Based)
  • モデルフリー 価値関数ベース (Value-Based)

모델 베이스 알고리즘(Model-Based)

  • モデルベース

Q 학습

: Value-Based Model Free 알고리즘으로서 Q 함수를 최대로 하는 방향으로 학습하는 알고리즘

  • Q 함수: 상태와 행동을 입력하면 이에 대한 가치를 출력으로 주는 함수

https://spacebike.tistory.com/53

'Certificate > G検定' 카테고리의 다른 글

[G검정/5장] 심층 생성 모델 (GAN, VAE)  (0) 2024.07.09
[G검정/5장] Deep Q Network (DQN)  (0) 2024.07.09
[G검정/5장] Attention  (0) 2024.06.14
[G검정/5장] BiRNN, seq2seq  (1) 2024.06.13
[G검정/5장] LSTM, GRU  (1) 2024.06.12