도라에몽주머니

[G검정/5장] Deep Q Network (DQN) 본문

Certificate/G検定

[G검정/5장] Deep Q Network (DQN)

에몽쓰 2024. 7. 9. 14:52

Deep Q Network (DQN)

: 가치 기반 강화학습 (Value-Based Model Free) 의 한 종류로서 Q-Table 대신 Neural Network를 사용해 Q-value를 추정하는 알고리즘

https://repoji-dataengineer.tistory.com/entry/%EA%B0%95%ED%99%94%ED%95%99%EC%8A%B5Reinforcement-Learning-3Deep-Q-Net

 

성능 개선 기법

Reward Clipping

: 보상 할당은 어떤 게임에서는 +100, 어떤 게임에선 +50과 같이 게임마다 전부 다름. 그래서 이런 문제를 해결하기 위해 모든 보상을 1, -1, 0 으로 자르는 것.

Dueling Network

: Q 함수를 뉴럴네트워크로 근사할 때, 상태의 가치와 행동의 이득을 명확히 구분하여 계산하는 알고리즘

Categorical DQN

: 가치 분포를 추정하고 그 기대치를 최대화하는 분포형 강화 학습. 분포를 출력하는데 categorical 하게 봄.

참고: https://wikidocs.net/169323

Double DQN

: 기존 Q 학습은 최대 기대/예상 Q값을 가진 행동이 최고의 행동이라고 가정하지만, 실제로는 추정 과정에서 잡음(noise) 이 섞여 진짜로 최적의 행동을 선택하지 못하는 경우가 발생함(q-value의 과추정). 이러한 문제를 해결하기 위해서, 2개의 다른 action function 을 사용하는 알고리즘.

참고: https://data-newbie.tistory.com/742

Experience Replay

: 하나의 episode는 여러개의 상태 전이(transition) 로 이루어져 있고, 이 transition들을 적당히 큰 사이즈의 버퍼에 저장해놓고, 학습 시에 임의로 랜덤(ランダム) 한 데이터를 뽑아서 사용하는 방식.