[G검정/5장] Deep Q Network (DQN)

Notice

Recent Posts

Recent Comments

Link

« 2026/06 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Tags more

Archives

Today

Total

관리 메뉴

도라에몽주머니

[G검정/5장] Deep Q Network (DQN) 본문

Certificate/G検定

[G검정/5장] Deep Q Network (DQN)

에몽쓰 2024. 7. 9. 14:52

Deep Q Network (DQN)

: 가치 기반 강화학습 (Value-Based Model Free) 의 한 종류로서 Q-Table 대신 Neural Network를 사용해 Q-value를 추정하는 알고리즘

https://repoji-dataengineer.tistory.com/entry/%EA%B0%95%ED%99%94%ED%95%99%EC%8A%B5Reinforcement-Learning-3Deep-Q-Net

성능 개선 기법

Reward Clipping

: 보상 할당은 어떤 게임에서는 +100, 어떤 게임에선 +50과 같이 게임마다 전부 다름. 그래서 이런 문제를 해결하기 위해 모든 보상을 1, -1, 0 으로 자르는 것.

Dueling Network

: Q 함수를 뉴럴네트워크로 근사할 때, 상태의 가치와 행동의 이득을 명확히 구분하여 계산하는 알고리즘

Categorical DQN

: 가치 분포를 추정하고 그 기대치를 최대화하는 분포형 강화 학습. 분포를 출력하는데 categorical 하게 봄.

참고: https://wikidocs.net/169323

Double DQN

: 기존 Q 학습은 최대 기대/예상 Q값을 가진 행동이 최고의 행동이라고 가정하지만, 실제로는 추정 과정에서 잡음(noise) 이 섞여 진짜로 최적의 행동을 선택하지 못하는 경우가 발생함(q-value의 과추정). 이러한 문제를 해결하기 위해서, 2개의 다른 action function 을 사용하는 알고리즘.

참고: https://data-newbie.tistory.com/742

Experience Replay

: 하나의 episode는 여러개의 상태 전이(transition) 로 이루어져 있고, 이 transition들을 적당히 큰 사이즈의 버퍼에 저장해놓고, 학습 시에 임의로 랜덤(ランダム) 한 데이터를 뽑아서 사용하는 방식.

저작자표시 비영리 변경금지 (새창열림)

'Certificate > G検定' 카테고리의 다른 글

[G검정/6장] 화상 인식의 종류 (AlexNet, GoogLeNet, VGG16, ResNet) (0)	2024.07.10
[G검정/5장] 심층 생성 모델 (GAN, VAE) (0)	2024.07.09
[G검정/5장] 강화학습 (모델 베이스, 모델 프리, Q학습) (0)	2024.07.09
[G검정/5장] Attention (0)	2024.06.14
[G검정/5장] BiRNN, seq2seq (1)	2024.06.13

'Certificate/G検定' Related Articles

도라에몽주머니

[G검정/5장] Deep Q Network (DQN) 본문

[G검정/5장] Deep Q Network (DQN)

Deep Q Network (DQN)

성능 개선 기법

Reward Clipping

Dueling Network

Categorical DQN

Double DQN

Experience Replay

'Certificate > G検定' 카테고리의 다른 글

티스토리툴바