| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 |
- java
- 메서드
- 예제
- 반응형 웹 프로젝트
- Codility
- css 기초
- g검정
- GridLayout
- 상속
- HTML
- html 기초
- html 프로젝트
- BorderLayout
- Position
- iframe 태그
- 푸리에 변환
- rnn
- FileWriter
- FlowLayout
- Database
- FFT
- ObjectOutputStream
- 반응형웹
- 사전학습
- oracle
- 퍼셉트론
- inline
- CSS
- 미디어쿼리
- 파이썬
- Today
- Total
도라에몽주머니
[G검정/5장] Deep Q Network (DQN) 본문
Deep Q Network (DQN)
: 가치 기반 강화학습 (Value-Based Model Free) 의 한 종류로서 Q-Table 대신 Neural Network를 사용해 Q-value를 추정하는 알고리즘

성능 개선 기법
Reward Clipping
: 보상 할당은 어떤 게임에서는 +100, 어떤 게임에선 +50과 같이 게임마다 전부 다름. 그래서 이런 문제를 해결하기 위해 모든 보상을 1, -1, 0 으로 자르는 것.
Dueling Network
: Q 함수를 뉴럴네트워크로 근사할 때, 상태의 가치와 행동의 이득을 명확히 구분하여 계산하는 알고리즘
Categorical DQN
: 가치 분포를 추정하고 그 기대치를 최대화하는 분포형 강화 학습. 분포를 출력하는데 categorical 하게 봄.
참고: https://wikidocs.net/169323
Double DQN
: 기존 Q 학습은 최대 기대/예상 Q값을 가진 행동이 최고의 행동이라고 가정하지만, 실제로는 추정 과정에서 잡음(noise) 이 섞여 진짜로 최적의 행동을 선택하지 못하는 경우가 발생함(q-value의 과추정). 이러한 문제를 해결하기 위해서, 2개의 다른 action function 을 사용하는 알고리즘.
참고: https://data-newbie.tistory.com/742
Experience Replay
: 하나의 episode는 여러개의 상태 전이(transition) 로 이루어져 있고, 이 transition들을 적당히 큰 사이즈의 버퍼에 저장해놓고, 학습 시에 임의로 랜덤(ランダム) 한 데이터를 뽑아서 사용하는 방식.
'Certificate > G検定' 카테고리의 다른 글
| [G검정/6장] 화상 인식의 종류 (AlexNet, GoogLeNet, VGG16, ResNet) (0) | 2024.07.10 |
|---|---|
| [G검정/5장] 심층 생성 모델 (GAN, VAE) (0) | 2024.07.09 |
| [G검정/5장] 강화학습 (모델 베이스, 모델 프리, Q학습) (0) | 2024.07.09 |
| [G검정/5장] Attention (0) | 2024.06.14 |
| [G검정/5장] BiRNN, seq2seq (1) | 2024.06.13 |