도라에몽주머니

[G검정/4장] 기울기 소실 문제 본문

Certificate/G検定

[G검정/4장] 기울기 소실 문제

에몽쓰 2024. 5. 30. 17:36

誤差逆伝播法 (오차역전파법 ; Backpropagation)

: 출력에 가까운 순으로 연쇄적으로 기울기를 구하는 학습법

 

오차역전파법에서 발생한 문제

역전파 알고리즘에서 처음 입력층으로 진행할 수록 기울기가 점차적으로 작아지다가 나중에는 거의 기울기의 변화가 없어지는 문제 (기울기 소실 문제) 가 발생했다.

 

문제의 원인

문제의 원인은 역전파 알고리즘의 활성화 함수로 시그모이드 함수를 사용했기 때문이다.

시그모이드 함수의 특성 때문에 기울기 소실 문제가 발생한다.

 

시그모이드 함수의 특성

아래 사진은 시그모이드 함수의 그래프이다.

0~1 사이의 값을 가지며 x = 0일 때 0.5의 값을 가진다는 특징이 있다.

 

이러한 시그모이드 함수를 미분해보면 어떻게 될까?

아래와 같이 최대값이 0.25이고 최소가 0에 수렴하게 된다.

 

시그모이드 함수의 미분값은 시그모이드 함수의 기울기라고 할 수 있다.

즉, 기울기가 0 ~ 0.25 사이의 값을 가진다는 의미이다.

 

역전파는 입력층에 가까운 앞쪽 layer로 갈수록 시그모이드 함수의 미분(기울기) 을 연쇄적으로 곱하는데, 기울기가 0 ~ 0.25 사이의 작은 값이므로 미분값이 거듭 곱해지면서 출력층과 멀어질수록 값이 점점 작아지게 된다.

 

해결책

이러한 문제들을 해결하기 위해 활성화 함수에 시그모이드가 아닌 다른 함수들을 활용하기 시작했다.