도라에몽주머니

[G검정/5장] 표준화, 정규화, 백색화, 무상관화 본문

Certificate/G検定

[G검정/5장] 표준화, 정규화, 백색화, 무상관화

에몽쓰 2024. 6. 10. 10:41

표준화 (Standardization)

: 값의 범위를 평균 0, 분산 1 이 되도록 바꾸어주는 것. 

  • 데이터 학습 전에 이루어짐
  • 데이터가 정규분포를 따른다는 가정하에 실시

 

정규화 (Normalization)

: 값의 범위를 0~1 사이의 값을 갖도록 바꾸어주는 것. (최소값 0, 최대값 1)

정규화를 적용하면 왜 local minima 에 덜 빠지게 될까?

(좌) Normalization 적용 전 / (우) Normalization 적용 후

 

표준화인가, 정규화인가?

지금 공부하는 부분에서 표준화와 정규화에 대한 문제가 많이 나오는데 표준화, 정규화의 개념에 대해서는 알고 있지만 어느 상황에 어떤것을 사용하는지 등과 같은 부분은 모르고 있는 것 같아서 자료를 찾아보다가 잘 정리된 글을 발견했다.

일본어로 된 게시글이니까 일본어 못하는 사람들은 자동번역 이용하길,,

https://www.salesanalytics.co.jp/column/no00365/#i

 

第365話|標準化か正規化か?機械学習データ処理の選択肢

機械学習におけるデータの前処理は、モデルの性能に大きく影響を与える重要なステップです。 特に、データの「標準化(Standardization)」と「正規化(Normalization)」は、多くのアルゴリズ

www.salesanalytics.co.jp

 

백색화 (Whitening)

: 본래 데이터 요소간의 상관관계를 없애고, 분산의 정규화를 전처리로 실행하는 것.

  • 표준화 + 무상관화 를 실시
  • 각 데이터 간의 관계성을 없앤 후, 표준화를 진행해 평균이 0이고 분산이 1이 되도록 함

 

백색화된 데이터는 균일한 분포를 가지고 있는 것을 알 수 있다.

 

무상관화 (Decorrelation)

: 데이터 간의 관계성(상관) 을 제거하는 것. 

 

기존 데이터가 가지고 있는 상관관계를 없앤 것을 알 수 있다.