Encyclopedia/Info
Updated: 2024. 2. 20. 18:18
hwaya.
표준화(Standardization)와 정규화(Normalization)의 차이
반응형
데이터 전처리에서 표준화(Standardization)와 정규화(Normalization)는 모두 데이터의 스케일을 조정하는 방법이지만, 그 방식과 목적에서 차이가 있습니다.
표준화 (Standardization)
표준화는 데이터에서 평균을 빼고, 그 결과를 표준편차로 나누는 과정입니다. 이 방법은 데이터의 평균을 0으로, 표준편차를 1로 만듭니다. 표준화는 데이터가 정규 분포를 따른다는 가정 하에, 데이터의 스케일을 조정합니다.
- 공식: ( z = \frac{(x - \mu)}{\sigma} )
- 여기서 ( x )는 원래 값, ( \mu )는 평균, ( \sigma )는 표준편차입니다.
- 결과적으로, 변환된 데이터는 평균이 0이고 분산이 1인 분포를 가지게 됩니다.
표준화는 이상치에 덜 민감하며, 많은 머신 러닝 알고리즘에서 좋은 성능을 낼 수 있도록 합니다.
정규화 (Normalization)
정규화는 데이터의 스케일을 0과 1 사이로 조정합니다. 이 방법은 데이터의 최소값과 최대값을 사용하여 값을 조정합니다. 정규화는 데이터의 분포에 관계없이 사용할 수 있으며, 특히 데이터의 최대/최소값이 명확할 때 유용합니다.
- 공식: ( x_{\text{new}} = \frac{(x - x_{\text{min}})}{(x_{\text{max}} - x_{\text{min}})} )
- 여기서 ( x_{\text{min}} )은 최소값, ( x_{\text{max}} )은 최대값입니다.
정규화는 데이터의 스케일이 매우 다를 때 유용하며, 특히 거리 기반 알고리즘에서 성능 향상을 도모할 수 있습니다.
선택 기준
- 표준화는 데이터가 정규 분포를 따르거나, 이상치가 있는 경우에 유용합니다. 또한, 많은 머신 러닝 알고리즘(예: 선형 회귀, 로지스틱 회귀, 서포트 벡터 머신)에 적합합니다.
- 정규화는 데이터가 정규 분포를 따르지 않거나, 최소/최대값이 중요한 경우에 적합합니다. 거리 기반 알고리즘(예: k-최근접 이웃, k-평균 군집화)에 유용합니다.
데이터의 특성과 사용할 알고리즘에 따라 적절한 방법을 선택하는 것이 중요합니다.
반응형
'Encyclopedia > Info' 카테고리의 다른 글
당귀에 대해서 알아보자 (0) | 2024.02.29 |
---|---|
황기 : 면역체계 강화와 에너지증가, 심장 기능 개선 (0) | 2024.02.29 |
인삼에 대해서 알아보자.! 난 인삼을 좋아하니까! (0) | 2024.02.29 |
실외에서 CO₂(이산화탄소) 측정이 필요 없는 이유? (0) | 2024.02.27 |
양자 컴퓨터 관련 특허 등록 많은 회사 (0) | 2024.02.19 |
ASSURE 모형의 절차 (0) | 2024.02.18 |
양궁에 대해서 알아보자 (0) | 2023.10.05 |
오프쇼어링, 리쇼어링 / 세계화의 종말 (0) | 2023.07.21 |