Encyclopedia/Info Updated: 2024. 2. 20. 18:18 hwaya.

표준화(Standardization)와 정규화(Normalization)의 차이

반응형

데이터 전처리에서 표준화(Standardization)와 정규화(Normalization)는 모두 데이터의 스케일을 조정하는 방법이지만, 그 방식과 목적에서 차이가 있습니다.

표준화 (Standardization)

표준화는 데이터에서 평균을 빼고, 그 결과를 표준편차로 나누는 과정입니다. 이 방법은 데이터의 평균을 0으로, 표준편차를 1로 만듭니다. 표준화는 데이터가 정규 분포를 따른다는 가정 하에, 데이터의 스케일을 조정합니다.

  • 공식: ( z = \frac{(x - \mu)}{\sigma} )
  • 여기서 ( x )는 원래 값, ( \mu )는 평균, ( \sigma )는 표준편차입니다.
  • 결과적으로, 변환된 데이터는 평균이 0이고 분산이 1인 분포를 가지게 됩니다.

표준화는 이상치에 덜 민감하며, 많은 머신 러닝 알고리즘에서 좋은 성능을 낼 수 있도록 합니다.

정규화 (Normalization)

정규화는 데이터의 스케일을 0과 1 사이로 조정합니다. 이 방법은 데이터의 최소값과 최대값을 사용하여 값을 조정합니다. 정규화는 데이터의 분포에 관계없이 사용할 수 있으며, 특히 데이터의 최대/최소값이 명확할 때 유용합니다.

  • 공식: ( x_{\text{new}} = \frac{(x - x_{\text{min}})}{(x_{\text{max}} - x_{\text{min}})} )
  • 여기서 ( x_{\text{min}} )은 최소값, ( x_{\text{max}} )은 최대값입니다.

정규화는 데이터의 스케일이 매우 다를 때 유용하며, 특히 거리 기반 알고리즘에서 성능 향상을 도모할 수 있습니다.

선택 기준

  • 표준화는 데이터가 정규 분포를 따르거나, 이상치가 있는 경우에 유용합니다. 또한, 많은 머신 러닝 알고리즘(예: 선형 회귀, 로지스틱 회귀, 서포트 벡터 머신)에 적합합니다.
  • 정규화는 데이터가 정규 분포를 따르지 않거나, 최소/최대값이 중요한 경우에 적합합니다. 거리 기반 알고리즘(예: k-최근접 이웃, k-평균 군집화)에 유용합니다.

데이터의 특성과 사용할 알고리즘에 따라 적절한 방법을 선택하는 것이 중요합니다.

반응형

Table of Contents


    EIGHTBOX
    EIGHTBOX
    hwaya.

    programmer

    🍋일상의 소소한 순간들부터 큰 꿈까지, 호기심을 만족시킬 다양한 카테고리를 담은 블로그 입니다. 그리고, 소소한 행동에 감동하며 기뻐하고 하루하루에 감사하는 사람🌵

    Today Yesterday Total
    최신글