본 포스팅에서는 Feature Selection의 중요성과 여러 가지 Feature Selection의 방법들에 대해서 자세히 알아보도록 하겠습니다. Feature Selection이란 학습에 필요한 변수들을 중요도에 따라 선택하는 과정 (모델 학습에 불필요한 변수들을 생략하는 과정)으로 변수의 중요도를 어떻게 정의하고, 평가할지에 따라 방법론이 나뉩니다.대표적인 변수선택의 3가지 접근법으로는 다음과 같은 방법들이 있으며 변수의 중요도를 평가하는 방법, 기준에 따라 분류합니다.Filter methods : 변수들간 통계적 관계를 기반으로 변수의 중요도 설정e.g) 상관관계, 분산 기반 방법Wrapper methods : 실제 머신러닝 모델의 성능을 기반으로 변수의 중요도 설정 (검증 결과에 기반)e.g)..
본 포스팅은 데이터 전처리 과정 중 연속형 변수와 범주형 변수를 다루는 방법들에 대해서 알아보도록 하겠습니다. 연속형 변수의 경우 데이터 클리닝 및 파생 변수로 변환을 통해 모델의 성능과 해석력을 높여줄 수 있습니다.선형 회귀의 경우 정규성(Normality)을 만족시켜 주어야 하며 KNN의 경우 scailing을 통해 변수 간의 편차를 줄여줌으로써 모델의 성능과 해석력을 높일 수 있습니다.연속형 변수의 전처리 방법들은 다음과 같습니다.함수 변환스케일링구간화범주형 변수의 경우 알고리즘 모델이 인식할 수 있는 실수(정수) 형태로 데이터를 변환해주는 것이 필요합니다.범주형 변수의 전처리 방법들은 다음과 같습니다.원-핫 인코딩레이블 인코딩빈도 인코딩타겟 인코딩이제 각 변수 별 전처리 기법들에 대해 자세히 알아..
본 포스팅에서는 데이터 전처리와 그 중요성에 대해서 알아보도록 하겠습니다. 우선 머신러닝을 이용해 문제를 해결하는 프로세스는 다음과 같다. 이 중 데이터 전처리 파트에서 결측치 처리와 이상치 처리에 대해 자세히 알아보도록 하자. 1. 데이터 전처리의 중요성 데이터 전처리는 모델의 특성을 이해하고 수정하여 품질을 높이는 과정에 해당한다.데이터 전처리를 통해 모델의 성능을 향상하고, 모델의 해석 가능성을 높이는 역할을 하기 때문에 데이터 전처리는 중요한 작업이다.아래의 3가지 예시를 통해 데이터 전처리의 중요성을 느껴보자. 데이터 전처리는 편향을 제거하며, 이를 통해 신뢰성 높은 모델을 제작 가능선형회귀 모델 및 거리기반 알고리즘(KNN)은 결측치 및 이상치에 영향을 많이 받는다.아래의 그림과 같이 이상치의..