📌 데이터마이닝/데이터 전처리

🚩 데이터마이닝 13. Reduction - Nonparametric

nyamin9 2023. 2. 17. 16:15

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 

 

 


이전 두 포스팅을 통해 데이터의 object를 줄이는 Numerosity reduction 중 파라미터를 사용하는 방법을 살펴보았습니다.

 

이번에는 파라미터를 사용하지 않는 방법을 배워보도록 하겠습니다.

 


🚩 1. Nonparametric Method 1 : Histogram Analysis

 

 

먼저 Histogram Analysis에 대해서 알아봅시다.

 

히스토그램이라면 가장 먼저 떠올리는 것이 중고등학생 때 배운 히스토그램 그래프일 것입니다.

 

변량을 각 계급으로 나눠 도수를 표현하는 것을 히스토그램이라고 배우셨을 텐데, Histogram Analysis도 똑같습니다!!

 

앞으로의 설명을 위해 각 계급을 bucket이라고 부르겠습니다.

 

 


 

📝 Histogram Analysis

 

▪ 데이터를 bucket으로 나눠 각각의 bucket에 보관하는 방법

 

 데이터를 나누는 방법이기에 Partitioning Rules라고 하며, Binning 이라고도 함

 

  - Equal-Width : 각 bucket의 range를 모두 같게 설정해서 partition 하는 방법. 극값의 영향을 많이 받음

 

  - Equal-Frequency : 각 bucket에 들어가는 데이터가 같도록 bucket을 설정하는 방법 (= equal depth)

 

 

 

위에서 언급한 것처럼 Histogram Analysis는 두 가지의 방법으로 나눠집니다.

 

다만, 저 설명만을 가지고는 직관적인 이해가 어렵습니다. 쉬운 이해를 위해 그림을 한번 살펴보도록 합시다.

 

 

 

Equal Width는 각 bucket의 range를 같은 사이즈로 나눠두고, 그에 맞춰 도수를 구하는 방법입니다. 데이터의 분포를 고려하지 않고 bucket을 나누기 때문에 극댓값이나 극솟값의 영향을 많이 받습니다.

 

Equal Frequency는 우선적으로 각 bucket에 들어가는 도수의 개수가 같도록 미리 나눈 후에, 마지막에 bucket의 range를 정하는 방법입니다. Equal Width 방법의 극값에 의한 영향을 보완하기 위해 만들어진 개념입니다.

 

 


🚩 2. Nonparametric Method 2 : Clustering

 

 

이번에는 Clustering에 대해 알아봅시다. 데이터마이닝에 있어 정말 중요한 내용이기 때문에, 반 학기 정도를 clustering에 대해서 배웠던 것 같습니다. 다른 포스팅에서 이에 대해 정말 자세히 다룰 것이기 때문에, 이번에는 간단한 개념만 이해하고 가도록 하겠습니다.

 

 

 

📝 Clustering

 

 데이터를 비슷한 애들끼리 묶어서 나누고 representation을 저장함. 군집화라고도 함.

 

미리 클러스터링 되어 있거나 나누기 좋은 데이터라면 굉장히 효율적이지만, 군데군데 흩어진 데이터라면 쉽지 않음

 

 


🚩 3. Nonparametric Method 3 : Sampling

 

 

📝 Sampling

 

 전체 데이터 N을 대표하는 작은 n개의 sample을 얻는 것

 

 Choose a representive subset of the data : 대표성을 가지는 sample을 얻음

 

 Types of Sampling

 

  - Simple random sampling : 샘플링을 위해 같은 확률로 데이터를 선택함

 

  - Sampling without replacement : 비복원추출

 

  - Sampling with replacement : 복원추출

 

  - Stratified Sampling : partition이 속한 집단의 특성에 맞게 샘플링 진행 (ex. class 개수의 비율을 유지)

 

 


이번 포스팅까지 해서 데이터의 object 수를 줄여 dimension을 감소시키는 법을 배워보았습니다. 파라미터를 사용하는 방법과 파라미터를 사용하지 않는 방법으로 구분된다는 차이점만 이해하시면 될 것 같습니다. 마지막으로 두 방법의 차이점을 간단히 알아보고 이번 포스팅을 마무리하겠습니다😃😃.

 

 

📝 Parametric / Nonparameric 비교

 

▪ Parametric Approach

 

  - Assumption ⭕, Parameter 

 

  - Linear Regression

 

  - Nonlinear Regression

 

  - 파라미터 업데이트를 통한 모델 피팅 가능

 

  - 하지만 모델의 가정에 의한 영향을 많이 받음

 

 

▪ Nonparametric Approach

 

  - Assumption ❌, Parameter 

 

  - Histogram

 

  - Clustering

 

  - Sampling

 

  - 모델에 대한 가정을 하지 않음

 

 

🧩 다음 포스팅부터는 Dimension을 줄이는 Dimensionality Reduction에 대해 알아보겠습니다🏃‍♂️🏃‍♂️.

 

 


💡위 포스팅은 한국외국어대학교 바이오메디컬공학부 고윤희 교수님의 [생명정보학을 위한 데이터마이닝] 강의를 바탕으로 합니다.