📌 데이터마이닝/데이터 전처리

🚩 데이터마이닝 19. 데이터 전처리 리뷰

nyamin9 2023. 2. 24. 12:10

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!!

 

 


다양한 Data Preprocessing 방법에 대해 알아보았습니다.

 

이번 포스팅에서 그 개념들을 간단하게 살펴보는 것으로 Preprocessing을 마무리짓도록 하겠습니다.

 


🚩 1. Data Cleaning

 

• Missing Data / Noisy Data / Outlier / Inconsistence 등을 다뤄 데이터를 깨끗이 정리합니다.

 


🚩 2. Data Integration

 

 여러 데이터나 데이터베이스를 통합합니다.

 

 Redundancy 의 조절이 필요합니다 -> 상관관계 분석 / 공분산 분석

 

 

 Categorical Data -> correlation analysis : chi-square test

 

 Numerical Data -> variance analysis

 

  - $covariance (σ_{12}) : range [-∞, +∞]$

 

  - $correlation (ρ_{12}) : range [-1,1]$

 


🚩 3. Data Reduction

 

 지나치게 복잡한 데이터 분석에는 많은 시간과 비용이 들기에 불필요한 attribute를 제거해야 합니다.

 

 단, Reduction 전후의 결과는 비슷하게 유지되어야 합니다.

 

 

 Attribute Reduction (Demensionality Reduction) - Subset selection, PCA

 

 Observation Reduction (Numerosity Reduction)

 

  - Parametric model : Regression

 

  - Non-parametric model : histogram / Clustering / Sampling

 

- Data Compression - String Compression / Audio-Video Compression

 


🚩 4. Dimensionality Reduction

 

 

 Random Variables의 수를 줄여서 주요한 Variables만 남깁니다.

 

 Irrelevant attribute를 제거합니다.

 

 

 Feature Selection

 

  - Best subset selection

 

  - Forward stepwise selection

 

  - Backward stepwise selection

 

 Feature Extraction - PCA

 


🚩 5. Data Transformation

 

 전체 Attribute 값을 새로운 값으로 변경해주는 함수입니다.

 

 

 Smoothing

 

 Attribute / Feature Construction

 

 Aggregation

 

  - Normalization

 

     Min-Max Normalization

 

     Z - score Normalization

 

  - Decimal Scaling

 

  - Discretization

 

  - Binning

 

     Histogram / Clustering

 

     Classification : Decision Tree

 

     Correlation

 

 


🧩 학기 중에 배우는 동안에는 개념도 많이 헷갈리고, 뭐가 뭔지 정확히 알기도 어려웠던 것 같은데 블로그에 정리를 하면서 저도 몰랐던 개념들을 다시 잡아나가는 기회가 됐던 것 같습니다. 블로그 포스팅 내용도 꽤나 많았기 때문에, 각 개념들에 대한 블로그 링크를 첨부할 테니 참고하시면 도움이 될 것이라 생각합니다😃😃.

 

 

📝 전처리1 : Data Cleaning
📝 전처리2 : Data Integration - chi-square test
📝 전처리3 : Data Integration - Numerical Data
📝 전처리4 : Data Reduction - Introduce
📝 전처리5 : Data Reduction - Linear Regression
📝 전처리6 : Data Reduction - Nonlinear Regression
📝 전처리7 : Data Reduction - Nonparametric
📝 전처리8 : Data Reduction - Dimensionality
📝 전처리9 : Data Reduction - Subset Selection
📝 전처리10 : Data Reduction - PCA
📝 전처리11 : Data Reduction - PCA_2
📝 전처리12 : Data Transformation

 

 

🧩 다음 포스팅부터는 pattern analysis에 대해 배워보도록 하겠습니다🏃‍♂️🏃‍♂️.

 

 


💡위 포스팅은 한국외국어대학교 바이오메디컬공학부 고윤희 교수님의 [생명정보학을 위한 데이터마이닝] 강의를 바탕으로 합니다.