모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!!
다양한 Data Preprocessing 방법에 대해 알아보았습니다.
이번 포스팅에서 그 개념들을 간단하게 살펴보는 것으로 Preprocessing을 마무리짓도록 하겠습니다.
🚩 1. Data Cleaning
• Missing Data / Noisy Data / Outlier / Inconsistence 등을 다뤄 데이터를 깨끗이 정리합니다.
🚩 2. Data Integration
• 여러 데이터나 데이터베이스를 통합합니다.
• Redundancy 의 조절이 필요합니다 -> 상관관계 분석 / 공분산 분석
• Categorical Data -> correlation analysis : chi-square test
• Numerical Data -> variance analysis
- $covariance (σ_{12}) : range [-∞, +∞]$
- $correlation (ρ_{12}) : range [-1,1]$
🚩 3. Data Reduction
• 지나치게 복잡한 데이터 분석에는 많은 시간과 비용이 들기에 불필요한 attribute를 제거해야 합니다.
• 단, Reduction 전후의 결과는 비슷하게 유지되어야 합니다.
• Attribute Reduction (Demensionality Reduction) - Subset selection, PCA
• Observation Reduction (Numerosity Reduction)
- Parametric model : Regression
- Non-parametric model : histogram / Clustering / Sampling
- Data Compression - String Compression / Audio-Video Compression
🚩 4. Dimensionality Reduction
• Random Variables의 수를 줄여서 주요한 Variables만 남깁니다.
• Irrelevant attribute를 제거합니다.
• Feature Selection
- Best subset selection
- Forward stepwise selection
- Backward stepwise selection
• Feature Extraction - PCA
🚩 5. Data Transformation
• 전체 Attribute 값을 새로운 값으로 변경해주는 함수입니다.
• Smoothing
• Attribute / Feature Construction
• Aggregation
- Normalization
• Min-Max Normalization
• Z - score Normalization
- Decimal Scaling
- Discretization
- Binning
• Histogram / Clustering
• Classification : Decision Tree
• Correlation
🧩 학기 중에 배우는 동안에는 개념도 많이 헷갈리고, 뭐가 뭔지 정확히 알기도 어려웠던 것 같은데 블로그에 정리를 하면서 저도 몰랐던 개념들을 다시 잡아나가는 기회가 됐던 것 같습니다. 블로그 포스팅 내용도 꽤나 많았기 때문에, 각 개념들에 대한 블로그 링크를 첨부할 테니 참고하시면 도움이 될 것이라 생각합니다😃😃.
📝 전처리1 : Data Cleaning
📝 전처리2 : Data Integration - chi-square test
📝 전처리3 : Data Integration - Numerical Data
📝 전처리4 : Data Reduction - Introduce
📝 전처리5 : Data Reduction - Linear Regression
📝 전처리6 : Data Reduction - Nonlinear Regression
📝 전처리7 : Data Reduction - Nonparametric
📝 전처리8 : Data Reduction - Dimensionality
📝 전처리9 : Data Reduction - Subset Selection
📝 전처리10 : Data Reduction - PCA
📝 전처리11 : Data Reduction - PCA_2
📝 전처리12 : Data Transformation
🧩 다음 포스팅부터는 pattern analysis에 대해 배워보도록 하겠습니다🏃♂️🏃♂️.
💡위 포스팅은 한국외국어대학교 바이오메디컬공학부 고윤희 교수님의 [생명정보학을 위한 데이터마이닝] 강의를 바탕으로 합니다.
'📌 데이터마이닝 > 데이터 전처리' 카테고리의 다른 글
🚩 데이터마이닝 18. Data Transformation (0) | 2023.02.21 |
---|---|
🚩 데이터마이닝 17. Reduction - 주성분분석 구현 (0) | 2023.02.20 |
🚩 데이터마이닝 16. Reduction - 주성분분석(PCA) (0) | 2023.02.20 |
🚩 데이터마이닝 15. Reduction - Subset Selection (0) | 2023.02.19 |
🚩 데이터마이닝 14. Dimensionality Reduction (0) | 2023.02.19 |