📌 데이터마이닝/데이터 전처리

🚩 데이터마이닝 10. Data Reduction

nyamin9 2023. 2. 16. 12:35

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!!

 

 


 

저번 포스팅까지 해서 Data Integration을 다뤘습니다. 이제부터는 데이터 전처리에서 가장 중요한 Data Reduction에 대해 알아보도록 합시다. 먼저, Data Reduction을 하는 이유와 중요한 이유. 그리고 어떤 종류가 있는지를 가볍게 다루겠습니다.

 

 


🚩 1. Data Reduction이란??

 

실제로 저희가 다룰 데이터에는 불필요한 정보들도 많이 포함되어 있고, 이미 가지고 있는 값을 중복해서 가지고 있는 경우도 있습니다. 또한 비슷한 의미를 가지고 있어 합칠 수 있지만 원본 데이터에서는 여러 개의 attribute로 나눠져 있는 경우도 있습니다. 이렇게 복잡한 데이터를 분석하는 데에는 많은 시간과 노력이 필요하기 때문에 데이터를 어느정도 간단히 만드는 과정이 필요합니다. 

 

 

이렇게 불필요한 attribute 또는 object를 줄여 데이터의 dimension을 줄이는 과정을 Data Reduction이라고 합니다.

 

 

 


🚩 2. Data Reduction 방법

 

Data의 복잡도를 줄이는 방법에는 object 수를 줄이거나 attribute, 즉 dimension을 줄이는 방법이 있습니다. 또한 데이터를 그냥 압축하는 방법도 있습니다. 각각에 대해 간단히 알아보도록 합시다.

 

 

 

📝 1. object 줄이기 : Numerosity Reduction

 

 

Parametric Methods


  - 업데이트 할 parameter를 가지는 방법
 

  - Reduction을 위한 Assumption이 필요

 

  - 즉, 데이터가 어떠한 모델에 fitting될 것이라는 임의의 모델을 가정하고 진행

 

  - ex) Linear Regeression

 


Non-Parametric Methods


  - parameter가 없는 방법


  - assumption이 없음


  - 모델을 가정하지 않기 때문에 구현이 어려움


  - ex) Histogram, Clustering, Sampling

 

 

 

 

📝 2. Attribute 줄이기 : Dimensionality Reduction

 


 Principal Component Analysis (PCA)


  - attribute를 combination한 새로운 dimension 생성


  - 새로운 dimension을 축으로 해서 기존의 데이터를 설명하는 방법

 


 Subset Selection


- 데이터를 가장 잘 설명할 수 있는 subset model을 선택해서 dimension을 줄이는 방법

 

 

 

 

📝 3. Data Compression

  - String Compression

  - Audio / Video Compression

 

 


🧩 간단하게 Data Reduction을 알아보았습니다. 다음 포스팅부터 본격적으로 알아보도록 하겠습니다.

 


💡위 포스팅은 한국외국어대학교 바이오메디컬공학부 고윤희 교수님의 [생명정보학을 위한 데이터마이닝] 강의를 바탕으로 합니다.