📌 데이터마이닝/데이터 전처리 13

🚩 데이터마이닝 09. Integration-분산/상관관계분석

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 저번 포스팅에서는 범주형 데이터에 대한 data integration 방법인 chi-square test에 대해 알아보았습니다. 이번 포스팅에서는 Numerical Data, 즉 수치형 데이터에 대한 방법들을 알아보도록 합시다. 🧩 이 방법들은 아래와 같이 정리할 수 있습니다. - 분산분석 (Variance) - 공분산 분석 (Covariance) - 상관관계 분석 (Correlation) variance measure부터 차근차근 알아보도록 합시다. 🚩 1. Variance for single numerical data variable 분산, 즉 variance를 다루기 전에 평균과 관련된 기초적..

🚩 데이터마이닝 08. Integration-카이제곱검정

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🧩 저번 포스팅에서 Data Cleaning에 대해서 간단하게 알아보았습니다. 이제는 본격적인 전처리를 위한 방법들을 배워나갈 것인데, 먼저 categorical data 의 integration을 위한 chi-square test를 알아보도록 합시다. 들어보신 분들은 아마 카이제곱검정 이 더 익숙하실 것 같습니다. 🚩 1. Data Integration 기업이나 큰 데이터베이스에서 Data Integration은 여러 출처의 데이터를 일관된 저장소로 통합하거나 데이터베이스를 통합하여 각각의 데이터를 워래의 범위보다 축소된 범위에서 한번에 다루기 위한 방법으로 정의됩니다. 일반적으로는 데이터의 at..

🚩 데이터마이닝 07. Data Cleaning

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🧩 이번 포스팅부터는 Data Preprocessing, 즉 데이터 전처리에 대해서 다룰 생각입니다. 어쩌면 정확한 데이터 분석이나 마이닝을 위해서 가장 중요한 부분이라고도 할 수 있기 때문에, 자세히 알아보도록 하겠습니다. 🧩 Data Preprocessing은 아래와 같은 방법들로 구성됩니다. ▪ Data Cleaning ▪ Data Integration ▪ Data Reduction / Transformation ▪ Dimensinality Reduction 👉 전처리는 데이터의 상황에 맞는 여러가지 measure들을 가지고 있습니다. 🧩 이번 포스팅에서는 첫번째 방법인 Data Cleanin..