preprocessing 9

🚩 데이터마이닝 15. Reduction - Subset Selection

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 이번 포스팅부터는 Dimensionality reduction에 대해 자세히 알아볼 것입니다. 먼저 subset selection에 대해서 알아보도록 합시다. 🚩 1. Attribute Subset Selection 개념 이번 포스팅에서는 subset selection에 대해서 알아볼 텐데, 그러면 이게 대체 무엇인가부터 대략적으로 알고가는 편이 좋을 것 같습니다. 이름에서 느껴질 수 있겠지만, 데이터의 attribute에서 몇가지를 추출해서 그 attribute들로 이뤄진 subset, 즉 부분집합을 찾겠다는 의미입니다. 이때 선택하는 attribute들은 데이터를 가장 잘 설명할 수 있어야 하며..

🚩 데이터마이닝 14. Dimensionality Reduction

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 앞서 object를 줄이는 Numerosity reduction를 다뤄보았습니다. 파라미터를 사용하거나 사용하지 않는 방법이 있다는 것으로 개념정리는 끝낼 수 있을 것 같습니다. 이제부터는 데이터의 attribute를 줄이는 Dimensionality Reduction에 대해 알아보도록 합시다. 🚩 1. Dimensionality Reduction 개념 데이터가 지나치게 복잡하면 정말 필요한 정보를 뽑아내기가 어렵습니다. 이러한 현상을 Curse of Dimensionality, 즉 dimension의 저주라고 합니다. dimension이 증가하면 오히려 데이터에 결측값이나 관련없는 값 등의 빈 공..

🚩 데이터마이닝 13. Reduction - Nonparametric

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 이전 두 포스팅을 통해 데이터의 object를 줄이는 Numerosity reduction 중 파라미터를 사용하는 방법을 살펴보았습니다. 이번에는 파라미터를 사용하지 않는 방법을 배워보도록 하겠습니다. 🚩 1. Nonparametric Method 1 : Histogram Analysis 먼저 Histogram Analysis에 대해서 알아봅시다. 히스토그램이라면 가장 먼저 떠올리는 것이 중고등학생 때 배운 히스토그램 그래프일 것입니다. 변량을 각 계급으로 나눠 도수를 표현하는 것을 히스토그램이라고 배우셨을 텐데, Histogram Analysis도 똑같습니다!! 앞으로의 설명을 위해 각 계급을 b..

🚩 데이터마이닝 12. Reduction - Nonlinear Regression

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 저번 포스팅에서는 Linear Regression에 대해 배워보았습니다. 이번에는 Parametric Reduction의 다른 방법인 Nonlinear Regression에 대해 알아보도록 합시다. 🚩 1. Nonlinear Regression 이란?? Parametric Reduction 에는 linear regression과 nonlinear regression 이 있습니다. Linear Regression은 데이터의 변수가 선형적인 관계를 가지고 있을 것이라는 assumption 하에 reduction이 진행됩니다. 반면 Nonlinear Regression은 데이터가 비선형적인 관계를 가지는..

🚩 데이터마이닝 11. Reduction - Linear Regression

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 저번 포스팅을 통해 데이터의 dimension을 줄이는 Data Reduction의 종류에 대해 알아보았습니다. 이번에는 object를 줄이는 방법 중 하나인 Linear Regression에 대해서 알아보도록 합시다. 🚩 1. Parametric Data Reduction : Regression Analysis 데이터의 object를 줄이는 Numerosity Reduction에는 파라미터를 사용하는 방법과 사용하지 않는 방법이 있습니다. 알아볼 Linear Regression은 파라미터를 사용하는 방법이기에 Parametric Method가 무엇인지부터 간단히 알아봅시다. 그림을 보면 이해하시기..

🚩 데이터마이닝 10. Data Reduction

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 저번 포스팅까지 해서 Data Integration을 다뤘습니다. 이제부터는 데이터 전처리에서 가장 중요한 Data Reduction에 대해 알아보도록 합시다. 먼저, Data Reduction을 하는 이유와 중요한 이유. 그리고 어떤 종류가 있는지를 가볍게 다루겠습니다. 🚩 1. Data Reduction이란?? 실제로 저희가 다룰 데이터에는 불필요한 정보들도 많이 포함되어 있고, 이미 가지고 있는 값을 중복해서 가지고 있는 경우도 있습니다. 또한 비슷한 의미를 가지고 있어 합칠 수 있지만 원본 데이터에서는 여러 개의 attribute로 나눠져 있는 경우도 있습니다. 이렇게 복잡한 데이터를 분석하..

🚩 데이터마이닝 09. Integration-분산/상관관계분석

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 저번 포스팅에서는 범주형 데이터에 대한 data integration 방법인 chi-square test에 대해 알아보았습니다. 이번 포스팅에서는 Numerical Data, 즉 수치형 데이터에 대한 방법들을 알아보도록 합시다. 🧩 이 방법들은 아래와 같이 정리할 수 있습니다. - 분산분석 (Variance) - 공분산 분석 (Covariance) - 상관관계 분석 (Correlation) variance measure부터 차근차근 알아보도록 합시다. 🚩 1. Variance for single numerical data variable 분산, 즉 variance를 다루기 전에 평균과 관련된 기초적..

🚩 데이터마이닝 08. Integration-카이제곱검정

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🧩 저번 포스팅에서 Data Cleaning에 대해서 간단하게 알아보았습니다. 이제는 본격적인 전처리를 위한 방법들을 배워나갈 것인데, 먼저 categorical data 의 integration을 위한 chi-square test를 알아보도록 합시다. 들어보신 분들은 아마 카이제곱검정 이 더 익숙하실 것 같습니다. 🚩 1. Data Integration 기업이나 큰 데이터베이스에서 Data Integration은 여러 출처의 데이터를 일관된 저장소로 통합하거나 데이터베이스를 통합하여 각각의 데이터를 워래의 범위보다 축소된 범위에서 한번에 다루기 위한 방법으로 정의됩니다. 일반적으로는 데이터의 at..

🚩 데이터마이닝 07. Data Cleaning

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🧩 이번 포스팅부터는 Data Preprocessing, 즉 데이터 전처리에 대해서 다룰 생각입니다. 어쩌면 정확한 데이터 분석이나 마이닝을 위해서 가장 중요한 부분이라고도 할 수 있기 때문에, 자세히 알아보도록 하겠습니다. 🧩 Data Preprocessing은 아래와 같은 방법들로 구성됩니다. ▪ Data Cleaning ▪ Data Integration ▪ Data Reduction / Transformation ▪ Dimensinality Reduction 👉 전처리는 데이터의 상황에 맞는 여러가지 measure들을 가지고 있습니다. 🧩 이번 포스팅에서는 첫번째 방법인 Data Cleanin..