전처리 17

🚩 데이터마이닝 19. 데이터 전처리 리뷰

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 다양한 Data Preprocessing 방법에 대해 알아보았습니다. 이번 포스팅에서 그 개념들을 간단하게 살펴보는 것으로 Preprocessing을 마무리짓도록 하겠습니다. 🚩 1. Data Cleaning • Missing Data / Noisy Data / Outlier / Inconsistence 등을 다뤄 데이터를 깨끗이 정리합니다. 🚩 2. Data Integration • 여러 데이터나 데이터베이스를 통합합니다. • Redundancy 의 조절이 필요합니다 -> 상관관계 분석 / 공분산 분석 • Categorical Data -> correlation analysis : chi-squa..

🚩 데이터마이닝 18. Data Transformation

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🧩 이번 포스팅에서는 데이터 전처리의 마지막 개념인 Data Transformation 에 대해 알아보도록 하겠습니다. 🚩 1. Data Transformation Preview Data Transformation은 데이터의 전체 attribute를 새로운 값으로 변경해주는 일종의 함수를 의미합니다. 즉, 기존의 값을 새로운 값으로 바꿔준다는 것에 그 의미가 있습니다. 🧩 Data Transformation을 위한 method로는 다음과 같은 방법들이 있습니다. 1. Smoothing ▪ 데이터의 noise 제거 ▪ outlier를 원래 데이터의 분포에 맞게 바꿈. 2. Attribute / Fea..

🚩 데이터마이닝 17. Reduction - 주성분분석 구현

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 이번 글에서는 프로젝트 내용을 통해 PCA, 즉 주성분 분석을 통한 attribute 간의 연관관계를 살펴보겠습니다. 🚩 1. PCA 코드 구현 sklearn.decomposition 모듈의 PCA 라이브러리 를 사용했고, 시각화를 위해 plotly 공식 홈페이지를 참고했습니다. 🚩 1.1. 데이터 확인 위 데이터를 가지고 PCA를 진행하겠습니다. 🚩 1.2. PCA 구현 및 시각화_Princiapl Component 1~3 📌 먼저 코드부터 확인해보겠습니다🙄. # target과 feature data 설정 # cardio가 0인 object는 'N' 으로 변환 # cardio가 1인 object는..

🚩 데이터마이닝 16. Reduction - 주성분분석(PCA)

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 이번 포스팅에서는 Dimensionality Reduction 중의 Principal Component Analysis, 주성분분석에 대해서 알아보도록 합시다🙃. 🚩1. PCA - Dimensionality Reduction 데이터마이닝 분야에 조금이라도 관심이 있거나, 관련된 서적을 읽어보신 분들은 PCA 라는 말을 이래저래 많이 접해보셨을 것입니다. 오늘 알아볼 Principal Component Analysis를 줄여서 부른 게 바로 PCA 분석입니다. 그만큼 유명하고, 데이터 분야에서는 떼어놓을 수 없을 만큼 중요하지만 여러 데이터마이닝 프레젠테이션을 봤을 때 PCA가 무엇인지, 왜 하는지에..

🚩 데이터마이닝 15. Reduction - Subset Selection

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 이번 포스팅부터는 Dimensionality reduction에 대해 자세히 알아볼 것입니다. 먼저 subset selection에 대해서 알아보도록 합시다. 🚩 1. Attribute Subset Selection 개념 이번 포스팅에서는 subset selection에 대해서 알아볼 텐데, 그러면 이게 대체 무엇인가부터 대략적으로 알고가는 편이 좋을 것 같습니다. 이름에서 느껴질 수 있겠지만, 데이터의 attribute에서 몇가지를 추출해서 그 attribute들로 이뤄진 subset, 즉 부분집합을 찾겠다는 의미입니다. 이때 선택하는 attribute들은 데이터를 가장 잘 설명할 수 있어야 하며..

🚩 데이터마이닝 14. Dimensionality Reduction

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 앞서 object를 줄이는 Numerosity reduction를 다뤄보았습니다. 파라미터를 사용하거나 사용하지 않는 방법이 있다는 것으로 개념정리는 끝낼 수 있을 것 같습니다. 이제부터는 데이터의 attribute를 줄이는 Dimensionality Reduction에 대해 알아보도록 합시다. 🚩 1. Dimensionality Reduction 개념 데이터가 지나치게 복잡하면 정말 필요한 정보를 뽑아내기가 어렵습니다. 이러한 현상을 Curse of Dimensionality, 즉 dimension의 저주라고 합니다. dimension이 증가하면 오히려 데이터에 결측값이나 관련없는 값 등의 빈 공..

🚩 데이터마이닝 13. Reduction - Nonparametric

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 이전 두 포스팅을 통해 데이터의 object를 줄이는 Numerosity reduction 중 파라미터를 사용하는 방법을 살펴보았습니다. 이번에는 파라미터를 사용하지 않는 방법을 배워보도록 하겠습니다. 🚩 1. Nonparametric Method 1 : Histogram Analysis 먼저 Histogram Analysis에 대해서 알아봅시다. 히스토그램이라면 가장 먼저 떠올리는 것이 중고등학생 때 배운 히스토그램 그래프일 것입니다. 변량을 각 계급으로 나눠 도수를 표현하는 것을 히스토그램이라고 배우셨을 텐데, Histogram Analysis도 똑같습니다!! 앞으로의 설명을 위해 각 계급을 b..

🚩 데이터마이닝 12. Reduction - Nonlinear Regression

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 저번 포스팅에서는 Linear Regression에 대해 배워보았습니다. 이번에는 Parametric Reduction의 다른 방법인 Nonlinear Regression에 대해 알아보도록 합시다. 🚩 1. Nonlinear Regression 이란?? Parametric Reduction 에는 linear regression과 nonlinear regression 이 있습니다. Linear Regression은 데이터의 변수가 선형적인 관계를 가지고 있을 것이라는 assumption 하에 reduction이 진행됩니다. 반면 Nonlinear Regression은 데이터가 비선형적인 관계를 가지는..

🚩 데이터마이닝 11. Reduction - Linear Regression

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 저번 포스팅을 통해 데이터의 dimension을 줄이는 Data Reduction의 종류에 대해 알아보았습니다. 이번에는 object를 줄이는 방법 중 하나인 Linear Regression에 대해서 알아보도록 합시다. 🚩 1. Parametric Data Reduction : Regression Analysis 데이터의 object를 줄이는 Numerosity Reduction에는 파라미터를 사용하는 방법과 사용하지 않는 방법이 있습니다. 알아볼 Linear Regression은 파라미터를 사용하는 방법이기에 Parametric Method가 무엇인지부터 간단히 알아봅시다. 그림을 보면 이해하시기..

🚩 데이터마이닝 10. Data Reduction

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 저번 포스팅까지 해서 Data Integration을 다뤘습니다. 이제부터는 데이터 전처리에서 가장 중요한 Data Reduction에 대해 알아보도록 합시다. 먼저, Data Reduction을 하는 이유와 중요한 이유. 그리고 어떤 종류가 있는지를 가볍게 다루겠습니다. 🚩 1. Data Reduction이란?? 실제로 저희가 다룰 데이터에는 불필요한 정보들도 많이 포함되어 있고, 이미 가지고 있는 값을 중복해서 가지고 있는 경우도 있습니다. 또한 비슷한 의미를 가지고 있어 합칠 수 있지만 원본 데이터에서는 여러 개의 attribute로 나눠져 있는 경우도 있습니다. 이렇게 복잡한 데이터를 분석하..