전처리 17

🚩 데이터마이닝 09. Integration-분산/상관관계분석

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 저번 포스팅에서는 범주형 데이터에 대한 data integration 방법인 chi-square test에 대해 알아보았습니다. 이번 포스팅에서는 Numerical Data, 즉 수치형 데이터에 대한 방법들을 알아보도록 합시다. 🧩 이 방법들은 아래와 같이 정리할 수 있습니다. - 분산분석 (Variance) - 공분산 분석 (Covariance) - 상관관계 분석 (Correlation) variance measure부터 차근차근 알아보도록 합시다. 🚩 1. Variance for single numerical data variable 분산, 즉 variance를 다루기 전에 평균과 관련된 기초적..

🚩 데이터마이닝 08. Integration-카이제곱검정

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🧩 저번 포스팅에서 Data Cleaning에 대해서 간단하게 알아보았습니다. 이제는 본격적인 전처리를 위한 방법들을 배워나갈 것인데, 먼저 categorical data 의 integration을 위한 chi-square test를 알아보도록 합시다. 들어보신 분들은 아마 카이제곱검정 이 더 익숙하실 것 같습니다. 🚩 1. Data Integration 기업이나 큰 데이터베이스에서 Data Integration은 여러 출처의 데이터를 일관된 저장소로 통합하거나 데이터베이스를 통합하여 각각의 데이터를 워래의 범위보다 축소된 범위에서 한번에 다루기 위한 방법으로 정의됩니다. 일반적으로는 데이터의 at..

🚩 데이터마이닝 07. Data Cleaning

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🧩 이번 포스팅부터는 Data Preprocessing, 즉 데이터 전처리에 대해서 다룰 생각입니다. 어쩌면 정확한 데이터 분석이나 마이닝을 위해서 가장 중요한 부분이라고도 할 수 있기 때문에, 자세히 알아보도록 하겠습니다. 🧩 Data Preprocessing은 아래와 같은 방법들로 구성됩니다. ▪ Data Cleaning ▪ Data Integration ▪ Data Reduction / Transformation ▪ Dimensinality Reduction 👉 전처리는 데이터의 상황에 맞는 여러가지 measure들을 가지고 있습니다. 🧩 이번 포스팅에서는 첫번째 방법인 Data Cleanin..

🧠 EEG 뇌전증 분석 LSTM 02. 데이터 전처리

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🚩 원본 데이터를 인공지능 모델이 인식할 수 있는 방향으로 데이터 전처리를 해주었습니다. 🚩 이번 포스팅에서는 그 데이터 전처리 과정을 다루겠습니다. 🏆 1. 라이브러리 임포트 import torch import numpy as np import random import matplotlib.pyplot as plt import pandas as pd from torch import nn from torch.utils.data import Dataset, DataLoader import torch, gc gc.collect() torch.cuda.empty_cache() 🚩 GPU 사용 확인 devi..

🫀 심혈관질환 데이터 분석 12. 라이브러리 임포트

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🩸 저번 글까지 해서 데이터에서 서로 연관이 있는 몇 가지 attribute들을 추출해냈습니다. 🩸 이번 글부터는 Decision Tree와 Random Forest를 통해서 우리가 찾아낸 attribute들이 target을 얼마나 잘 예측할 수 있는지 알아보도록 하겠습니다. 전처리한 데이터에서 추출한 attribute를 통해 예측하는 방법과 PCA 데이터를 통해 예측하는 방법 중 어떤 것이 보다 효율적이라고 할 수 있을지 알아보는 것이 본 프로젝트에서 classification의 목적입니다. 🩸 이번 글에서는 필요한 라이브러리와 데이터들을 알아보고 가져올 것입니다. 🫀 1. 필요한 라이브러리 임포..

🫀 심혈관질환 데이터 분석 04. attribute 노이즈 확인

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🩸 저번 글에서는 유일하게 classify 되지 않은 혈압 attribute의 범위를 알아보고 이를 전처리하는 내용을 다루었습니다. 이번 글에서는 나머지 classify 된 attribute 중에서 noise 가 있는지 확인해 볼 것입니다. 🩸 원본 데이터 70000개의 object 중에서 Systolic / Diastolic Blood Presure Preprocessing 의 결과 남은 object가 64500개였습니다. 따라서 각 attribute의 class들의 개수를 합치면 각각 64500 이 나오는지 확인하는 방법으로 noisy data를 판단할 것입니다. 🩸 사실, 상당히 단순한 방법이..

🫀 심혈관질환 데이터 분석 03. 데이터 전처리

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🩸 저번 업로드 내용에서 데이터를 불러오고, 앞으로 프로젝트를 진행할 방향을 알아보았습니다. 이번 포스팅에서는 데이터를 전처리해서 사용할 만한 데이터로 만드는 과정을 다룰 생각입니다. 먼저 데이터가 어떻게 생겼었는지 한번 더 살펴봅시다!! 🫀 Data Info 🩸 데이터는 위와 같이 생겼습니다. 이 데이터가 어떤 정보들을 가지고 있는지 알아봅시다. cardio.info() >> RangeIndex: 70000 entries, 0 to 69999 Data columns (total 13 columns): # Column Non-Null Count Dtype --- ------ -------------..