캐글 17

🫀 심혈관질환 데이터 분석 08. 카이제곱검정

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🩸 저번 글에서는 support, confidence, lift를 가지고 함께 등장하는 attribute 들을 알아보았습니다. 이번 글에서는 이 수치들이 가질 수 있는 문제들을 해결하기 위한 Null-Invariant Measures 를 사용하여 패턴을 분석할 것입니다. 🩸 코드 진행의 이해를 위해 이번 글에서 사용할 데이터프레임을 먼저 살펴보겠습니다. 📌 1. pre_tran : 수치형/범주형 attribute가 섞여있던 원래 데이터를 범주형 데이터로 만든 것 📌 2. transaction : pre_tran을 사용하여 만든 최종 트랜잭션 데이터 - Boolean 표현형 🫀 1. Null-Inva..

🫀 심혈관질환 데이터 분석 07. 패턴분석

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🩸 앞선 글에서 만든 transaction data로부터 각 column 들의 여러가지 패턴들을 구해봅시다. 🩸 코드 진행의 이해를 위해 이번 글에서 사용할 데이터프레임을 먼저 보도록 합시다. 📝 1. pre_tran : 수치형/범주형 attribute가 섞여있던 원래 데이터를 범주형 데이터로 만든 것 📝 2. transaction : pre_tran을 사용하여 만든 최종 트랜잭션 데이터 - Boolean 표현형 🫀 1. support / confidence / lift 구하기 🩸 패턴을 분석해서 어떤 attribute가 cardio label과 자주 등장하는지 알아보는 것이 패턴 분석의 목적입니다..

🫀 심혈관질환 데이터 분석 06. 패턴분석 데이터 전처리

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🩸 저번 글에서는 상관관계 분석을 통해 각 attribute들 사이의 관계를 찾아보았습니다. 하지만 상관관계 분석이 수치형 변수와 수치형 변수 간의 관계만을 알아보는 데 사용한다는 것을 몰라서 약간 잘못된 방법을 사용했다는 것이 지금도 너무 아쉽네요😥. 🩸 이번 글부터 다음 몇가지 글까지는 패턴분석을 통해 attribute 사이의 관계를 알아볼 예정입니다. 🫀 1. support / confidence / lift 이론적 배경 🩸 Support ▪ 지지도 ▪ x와 y를 동시에 포함하는 비율 ▪ 신뢰도(Confidence)를 지지하는 척도 ▪ confidence에 의한 규칙이 지지받기 위해서는 sup..

🫀 심혈관질환 데이터 분석 05. 상관관계 분석

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🩸 저번 글에서 데이터를 최종적으로 전처리하는 과정을 다뤘습니다. 이번 글에서는 이렇게 전처리된 데이터를 사용하여 상관관계 즉 correlation을 분석해볼 예정입니다. 🩸이 글을 시작으로 데이터의 각 attribute 간의 연관관계를 분석할 것입니다. 어쩌면 데이터마이닝 시간에 가장 비중있게 다룬 내용들인 만큼 많은 내용을 다룰 생각입니다. 🫀 1. Preprocessing 된 cardio 데이터 임포트 🩸 먼저 데이터를 불러오고 전처리한 코드를 정리해보았습니다. 간단하게 살펴봅시다. # 데이터 임포트 및 전처리를 위한 pandas / numpy library 임포트 import pandas a..

🫀 심혈관질환 데이터 분석 04. attribute 노이즈 확인

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🩸 저번 글에서는 유일하게 classify 되지 않은 혈압 attribute의 범위를 알아보고 이를 전처리하는 내용을 다루었습니다. 이번 글에서는 나머지 classify 된 attribute 중에서 noise 가 있는지 확인해 볼 것입니다. 🩸 원본 데이터 70000개의 object 중에서 Systolic / Diastolic Blood Presure Preprocessing 의 결과 남은 object가 64500개였습니다. 따라서 각 attribute의 class들의 개수를 합치면 각각 64500 이 나오는지 확인하는 방법으로 noisy data를 판단할 것입니다. 🩸 사실, 상당히 단순한 방법이..

🫀 심혈관질환 데이터 분석 03. 데이터 전처리

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🩸 저번 업로드 내용에서 데이터를 불러오고, 앞으로 프로젝트를 진행할 방향을 알아보았습니다. 이번 포스팅에서는 데이터를 전처리해서 사용할 만한 데이터로 만드는 과정을 다룰 생각입니다. 먼저 데이터가 어떻게 생겼었는지 한번 더 살펴봅시다!! 🫀 Data Info 🩸 데이터는 위와 같이 생겼습니다. 이 데이터가 어떤 정보들을 가지고 있는지 알아봅시다. cardio.info() >> RangeIndex: 70000 entries, 0 to 69999 Data columns (total 13 columns): # Column Non-Null Count Dtype --- ------ -------------..

🫀 심혈관질환 데이터 분석 02. 데이터 소개

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🩸 2022-1 학기에 진행한 데이터 마이닝 프로젝트를 요약할 생각입니다. 진행한 프로젝트는 Cardio-Vascular Disease Prediction 으로, 심혈관 질환을 예측하는 모델을 만드는 것이 프로젝트의 목적이었습니다. 🩸 이 프로젝트를 위해 캐글에서 해당 데이터를 가져왔으며, 링크는 바로 아래에 첨부해 두었습니다. 📝 Cardio Vascular Data Cardiovascular Disease dataset The dataset consists of 70 000 records of patients data, 11 features + target. www.kaggle.com 🩸 이번 ..