🐍 파이썬 데이터 분석 프로젝트 25

🫀 심혈관질환 데이터 분석 11. plotly 차트보드

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 📌 기존에 제가 블로그나 깃허브에 plotly그래프를 호출하는 방식은 plotly 계정의 API key 값을 사용해서 그래프에 대한 링크를 임베딩하는 방식입니다. 그런데 저의 plotly Home 대쉬보드에 더 이상의 여유공간이 없어서,,,!! (몇 개 올린 것 같지도 않은데 말이죠...😥😥) 더 이상 그래프를 호출을 못하더라구요,,, 그래서 다른 방법을 찾는 중이었습니다. 📌 다른 그래프도 그렇지만, 특히 주성분 분석 PCA는 plotly를 사용했을 때 그 효과가 굉장히 큽니다. 그래서 어떡해야 할까 정말 많은 고민을 했는데 찾은 방법은 plotly에 업로드 하는 것이었습니다. 제가 주피터로 작성..

🫀 심혈관질환 데이터 분석 10. 주성분분석

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🩸 이번 글에서는 PCA (Principal Component Analysis), 즉 주성분 분석을 통한 attribute 간의 연관관계를 살펴봅시다. 🫀 1. PCA 코드 구현 🩸 PCA를 위해 sklearn.decomposition 모듈의 PCA 라이브러리 를 사용했고, 시각화를 위해 plotly 공식 홈페이지를 참고했습니다. 🚩 1.1. 데이터 확인 앞서 전처리한 데이터를 가지고 PCA를 진행하겠습니다. 🚩 1.2. PCA 구현 및 시각화_Princiapl Component 1~3 📌 먼저 코드부터 확인해보겠습니다🙄. # target과 feature data 설정 # cardio가 0인 obj..

🫀 심혈관질환 데이터 분석 09. Kulczynski

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🩸 저번 글에 이어 여러 가지 Null invariant measure들을 통해 attribute 간의 관계를 알아보도록 하겠습니다. 🫀 1. Null Invariant Measure 데이터프레임 생성 📌 chi-square, p-value 계산 # chi-square 계산(transaction dataframe 기준 : 각 attribute의 category) # scipy.stats의 chi2_contingency를 통해서 contingency table 생성. # contingency table을 바탕으로 chi-square와 p-value 계산. chi_list = pd.DataFrame()..

🫀 심혈관질환 데이터 분석 08. 카이제곱검정

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🩸 저번 글에서는 support, confidence, lift를 가지고 함께 등장하는 attribute 들을 알아보았습니다. 이번 글에서는 이 수치들이 가질 수 있는 문제들을 해결하기 위한 Null-Invariant Measures 를 사용하여 패턴을 분석할 것입니다. 🩸 코드 진행의 이해를 위해 이번 글에서 사용할 데이터프레임을 먼저 살펴보겠습니다. 📌 1. pre_tran : 수치형/범주형 attribute가 섞여있던 원래 데이터를 범주형 데이터로 만든 것 📌 2. transaction : pre_tran을 사용하여 만든 최종 트랜잭션 데이터 - Boolean 표현형 🫀 1. Null-Inva..

🫀 심혈관질환 데이터 분석 07. 패턴분석

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🩸 앞선 글에서 만든 transaction data로부터 각 column 들의 여러가지 패턴들을 구해봅시다. 🩸 코드 진행의 이해를 위해 이번 글에서 사용할 데이터프레임을 먼저 보도록 합시다. 📝 1. pre_tran : 수치형/범주형 attribute가 섞여있던 원래 데이터를 범주형 데이터로 만든 것 📝 2. transaction : pre_tran을 사용하여 만든 최종 트랜잭션 데이터 - Boolean 표현형 🫀 1. support / confidence / lift 구하기 🩸 패턴을 분석해서 어떤 attribute가 cardio label과 자주 등장하는지 알아보는 것이 패턴 분석의 목적입니다..

🫀 심혈관질환 데이터 분석 06. 패턴분석 데이터 전처리

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🩸 저번 글에서는 상관관계 분석을 통해 각 attribute들 사이의 관계를 찾아보았습니다. 하지만 상관관계 분석이 수치형 변수와 수치형 변수 간의 관계만을 알아보는 데 사용한다는 것을 몰라서 약간 잘못된 방법을 사용했다는 것이 지금도 너무 아쉽네요😥. 🩸 이번 글부터 다음 몇가지 글까지는 패턴분석을 통해 attribute 사이의 관계를 알아볼 예정입니다. 🫀 1. support / confidence / lift 이론적 배경 🩸 Support ▪ 지지도 ▪ x와 y를 동시에 포함하는 비율 ▪ 신뢰도(Confidence)를 지지하는 척도 ▪ confidence에 의한 규칙이 지지받기 위해서는 sup..

🫀 심혈관질환 데이터 분석 05. 상관관계 분석

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🩸 저번 글에서 데이터를 최종적으로 전처리하는 과정을 다뤘습니다. 이번 글에서는 이렇게 전처리된 데이터를 사용하여 상관관계 즉 correlation을 분석해볼 예정입니다. 🩸이 글을 시작으로 데이터의 각 attribute 간의 연관관계를 분석할 것입니다. 어쩌면 데이터마이닝 시간에 가장 비중있게 다룬 내용들인 만큼 많은 내용을 다룰 생각입니다. 🫀 1. Preprocessing 된 cardio 데이터 임포트 🩸 먼저 데이터를 불러오고 전처리한 코드를 정리해보았습니다. 간단하게 살펴봅시다. # 데이터 임포트 및 전처리를 위한 pandas / numpy library 임포트 import pandas a..

🫀 심혈관질환 데이터 분석 04. attribute 노이즈 확인

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🩸 저번 글에서는 유일하게 classify 되지 않은 혈압 attribute의 범위를 알아보고 이를 전처리하는 내용을 다루었습니다. 이번 글에서는 나머지 classify 된 attribute 중에서 noise 가 있는지 확인해 볼 것입니다. 🩸 원본 데이터 70000개의 object 중에서 Systolic / Diastolic Blood Presure Preprocessing 의 결과 남은 object가 64500개였습니다. 따라서 각 attribute의 class들의 개수를 합치면 각각 64500 이 나오는지 확인하는 방법으로 noisy data를 판단할 것입니다. 🩸 사실, 상당히 단순한 방법이..

🫀 심혈관질환 데이터 분석 03. 데이터 전처리

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🩸 저번 업로드 내용에서 데이터를 불러오고, 앞으로 프로젝트를 진행할 방향을 알아보았습니다. 이번 포스팅에서는 데이터를 전처리해서 사용할 만한 데이터로 만드는 과정을 다룰 생각입니다. 먼저 데이터가 어떻게 생겼었는지 한번 더 살펴봅시다!! 🫀 Data Info 🩸 데이터는 위와 같이 생겼습니다. 이 데이터가 어떤 정보들을 가지고 있는지 알아봅시다. cardio.info() >> RangeIndex: 70000 entries, 0 to 69999 Data columns (total 13 columns): # Column Non-Null Count Dtype --- ------ -------------..

🫀 심혈관질환 데이터 분석 02. 데이터 소개

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🩸 2022-1 학기에 진행한 데이터 마이닝 프로젝트를 요약할 생각입니다. 진행한 프로젝트는 Cardio-Vascular Disease Prediction 으로, 심혈관 질환을 예측하는 모델을 만드는 것이 프로젝트의 목적이었습니다. 🩸 이 프로젝트를 위해 캐글에서 해당 데이터를 가져왔으며, 링크는 바로 아래에 첨부해 두었습니다. 📝 Cardio Vascular Data Cardiovascular Disease dataset The dataset consists of 70 000 records of patients data, 11 features + target. www.kaggle.com 🩸 이번 ..