심혈관질환 16

🫀 심혈관질환 데이터 분석 06. 패턴분석 데이터 전처리

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🩸 저번 글에서는 상관관계 분석을 통해 각 attribute들 사이의 관계를 찾아보았습니다. 하지만 상관관계 분석이 수치형 변수와 수치형 변수 간의 관계만을 알아보는 데 사용한다는 것을 몰라서 약간 잘못된 방법을 사용했다는 것이 지금도 너무 아쉽네요😥. 🩸 이번 글부터 다음 몇가지 글까지는 패턴분석을 통해 attribute 사이의 관계를 알아볼 예정입니다. 🫀 1. support / confidence / lift 이론적 배경 🩸 Support ▪ 지지도 ▪ x와 y를 동시에 포함하는 비율 ▪ 신뢰도(Confidence)를 지지하는 척도 ▪ confidence에 의한 규칙이 지지받기 위해서는 sup..

🫀 심혈관질환 데이터 분석 05. 상관관계 분석

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🩸 저번 글에서 데이터를 최종적으로 전처리하는 과정을 다뤘습니다. 이번 글에서는 이렇게 전처리된 데이터를 사용하여 상관관계 즉 correlation을 분석해볼 예정입니다. 🩸이 글을 시작으로 데이터의 각 attribute 간의 연관관계를 분석할 것입니다. 어쩌면 데이터마이닝 시간에 가장 비중있게 다룬 내용들인 만큼 많은 내용을 다룰 생각입니다. 🫀 1. Preprocessing 된 cardio 데이터 임포트 🩸 먼저 데이터를 불러오고 전처리한 코드를 정리해보았습니다. 간단하게 살펴봅시다. # 데이터 임포트 및 전처리를 위한 pandas / numpy library 임포트 import pandas a..

🫀 심혈관질환 데이터 분석 04. attribute 노이즈 확인

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🩸 저번 글에서는 유일하게 classify 되지 않은 혈압 attribute의 범위를 알아보고 이를 전처리하는 내용을 다루었습니다. 이번 글에서는 나머지 classify 된 attribute 중에서 noise 가 있는지 확인해 볼 것입니다. 🩸 원본 데이터 70000개의 object 중에서 Systolic / Diastolic Blood Presure Preprocessing 의 결과 남은 object가 64500개였습니다. 따라서 각 attribute의 class들의 개수를 합치면 각각 64500 이 나오는지 확인하는 방법으로 noisy data를 판단할 것입니다. 🩸 사실, 상당히 단순한 방법이..

🫀 심혈관질환 데이터 분석 03. 데이터 전처리

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🩸 저번 업로드 내용에서 데이터를 불러오고, 앞으로 프로젝트를 진행할 방향을 알아보았습니다. 이번 포스팅에서는 데이터를 전처리해서 사용할 만한 데이터로 만드는 과정을 다룰 생각입니다. 먼저 데이터가 어떻게 생겼었는지 한번 더 살펴봅시다!! 🫀 Data Info 🩸 데이터는 위와 같이 생겼습니다. 이 데이터가 어떤 정보들을 가지고 있는지 알아봅시다. cardio.info() >> RangeIndex: 70000 entries, 0 to 69999 Data columns (total 13 columns): # Column Non-Null Count Dtype --- ------ -------------..

🫀 심혈관질환 데이터 분석 02. 데이터 소개

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🩸 2022-1 학기에 진행한 데이터 마이닝 프로젝트를 요약할 생각입니다. 진행한 프로젝트는 Cardio-Vascular Disease Prediction 으로, 심혈관 질환을 예측하는 모델을 만드는 것이 프로젝트의 목적이었습니다. 🩸 이 프로젝트를 위해 캐글에서 해당 데이터를 가져왔으며, 링크는 바로 아래에 첨부해 두었습니다. 📝 Cardio Vascular Data Cardiovascular Disease dataset The dataset consists of 70 000 records of patients data, 11 features + target. www.kaggle.com 🩸 이번 ..

🫀 심혈관질환 데이터 분석 01. readme

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🏆 프로젝트 - Cardio Vascular Data Mining 💡 사회가 점점 발달함에 따라 우리의 삶이 윤택해지고, 수명이 늘어났습니다. 그럼에도 불구하고 안 좋은 습관 (담배, 술 등)으로 아직 우리는 많은 위험에 노출되어 있는데 그로 인한 큰 위험 중 하나가 심혈관 질환입니다. 이상징후 없이 갑자기 찾아오는 경우가 많은 심혈관 질환은 2019년 통계청의 사망 원인 통계 조사의 결 과 암 다음으로 높은 사망률을 가지는 원인으로 밝혀졌으며, 10만 명당 60.4명의 사망자를 만들 정도로 위험한 질병 입니다. 조용하지만 몹시 치명적이기에 원인을 알고 예방하는 것이 어떤 질병보다 중요합니다. 심혈..