데이터 분석 공부 105

🫀 심혈관질환 데이터 분석 04. attribute 노이즈 확인

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🩸 저번 글에서는 유일하게 classify 되지 않은 혈압 attribute의 범위를 알아보고 이를 전처리하는 내용을 다루었습니다. 이번 글에서는 나머지 classify 된 attribute 중에서 noise 가 있는지 확인해 볼 것입니다. 🩸 원본 데이터 70000개의 object 중에서 Systolic / Diastolic Blood Presure Preprocessing 의 결과 남은 object가 64500개였습니다. 따라서 각 attribute의 class들의 개수를 합치면 각각 64500 이 나오는지 확인하는 방법으로 noisy data를 판단할 것입니다. 🩸 사실, 상당히 단순한 방법이..

🫀 심혈관질환 데이터 분석 03. 데이터 전처리

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🩸 저번 업로드 내용에서 데이터를 불러오고, 앞으로 프로젝트를 진행할 방향을 알아보았습니다. 이번 포스팅에서는 데이터를 전처리해서 사용할 만한 데이터로 만드는 과정을 다룰 생각입니다. 먼저 데이터가 어떻게 생겼었는지 한번 더 살펴봅시다!! 🫀 Data Info 🩸 데이터는 위와 같이 생겼습니다. 이 데이터가 어떤 정보들을 가지고 있는지 알아봅시다. cardio.info() >> RangeIndex: 70000 entries, 0 to 69999 Data columns (total 13 columns): # Column Non-Null Count Dtype --- ------ -------------..

🫀 심혈관질환 데이터 분석 02. 데이터 소개

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🩸 2022-1 학기에 진행한 데이터 마이닝 프로젝트를 요약할 생각입니다. 진행한 프로젝트는 Cardio-Vascular Disease Prediction 으로, 심혈관 질환을 예측하는 모델을 만드는 것이 프로젝트의 목적이었습니다. 🩸 이 프로젝트를 위해 캐글에서 해당 데이터를 가져왔으며, 링크는 바로 아래에 첨부해 두었습니다. 📝 Cardio Vascular Data Cardiovascular Disease dataset The dataset consists of 70 000 records of patients data, 11 features + target. www.kaggle.com 🩸 이번 ..

🫀 심혈관질환 데이터 분석 01. readme

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🏆 프로젝트 - Cardio Vascular Data Mining 💡 사회가 점점 발달함에 따라 우리의 삶이 윤택해지고, 수명이 늘어났습니다. 그럼에도 불구하고 안 좋은 습관 (담배, 술 등)으로 아직 우리는 많은 위험에 노출되어 있는데 그로 인한 큰 위험 중 하나가 심혈관 질환입니다. 이상징후 없이 갑자기 찾아오는 경우가 많은 심혈관 질환은 2019년 통계청의 사망 원인 통계 조사의 결 과 암 다음으로 높은 사망률을 가지는 원인으로 밝혀졌으며, 10만 명당 60.4명의 사망자를 만들 정도로 위험한 질병 입니다. 조용하지만 몹시 치명적이기에 원인을 알고 예방하는 것이 어떤 질병보다 중요합니다. 심혈..

📈 데이콘 KOSPI 주가 분석 04. FbProphet 예측

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 📝 목차 1. KOSPI 지수 예측해보기 1.1. 필요한 모듈 설치 1.2. 2019-2022년도 코스피 지수를 통한 예측 1.3. 2022년도 코스피 지수를 통한 예측 1.4. 두 예측 결과 비교 2. 결과분석 🏆 1. KOSPI 지수 예측해보기 📈 주가 예측에 주로 사용하는 FbProphet 모듈을 사용해서 코스피지수를 예측할 것입니다. 📈 이 모듈을 설치하고 사용하기가 정말 어려웠습니다. 이 모듈을 사용하실 분들은 코랩에서 실행하시는 게 좋을 것 같습니다!! 📈 FbProphet 모듈 사용을 위해 미리 설치해줘야 할 모듈이 상당히 많습니다. 설치를 먼저 하고, KOSPI 지수를 예측할 것입니다..

📈 데이콘 KOSPI 주가 분석 03. 이동평균선 시각화

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 📝 목차 1. Datetime Index 생성 2. 시각화 3. rolling window( ) 함수 : 이동평균선 3.1. 이동평균 데이터 생성 3.2. 상관관계 분석 3.3. 단기이평선, 장기이평선, 실지수 비교 3.4. 2019년 이후의 이동평균선 3.5. 2022년도의 이동평균선 📈 이번 포스팅에서는 KOSPI 데이터를 시각화하고 이동평균선을 바탕으로 향후 KOSPI 지수를 예측해 볼 것입니다. 🏆 1. Datetime Index 생성 # 코스피지수의 종가를 plotting fig = go.Figure() fig.add_trace(go.Line(x = kospi.index, y = kospi..

📈 데이콘 KOSPI 주가 분석 02. 데이터 확인

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 📝 목차 1. 데이터 불러오기 2. KOSPI 데이터 확인 🏆 1. 데이터 불러오기 📈 데이터는 데이콘에서 배포한 코드를 바탕으로 2022-09-13 까지의 코스피 지수를 추출하였습니다. 📈 데이터 설명 Close : 종가 Open : 시가 High : 고가 Low : 저가 Volume : 거래량 Change : 등락률(전일대비 등락률) -> 등락률 = (현재 종가 - 전일 종가) / 전일종가 📈 데이터 확인 # 코드 진행 중 불필요하게 출력되는 warning 무시 코드 import warnings warnings.filterwarnings('ignore') import pandas as pd im..

📈 데이콘 KOSPI 주가 분석 01. readme

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🏆 .rolling window를 사용한 KOSPI 지수 시각화 및 예측 (Plotly, fbprophet) 📈 2022.09.01 ~ 2022.10.04 기간에 데이콘에서 진행된 KOSPI 분석 및 시각화 대회에 참여한 기록입니다. 📈 Series Data를 다뤄본 경험은 있지만 금융 데이터는 이번 기회에 처음으로 다뤄보았습니다. 때문에 수상 목적 보다는 다양한 데이터를 사용해서 프로젝트를 진행하는 경험을 쌓아보기 위해 참가하였습니다. 본 공모전에 제출한 프로젝트 레포트 정성평가 결과 총 15개 팀 중에서 8등을 차지했습니다만, 총 5개 팀에 주어지는 수상에는 성공하지 못했습니다. 📈 하지만 앞서..

🐼 Pandas 07. pd.Categorical( ) 함수

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 📝 목차 1. pd.Categorical( ) 함수 2. 함수 문법 🐼 가끔씩 데이터 전처리를 하다 보면 sort_values( ) 함수나 sort_index( ) 함수를 써도 원하는대로 정렬이 이뤄지지 않는 경우가 있습니다. 이 상황은 apply( ) 함수로 임의의 함수를 데이터에 적용할 때 주로 생기는데, 이번 포스팅에서는 이를 해결하는 함수에 대해서 알아봅시다!! 1. pd.Categorical( ) 함수 🐼 앞선 포스팅에서 다룬 pd. to_datetime( ) 함수에 dt 메서드를 적용하면 년, 월, 일, 요일 등 시계열과 관련한 다양한 column 을 만들 수 있습니다. 하지만 이때 생기..

🐼 Pandas 06. pd.to_datetime( ) 함수

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 📝 목차 1. pd.to_datetime( ) 기본 모양 2. month.day 형태의 데이터가 있는 경우 3. year, month, day 가 각각의 column인 경우 🐼 이번 포스팅에서는 시계열 분석을 위해 알아야 할 시간 관련 함수 pd.to_datetime( ) 에 대해서 알아보겠습니다. 🐼 처리 기준은 year - month - day 의 형태입니다. 1. pd.to_datetime( ) 기본 모양 🐼 pd.to_datetime(series, format, errors) 처음 들어가는 인수인 series 는 데이터 처리 과정에서 datetime 형태로 바꾸려고 하는 열을 선언합니다. 두..