데이터 분석 공부 105

🧠 EEG 뇌전증 분석 LSTM 02. 데이터 전처리

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🚩 원본 데이터를 인공지능 모델이 인식할 수 있는 방향으로 데이터 전처리를 해주었습니다. 🚩 이번 포스팅에서는 그 데이터 전처리 과정을 다루겠습니다. 🏆 1. 라이브러리 임포트 import torch import numpy as np import random import matplotlib.pyplot as plt import pandas as pd from torch import nn from torch.utils.data import Dataset, DataLoader import torch, gc gc.collect() torch.cuda.empty_cache() 🚩 GPU 사용 확인 devi..

🧠 EEG 뇌전증 분석 LSTM 01. readme

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🏆 LSTM을 사용한 EEG 데이터 딥러닝 프로젝트 EEG란 두피에 전극을 부착해 뇌의 미세한 전기활동을 증폭해 파동을 기록하는 검사입니다. 흔히 말하는 뇌파가 이 검사로부터 나오는 결과를 의미합니다. 뇌파검사는 현재 질병진단, 의학교육, 치료목적 등으로 연구 중입니다. 특히 ADHD, 자폐증, 우울증, 뇌종양 등 여러가지 정신질환과 중추신경계질환 진단에 도움을 줄 수 있습니다. 이러한 배경을 바탕으로 EEG 결과를 분석해 간단한 검사만으로 질환을 예측하는 모델을 만듦으로써 많은 사람들이 가질 수 있는 위험성을 사전에 방지하고자 합니다. 🏆 주제 선정 배경 📌 간질(epilepsy, 뇌전증)은 두통..

🚩 데이터마이닝 06. Document Frequency

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🧩 Distance Measure 마지막 포스팅입니다🙄. Document Frequency를 위한 Cosine Similarity 에 대해 알아봅시다. 🚩 1. Cosine Similarity of two vectors Document Frequency가 정확히 무엇인지 궁금하실 수 있을 텐데, 신문기사나 인터넷 기사를 가장 대표적인 예시로 생각하시면 될 것 같습니다. 예를 들어 연예기사에는 연예기사만의 자주 나오는 용어들이 있을 것이고, 스포츠 기사에는 그만의 자주 등장하는 용어들이 있을 것입니다. 서로 다른 두 기사들 간의 similarity를 계산해 유사성을 알아보는 것이 Cosine Simi..

🚩 데이터마이닝 05. Numerical Distance

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 저번 포스팅에서는 categorical data에 대한 distance measure를 알아보았습니다. 이번에는 Numerical Data를 위한 measure인 Minkowski Distance 를 배워보도록 하겠습니다. 🚩 1. Basic Minkowski Distance 🧩 Minkowski Distance 역시 두 object들 사이의 distance를 계산할 때 사용합니다. 예를 들면, 이와 같이 데이터의 $l$ 개의 모든 feature에 대해서 Basic Minkowski Distance는 아래와 같이 정의됩니다. $$d(i,j)\;=^p\sqrt{|x_{i1}-x_{j1}|^p+|x_{..

🚩 데이터마이닝 04. Categorical / Binary Distance

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🧩 저번 포스팅을 통해 object 간의 Distance Matrix를 만드는 법에 대해 알아보았습니다. 이제는 본격적으로 Distance measure에 대해 알아볼텐데, 이 measure들은 feature의 자료형에 따라 다르게 적용됩니다. 이번 포스팅에서는 categorical feature와 binary feature에 대한 measure에 대해 알아보도록 하겠습니다. 🚩 1. Nominal Categorical Attributes - 순서가 없는 범주형 데이터 🧩 Simple Matching 먼저 알아볼 방법은 simple matching 입니다. 이 방법을 통한 object 사이의 dis..

🚩 데이터마이닝 03. Distance Matrix

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🧩 이번 포스팅부터는 Distance measure에 대해 알아보겠습니다. 🚩 1. Similarity / Dissimilarity ▪ Similarity - 데이터들의 유사한 정도를 의미합니다. - 범위 : [0,1] - 0 : No Similarity - 1 : Completely Similar ▪ Dissimilarity - 데이터들의 다른 정도를 의미합니다 (= distance) - 범위 : [0,1] - 0 : No Distance - 1 : Completely Dissimilar 위의 두 개념은 서로 정반대의 의미를 가집니다. 가질 수 있는 범위는 같지만, 그 값이 의미하는 바는 정반대라..

🚩 데이터마이닝 02. QQ Plot

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🧩 이번 포스팅에서는 각 데이터의 상대적인 위치를 알 수 있는 몇가지 plot 방법에 대해 알아봅시다. 🚩 1. Quantile plot ▪ 각 object에 %를 부여함으로써 어느 위치에 존재하는지 알아내는 방법입니다. ▪ Q1 : 25%에 해당하는 object ▪ Q2 : 50%에 해당하는 object ▪ Q3 : 75%에 해당하는 object ▪ IQR : Q3 - Q1 ▪ 중간 50%의 데이터가 존재하는 범위입니다. ▪ IQR이 크면 중앙을 기준으로 데이터가 퍼져있음을 의미합니다. ▪ IQR이 작으면 중앙을 기준으로 데이터가 모여있음을 의미합니다. 🧩 수식 $$f_{i}=(i - 0.5)/N..

🚩 데이터마이닝 01. 소개

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🧩 데이터마이닝의 첫번째 포스팅입니다. 이번 포스팅에서는 데이터마이닝을 개념 위주로 살펴보고자 합니다. 🚩 1. 데이터마이닝이란?? ▪ 기존의 데이터에서 의미있는 패턴이나 지식을 얻는 것입니다. ▪ 다만 간단한 검색이나 정형화된 규칙을 기반으로 작업하는 것은 데이터마이닝이라고 보기 어렵습니다. 🚩 2. 데이터마이닝 순서 ▪ 데이터 결정 : time-series / sequence / text / graphs / social... ▪ 도출할 insight 결정 : classification / clustering / trend / deviation... ▪ 적용 기술 결정 : machinelearni..

🫀 심혈관질환 데이터 분석 15. 랜덤포레스트

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🩸 저번 글에서는 우리가 연관관계 분석을 통해 얻은 attribute set 5와 전처리만을 수행한 데이터, PCA 결과 만들어진 주성분 3가지 경우에 대해 결정 트리 모델을 만들었습니다. 이번 글에서는 결정 트리들이 모여 만들어지는 랜덤 포레스트를 통해 모델의 예측력을 시험해보도록 합시다. 🩸 만든 랜덤 포레스트에 대해 ROC Curve와 Confusion Matrix를 만들어 각 모델의 성능이 어떤지 비교해볼 생각입니다. 🫀 1. Attribute Set 5 : age, aphi, aplo, cholesterol, gluc, BMI, active 랜덤포레스트 📌 사용할 라이브러리는 아래와 같습니..