데이터 분석 공부 105

🚩 데이터마이닝 13. Reduction - Nonparametric

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 이전 두 포스팅을 통해 데이터의 object를 줄이는 Numerosity reduction 중 파라미터를 사용하는 방법을 살펴보았습니다. 이번에는 파라미터를 사용하지 않는 방법을 배워보도록 하겠습니다. 🚩 1. Nonparametric Method 1 : Histogram Analysis 먼저 Histogram Analysis에 대해서 알아봅시다. 히스토그램이라면 가장 먼저 떠올리는 것이 중고등학생 때 배운 히스토그램 그래프일 것입니다. 변량을 각 계급으로 나눠 도수를 표현하는 것을 히스토그램이라고 배우셨을 텐데, Histogram Analysis도 똑같습니다!! 앞으로의 설명을 위해 각 계급을 b..

🚩 데이터마이닝 12. Reduction - Nonlinear Regression

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 저번 포스팅에서는 Linear Regression에 대해 배워보았습니다. 이번에는 Parametric Reduction의 다른 방법인 Nonlinear Regression에 대해 알아보도록 합시다. 🚩 1. Nonlinear Regression 이란?? Parametric Reduction 에는 linear regression과 nonlinear regression 이 있습니다. Linear Regression은 데이터의 변수가 선형적인 관계를 가지고 있을 것이라는 assumption 하에 reduction이 진행됩니다. 반면 Nonlinear Regression은 데이터가 비선형적인 관계를 가지는..

🚩 데이터마이닝 11. Reduction - Linear Regression

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 저번 포스팅을 통해 데이터의 dimension을 줄이는 Data Reduction의 종류에 대해 알아보았습니다. 이번에는 object를 줄이는 방법 중 하나인 Linear Regression에 대해서 알아보도록 합시다. 🚩 1. Parametric Data Reduction : Regression Analysis 데이터의 object를 줄이는 Numerosity Reduction에는 파라미터를 사용하는 방법과 사용하지 않는 방법이 있습니다. 알아볼 Linear Regression은 파라미터를 사용하는 방법이기에 Parametric Method가 무엇인지부터 간단히 알아봅시다. 그림을 보면 이해하시기..

🚩 데이터마이닝 10. Data Reduction

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 저번 포스팅까지 해서 Data Integration을 다뤘습니다. 이제부터는 데이터 전처리에서 가장 중요한 Data Reduction에 대해 알아보도록 합시다. 먼저, Data Reduction을 하는 이유와 중요한 이유. 그리고 어떤 종류가 있는지를 가볍게 다루겠습니다. 🚩 1. Data Reduction이란?? 실제로 저희가 다룰 데이터에는 불필요한 정보들도 많이 포함되어 있고, 이미 가지고 있는 값을 중복해서 가지고 있는 경우도 있습니다. 또한 비슷한 의미를 가지고 있어 합칠 수 있지만 원본 데이터에서는 여러 개의 attribute로 나눠져 있는 경우도 있습니다. 이렇게 복잡한 데이터를 분석하..

🚩 데이터마이닝 09. Integration-분산/상관관계분석

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 저번 포스팅에서는 범주형 데이터에 대한 data integration 방법인 chi-square test에 대해 알아보았습니다. 이번 포스팅에서는 Numerical Data, 즉 수치형 데이터에 대한 방법들을 알아보도록 합시다. 🧩 이 방법들은 아래와 같이 정리할 수 있습니다. - 분산분석 (Variance) - 공분산 분석 (Covariance) - 상관관계 분석 (Correlation) variance measure부터 차근차근 알아보도록 합시다. 🚩 1. Variance for single numerical data variable 분산, 즉 variance를 다루기 전에 평균과 관련된 기초적..

🚩 데이터마이닝 08. Integration-카이제곱검정

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🧩 저번 포스팅에서 Data Cleaning에 대해서 간단하게 알아보았습니다. 이제는 본격적인 전처리를 위한 방법들을 배워나갈 것인데, 먼저 categorical data 의 integration을 위한 chi-square test를 알아보도록 합시다. 들어보신 분들은 아마 카이제곱검정 이 더 익숙하실 것 같습니다. 🚩 1. Data Integration 기업이나 큰 데이터베이스에서 Data Integration은 여러 출처의 데이터를 일관된 저장소로 통합하거나 데이터베이스를 통합하여 각각의 데이터를 워래의 범위보다 축소된 범위에서 한번에 다루기 위한 방법으로 정의됩니다. 일반적으로는 데이터의 at..

🚩 데이터마이닝 07. Data Cleaning

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🧩 이번 포스팅부터는 Data Preprocessing, 즉 데이터 전처리에 대해서 다룰 생각입니다. 어쩌면 정확한 데이터 분석이나 마이닝을 위해서 가장 중요한 부분이라고도 할 수 있기 때문에, 자세히 알아보도록 하겠습니다. 🧩 Data Preprocessing은 아래와 같은 방법들로 구성됩니다. ▪ Data Cleaning ▪ Data Integration ▪ Data Reduction / Transformation ▪ Dimensinality Reduction 👉 전처리는 데이터의 상황에 맞는 여러가지 measure들을 가지고 있습니다. 🧩 이번 포스팅에서는 첫번째 방법인 Data Cleanin..

🧠 EEG 뇌전증 분석 LSTM 05. Inference

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 새로운 데이터에 학습시킨 모델을 적용하기 위해서는 모델이 학습한 파라미터들을 기억하고 있어야 합니다. 이렇게 기억한 파라미터를 모델에 적용시켜 새로운 데이터의 calss를 예측하는 과정을 inference 라고 하는데, 이번 포스팅에서는 파이토치에서 이를 구현하는 과정을 다루도록 하겠습니다. 🏆 01. Inference를 위한 파라미터 파일 생성 🚩 파이토치 홈페이지의 공식 튜토리얼을 참고했습니다. 🚩 파이토치 Inference 튜토리얼 # 파라미터 저장 경로 설정 PATH_param = "C:\\Users\\mingu\\Desktop\\state_dict_model.pt" # 파라미터 저장 tor..

🧠 EEG 뇌전증 분석 LSTM 04. 결과 해석

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🚩 학습된 모델의 성능을 바탕으로 confusion matrix를 그리고, 결과를 해석해보고자 합니다. 🏆Confusion Matrix 해석 from sklearn.metrics import roc_curve, auc from sklearn.metrics import ( classification_report, confusion_matrix, ConfusionMatrixDisplay ) from enum import Enum input_size = 15 y_hat_vd = np.array([]) # test set의 feature만 정규화. np.array 형태. dlist = test_x_st y..

🧠 EEG 뇌전증 분석 LSTM 03. 모델 정의 학습

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🚩 저번 포스팅에서는 데이터를 전처리하는 과정을 다루었습니다. 예측할 label은 0,1,2 의 3가지 종류입니다. 🚩 이번 포스팅에서는 필요한 부분을 가져오는 data_iter 함수 와 LSTM 모델 을 정의하고 학습하는 부분까지 다루겠습니다. 만들고자 하는 모델은 사용자의 EEG sequence를 넣었을때 그 사람이 어떤 상태(간질발작-0, 종양-1, 건강-2)에 놓여있는지를 파악하는 모델입니다. 측정을 위한 전극의 위치나 개수를 고려하여 이미 한번 셔플한 데이터였지만, 보다 랜덤한 표본을 통해 모델을 학습시키기 위해서 임의의 랜덤한 부분에서 120개의 신호를 가져올 수 있도록 data_iter..