Dimensionality Reduction 5

🚩 데이터마이닝 17. Reduction - 주성분분석 구현

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 이번 글에서는 프로젝트 내용을 통해 PCA, 즉 주성분 분석을 통한 attribute 간의 연관관계를 살펴보겠습니다. 🚩 1. PCA 코드 구현 sklearn.decomposition 모듈의 PCA 라이브러리 를 사용했고, 시각화를 위해 plotly 공식 홈페이지를 참고했습니다. 🚩 1.1. 데이터 확인 위 데이터를 가지고 PCA를 진행하겠습니다. 🚩 1.2. PCA 구현 및 시각화_Princiapl Component 1~3 📌 먼저 코드부터 확인해보겠습니다🙄. # target과 feature data 설정 # cardio가 0인 object는 'N' 으로 변환 # cardio가 1인 object는..

🚩 데이터마이닝 16. Reduction - 주성분분석(PCA)

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 이번 포스팅에서는 Dimensionality Reduction 중의 Principal Component Analysis, 주성분분석에 대해서 알아보도록 합시다🙃. 🚩1. PCA - Dimensionality Reduction 데이터마이닝 분야에 조금이라도 관심이 있거나, 관련된 서적을 읽어보신 분들은 PCA 라는 말을 이래저래 많이 접해보셨을 것입니다. 오늘 알아볼 Principal Component Analysis를 줄여서 부른 게 바로 PCA 분석입니다. 그만큼 유명하고, 데이터 분야에서는 떼어놓을 수 없을 만큼 중요하지만 여러 데이터마이닝 프레젠테이션을 봤을 때 PCA가 무엇인지, 왜 하는지에..

🚩 데이터마이닝 15. Reduction - Subset Selection

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 이번 포스팅부터는 Dimensionality reduction에 대해 자세히 알아볼 것입니다. 먼저 subset selection에 대해서 알아보도록 합시다. 🚩 1. Attribute Subset Selection 개념 이번 포스팅에서는 subset selection에 대해서 알아볼 텐데, 그러면 이게 대체 무엇인가부터 대략적으로 알고가는 편이 좋을 것 같습니다. 이름에서 느껴질 수 있겠지만, 데이터의 attribute에서 몇가지를 추출해서 그 attribute들로 이뤄진 subset, 즉 부분집합을 찾겠다는 의미입니다. 이때 선택하는 attribute들은 데이터를 가장 잘 설명할 수 있어야 하며..

🚩 데이터마이닝 14. Dimensionality Reduction

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 앞서 object를 줄이는 Numerosity reduction를 다뤄보았습니다. 파라미터를 사용하거나 사용하지 않는 방법이 있다는 것으로 개념정리는 끝낼 수 있을 것 같습니다. 이제부터는 데이터의 attribute를 줄이는 Dimensionality Reduction에 대해 알아보도록 합시다. 🚩 1. Dimensionality Reduction 개념 데이터가 지나치게 복잡하면 정말 필요한 정보를 뽑아내기가 어렵습니다. 이러한 현상을 Curse of Dimensionality, 즉 dimension의 저주라고 합니다. dimension이 증가하면 오히려 데이터에 결측값이나 관련없는 값 등의 빈 공..

🚩 데이터마이닝 10. Data Reduction

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 저번 포스팅까지 해서 Data Integration을 다뤘습니다. 이제부터는 데이터 전처리에서 가장 중요한 Data Reduction에 대해 알아보도록 합시다. 먼저, Data Reduction을 하는 이유와 중요한 이유. 그리고 어떤 종류가 있는지를 가볍게 다루겠습니다. 🚩 1. Data Reduction이란?? 실제로 저희가 다룰 데이터에는 불필요한 정보들도 많이 포함되어 있고, 이미 가지고 있는 값을 중복해서 가지고 있는 경우도 있습니다. 또한 비슷한 의미를 가지고 있어 합칠 수 있지만 원본 데이터에서는 여러 개의 attribute로 나눠져 있는 경우도 있습니다. 이렇게 복잡한 데이터를 분석하..