모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!!
앞서 object를 줄이는 Numerosity reduction를 다뤄보았습니다. 파라미터를 사용하거나 사용하지 않는 방법이 있다는 것으로 개념정리는 끝낼 수 있을 것 같습니다. 이제부터는 데이터의 attribute를 줄이는 Dimensionality Reduction에 대해 알아보도록 합시다.
🚩 1. Dimensionality Reduction 개념
데이터가 지나치게 복잡하면 정말 필요한 정보를 뽑아내기가 어렵습니다. 이러한 현상을 Curse of Dimensionality, 즉 dimension의 저주라고 합니다. dimension이 증가하면 오히려 데이터에 결측값이나 관련없는 값 등의 빈 공간이 많아져서 원하는 정보를 얻기가 어렵다는 의미입니다.
또한 dimension이 너무 많으면 정말 중요한 attribute의 중요도가 약화되면서 오히려 중요성이 가려질 수 있습니다. 이러한 이유로 dimension을 줄여줘야 하는데, 이를 줄이는 과정을 Dimensionality Reduction이라 합니다.
📌 Dimensionality Reduction
▪ random variables의 수를 줄여서 정말 중요한 variables를 얻는 것
📌 Dimensionality Reduction의 장점
▪ curse of dimensionality 를 줄일 수 있음
▪ 상관없는 attribute / noise 제거
▪ 데이터 마이닝에 드는 시간과 노력을 줄일 수 있음
▪ 보다 수월한 시각화 가능
🚩 2. Dimensionality Reduction Methology
위에서 Dimensionality Reduction의 개념과 장점을 알아보았습니다. 이름이 길어서 조금 어려워 보일 수 있지만 하는 이유는 지극히 단순하고, 반드시 필요한 일입니다. 하지만 그 간단한 이유를 위해 수행해야 하는 과정이 마냥 단순하다고 할 수 는 없을 것 같습니다. 대부분의 데이터를 흝어봐야 하는 것은 물론이고, 이 중에서도 어느 정도 관련이 있는 부분들에만 집중해야 하기 때문입니다. 이제는 이 복잡한 방법들에 뭐가 있을지 알아보도록 합시다🙃🙃.
1. Feature Selection
▪ attribute로부터 데이터를 잘 설명해주는 subset을 찾는 것
▪ 필요한 attribute만 골라내서 새로운 attribute의 집합을 만드는 것
▪ ex) Feature Subset Selection / Feature Creation
2. Feature Extraction
▪ high-dimensional space data를 fewer dimension으로 변환
▪ 여러 attribute를 가지고 새로운 attribute를 생성함
▪ ex) Principal Componenet Analysis (PCA)
이렇게 해서 Dimensionality Reduction의 개념을 간단하게 핵심만 살펴보았습니다. 보다 원할한 데이터 마이닝을 위한 데이터의 전처리 과정이라고 이해하시면 될 것 같습니다. 다음 포스팅부터는 Dimensionality Reduction의 방법들을 알아볼텐데, 첫번째로 Feature Selection에 대해 알아보도록 하겠습니다🏃♂️🏃♂️!!
💡위 포스팅은 한국외국어대학교 바이오메디컬공학부 고윤희 교수님의 [생명정보학을 위한 데이터마이닝] 강의를 바탕으로 합니다.
'📌 데이터마이닝 > 데이터 전처리' 카테고리의 다른 글
🚩 데이터마이닝 16. Reduction - 주성분분석(PCA) (0) | 2023.02.20 |
---|---|
🚩 데이터마이닝 15. Reduction - Subset Selection (0) | 2023.02.19 |
🚩 데이터마이닝 13. Reduction - Nonparametric (0) | 2023.02.17 |
🚩 데이터마이닝 12. Reduction - Nonlinear Regression (0) | 2023.02.17 |
🚩 데이터마이닝 11. Reduction - Linear Regression (0) | 2023.02.16 |