📌 데이터마이닝/데이터 전처리

🚩 데이터마이닝 14. Dimensionality Reduction

nyamin9 2023. 2. 19. 11:46

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 

 

 


앞서 object를 줄이는 Numerosity reduction를 다뤄보았습니다. 파라미터를 사용하거나  사용하지 않는 방법이 있다는 것으로 개념정리는 끝낼 수 있을 것 같습니다. 이제부터는 데이터의 attribute를 줄이는 Dimensionality Reduction에 대해 알아보도록 합시다.

 


🚩 1. Dimensionality Reduction 개념

 

 

데이터가 지나치게 복잡하면 정말 필요한 정보를 뽑아내기가 어렵습니다. 이러한 현상을 Curse of Dimensionality, 즉 dimension의 저주라고 합니다. dimension이 증가하면 오히려 데이터에 결측값이나 관련없는 값 등의 빈 공간이 많아져서 원하는 정보를 얻기가 어렵다는 의미입니다.

 

또한 dimension이 너무 많으면 정말 중요한 attribute의 중요도가 약화되면서 오히려 중요성이 가려질 수 있습니다. 이러한 이유로 dimension을 줄여줘야 하는데, 이를 줄이는 과정을 Dimensionality Reduction이라 합니다.

 

 

 

📌 Dimensionality Reduction

 

▪ random variables의 수를 줄여서 정말 중요한 variables를 얻는 것

 

 

📌 Dimensionality Reduction의 장점

 

 curse of dimensionality 를 줄일 수 있음

 

 상관없는 attribute / noise 제거

 

 데이터 마이닝에 드는 시간과 노력을 줄일 수 있음

 

 보다 수월한 시각화 가능

 

 


🚩 2. Dimensionality Reduction Methology

 

 

위에서 Dimensionality Reduction의 개념과 장점을 알아보았습니다. 이름이 길어서 조금 어려워 보일 수 있지만 하는 이유는 지극히 단순하고, 반드시 필요한 일입니다. 하지만 그 간단한 이유를 위해 수행해야 하는 과정이 마냥 단순하다고 할 수 는 없을 것 같습니다. 대부분의 데이터를 흝어봐야 하는 것은 물론이고, 이 중에서도 어느 정도 관련이 있는 부분들에만 집중해야 하기 때문입니다. 이제는 이 복잡한 방법들에 뭐가 있을지 알아보도록 합시다🙃🙃.

 

 

 

1. Feature Selection

 

 attribute로부터 데이터를 잘 설명해주는 subset을 찾는 것

 

 필요한 attribute만 골라내서 새로운 attribute의 집합을 만드는 것

 

 ex) Feature Subset Selection / Feature Creation

 

 

2. Feature Extraction

 

 high-dimensional space data를 fewer dimension으로 변환

 

 여러 attribute를 가지고 새로운 attribute를 생성함

 

 ex) Principal Componenet Analysis (PCA)

 

 


이렇게 해서 Dimensionality Reduction의 개념을 간단하게 핵심만 살펴보았습니다. 보다 원할한 데이터 마이닝을 위한 데이터의 전처리 과정이라고 이해하시면 될 것 같습니다. 다음 포스팅부터는 Dimensionality Reduction의 방법들을 알아볼텐데, 첫번째로 Feature Selection에 대해 알아보도록 하겠습니다🏃‍♂️🏃‍♂️!!

 


💡위 포스팅은 한국외국어대학교 바이오메디컬공학부 고윤희 교수님의 [생명정보학을 위한 데이터마이닝] 강의를 바탕으로 합니다.