📌 데이터마이닝/데이터 분포 확인

🚩 데이터마이닝 02. QQ Plot

nyamin9 2023. 2. 5. 10:37

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!!

 

 


 

🧩 이번 포스팅에서는 각 데이터의 상대적인 위치를 알 수 있는 몇가지 plot 방법에 대해 알아봅시다.

 

 


🚩 1. Quantile plot

 

▪ 각 object에 %를 부여함으로써 어느 위치에 존재하는지 알아내는 방법입니다.

 

  ▪ Q1 : 25%에 해당하는 object

 

  ▪ Q2 : 50%에 해당하는 object

 

  ▪ Q3 : 75%에 해당하는 object

 

  ▪ IQR : Q3 - Q1

 

    ▪ 중간 50%의 데이터가 존재하는 범위입니다.

 

    ▪ IQR이 크면 중앙을 기준으로 데이터가 퍼져있음을 의미합니다.

 

    ▪ IQR이 작으면 중앙을 기준으로 데이터가 모여있음을 의미합니다.

 

 


 

🧩 수식

 

$$f_{i}=(i - 0.5)/N$$

 

  ▪ 이때 i는 data의 인덱스입니다.

 

  ▪ ex1) 1 2 3 4 5 에 대해서 3의 f-value = (3-0.5) / 5 = 0.5  Q2

 

  ▪ ex2) 1 2 3 4 5 6 에 대해서 3의 f-value = (3-0.5) / 6 = 0.42...

 

  ▪ ex2에서 4의 f-value = (4-0.5) / 6 = 0.583...

 

  ▪ 따라서 ex2에서 Q2는 3과 4 사이 어딘가에 존재하며, 대략 3.5임을 추론할 수 있습니다.

 

 


🚩 2. Q-Q plot

 

▪ Quantile plot을 사용해서 서로 다른 두 집단이 어떤 차이가 있는지 비교합니다.

 

▪ 두 집단의 Q1, Q2, Q3 값에 대한 실제 value값을 비교하여 두 집단의 전체적인 차이를 파악할 수 있습니다.

 

QQ plot

 

model 1과 model 2를 좌표평면으로 옮긴 위의 Q-Q plot을 보면 같은 Q2에 대해서 각 모델이 서로 다른 값을 가지는 것을 볼 수 있습니다. 예를 들어, model 1과 model 2가 가격에 대한 데이터라면 model 2가 modle 1보다 비싼 가격이 좀 더 많을 거라고 생각할 수 있습니다.

 

 

물론 전체적인 개형을 한눈에 알아보고 대략적으로 비교하기에는 좋은 방법이지만, 세부적인 정보를 파악하기에는 그렇게 성능이 좋지는 않다고 생각합니다.

 

 


🚩 3. Scatter plot

 

▪ scttar plot은 산점도이며, 두 attribute 간의 관계를 파악하는 데에 유용합니다.

 

Scatter plot

 

 

 위 그래프들의 x축과 y축을 보면 아시겠지만, 각 object들의 두 attribute 데이터를 해당하는 좌표에 흩뿌려서 관계를 알아내는 시각화 방법입니다. 따라서 뿌려둔 점들의 대략적인 경향을 보면 두 attribute가 어떤 관계를 가지고 있을지를 짐작할 수도 있습니다.

 

 

correlated scatter plot

 

위의 두 scatter plot에서 왼쪽이 positive하게 correlated되었다고 할 수 있을 것이며, 반대로 오른쪽은 negative한 관계가 있다고 할 수 있을 것입니다. 하지만 항상 이렇게 눈에 띄는 연관관계가 있는 것은 아닌데, 이는 아래 plot에 나타냈습니다.

 

 

non-correlated scatter plot

 

 

🧩 scatter plot을 통해 두 attribute가 서로 어떤 관계를 가지는 경우와 별 관계가 없는 경우를 살펴보았습니다. 어느 정도 예측하실 수 있겠지만, 실제 데이터에서 눈에 띄는 연관관계나 선형관계를 보여주는 경우는 거의 없습니다. 그래서 이와 관련된 여러가지 metric이 만들어진 것인데, 이와 관련해서는 Data preprocessing에서 다루겠습니다🙂.

 

 


🧩 이렇게 해서 QQ plot과 scatter plot을 다루었습니다. Quantile plot을 좀 더 자세히 살펴보기 위해서는 통계학적인 방법을 고려해줘야 하지만, 데이터마이닝을 공부하는 지금은 개념과 사용법을 아는 것이 더 중요하다고 생각해서 깊게 다루지는 않았습니다. 일단 전체적으로 한번 보고 나서, 세부적인 부분을 잡아나갈 때 다뤄보도록 하겠습니다😊.

 

🧩 저번 포스팅과 이번 포스팅을 통해 데이터마이닝을 하기 위한 기초를 아주 살짝이나마 배운 것 같습니다. 다음 포스팅부터는 Distance measure를 배워시다🏃‍♂️🏃‍♂️.

 


💡위 포스팅은 한국외국어대학교 바이오메디컬공학부 고윤희 교수님의 [생명정보학을 위한 데이터마이닝] 강의를 바탕으로 합니다.