📌 데이터마이닝/데이터 분포 확인

🚩 데이터마이닝 03. Distance Matrix

nyamin9 2023. 2. 6. 09:31

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!!

 

 


 

🧩 이번 포스팅부터는 Distance measure에 대해 알아보겠습니다.

 


🚩 1. Similarity / Dissimilarity

 

 

▪ Similarity

 

  - 데이터들의 유사한 정도를 의미합니다.

 

  - 범위 : [0,1]

 

  - 0 : No Similarity

 

  - 1 : Completely Similar

 

 

 Dissimilarity

 

  - 데이터들의 다른 정도를 의미합니다 (= distance)

 

  - 범위 : [0,1]

 

  - 0 : No Distance

 

  - 1 : Completely Dissimilar

 

 

위의 두 개념은 서로 정반대의 의미를 가집니다. 가질 수 있는 범위는 같지만, 그 값이 의미하는 바는 정반대라고 이해하면 될 듯 합니다. 이 두 개념을 먼저 다루는 이유는, 앞으로 설명할 내용들에서 계속해서 등장하기 때문입니다. 두 개념을 통합해 Proximity 라고 합니다.

 

 


🚩 2. Dissimilarity Matrix

 

🧩 이번에는 두 object 들 사이의 Distance를 나타내는 Matrix인 Dissimilarity Matrix에 대해 알아볼 것입니다. 이해를 위해 사용할 Data Set의 구조를 좀 더 자세히 나타내겠습니다. 이 구조는 앞으로  Data Matrix  라고 부를 것입니다.

 

 


 

📝Data Matrix

 

 

$$feature_1  /  feature_2  /  feature_3  /  ...  /  feature_m$$

 

 

d 1 x11 x12 x13 ... x1m
d 2 x21 x22 x23 ... x2m
... ... ... ... ... ...
d n xn1 xn2 xn3 ... xnm

 

 

 위의 Data Matrix에서, 구조는 m개의 feature로 표현되는 n개의 object로 이루어집니다. 즉, (n x m) matrix 입니다.

 

 이제는 Dissimilarity Matrix를 만들 생각인데, 이를 위해 비교하고 싶은 feature를 골라오겠습니다. 만들어지는 구조는 아래 그림과 같습니다.

 

 

 

📝Dissimilarity Matrix

 

 

$$d_1  /  d_2  /  d_3  /  ...  /  d_n$$

 

 

d 1 d(1,1) d(1,2) d(1,3) ... d(1,n)
d 2 d(2,1) d(2,2) d(2,3) ... d(2,n)
d 3 d(3,1) d(3,2) d(3,3) ... d(3,n)
... ... ... ... ... ...
d n d(n,1) d(n,2) d(n,3) ... d(n,n)

 

 

 각각의 $d(i,j)$는 하나의 feature에 대해 정해둔 Distance Measure를 통해 구한 $objec_i$와 $object_j$의 거리를 나타냅니다. 이를 통합해서 Matrix 형태로 표현하며, 자기 자신과의 distance는 당연히 0이고 $d(1,2)$와 $d(2,1)$은 서로 같은 object들 간의 비교이기에 같은 값을 가집니다. 따라서,  Symmetric(대칭성)  에 의해 이 Matrix는 아래와 같이 표현하기도 합니다.

 

 

$$d_1  /  d_2  /  d_3  /  ...  /  d_n$$

 

d 1 0        
d 2 d(2,1) 0      
d 3 d(3,1) d(3,2) 0    
... ... ... ... 0  
d n d(n,1) d(n,2) d(n,3) ... 0

 

 

 일반적으로 distance를 구하기 위한 measure는 미리 정해주는데, 이 measure들은 variables의 자료형에 따라 선택하는 기준이 달라집니다. 이 내용들은 다음 포스팅에서 소개하겠습니다!!

 

 


🧩 이렇게 해서 앞으로 Distance들을 정리할 Matrix의 생성을 알아보았습니다. 다음 포스팅부터는 이를 위한 Distance Measure를 알차게 배워보도록 합시다😀😀.

 


💡위 포스팅은 한국외국어대학교 바이오메디컬공학부 고윤희 교수님의 [생명정보학을 위한 데이터마이닝] 강의를 바탕으로 합니다.