📌 데이터마이닝/데이터 분포 확인

🚩 데이터마이닝 05. Numerical Distance

nyamin9 2023. 2. 7. 10:22

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!!

 

 


 

저번 포스팅에서는 categorical data에 대한 distance measure를 알아보았습니다. 이번에는 Numerical Data를 위한 measure인  Minkowski Distance 를 배워보도록 하겠습니다.

 


🚩 1. Basic Minkowski Distance

 

 

🧩 Minkowski Distance 역시 두 object들 사이의 distance를 계산할 때 사용합니다. 예를 들면,

 

 

 

 

이와 같이 데이터의 $l$ 개의 모든 feature에 대해서 Basic Minkowski Distance는 아래와 같이 정의됩니다.

 

$$d(i,j)\;=^p\sqrt{|x_{i1}-x_{j1}|^p+|x_{i2}-x_{j2}|^p+...+|x_{il}-x_{jl}|^p}$$

 

 

그리고 이떄의 p값에 대해서 Minkowski Distance를 $L-p\;norm$ 이라 합니다.

 

 

Minkowski Distance 는 몇가지 성질을 가지고 있습니다.

 

  ▪ $d(i,j)>0\;\;(when\;\;i≠j)$

 

   $d(i,i) = 0\;\;\,(positivity)$

 

   $d(i,j) = d(j,i)\;\;(symmetry)$

 

   $d(i,j) ≦ d(i,k) + d(k,j)\;\;(Triangle\;Inequality)$

 

맨 마지막 성질이 이해가 안 되실 수 있는데, 이는 $i$, $j$, $k$ 세 점이 삼각형을 이룰 때라고 생각하시면 됩니다.

즉, 한 변의 길이가 두변의 길이의 합보다 작아야 한다는 삼각형의 생성조건에 의한 성질입니다.

 

 

🧩서 언급했듯 Minkowski distance는 $p$ 값에 의해 수식과 이름이 달라집니다. 이제 각 경우에 대해 알아보도록 하겠습니다.

 

 

 


🚩 2. L-p Norm

 

 p = 1 인 경우

 

    ▪ L1 Norm,  Manhattan Distance 

 

    ▪ 단순 거리의 크기의 합

 

$$d(i,j)\;=|x_{i1}-x_{j1}|+|x_{i2}-x_{j2}|+...+|x_{il}-x_{jl}|$$

 

 

 

 p = 2 인 경우

 

    ▪ L2 Norm,  Euclidean Distance 

 

    ▪ 흔히 수학에서 접할 수 있는 두 점 사이의 거리 공식

 

$$d(i,j)\;=\sqrt{|x_{i1}-x_{j1}|^2+|x_{i2}-x_{j2}|^2+...+|x_{il}-x_{jl}|^2}$$

 

 

 

 p  ∞ 인 경우

 

    ▪ Lmax Norm, L∞ Norm,  Supremum Distance 

 

    ▪ 거리의 크기들 중 최댓값을 선택

 

 

$$d(i,j)\;=max(|x_{i1}-x_{j1}|,\,|x_{i2}-x_{j2}|,\,...,\,|x_{il}-x_{jl}|)$$

 

 

 

🧩 Mimkowski Distance 결과도 Distance Matrix로 만들 수 있습니다. 링크를 첨부해 두었으니 참고하셔도 좋을 것 같습니다😊.

 

 

📝 Distance Matrix 관련 포스팅.

 

🚩 데이터마이닝 03. Distance Matrix

🧩 이번 포스팅부터는 Distance measure에 대해 알아보겠습니다. 🚩 1. Similarity / Dissimilarity ▪ Similarity - 데이터들의 유사한 정도를 의미합니다. - 범위 : [0,1] - 0 : No Similarity - 1 : Completely Similar ▪ Diss

nyamin9-data.tistory.com

 

 


 

🧩 이번 포스팅에서는 Numerical Attribute의 distance measure를 다루었습니다. 수식에 루트도 들어가 있어서 약간 귀찮아보일 수 있지만, 그 방식은 생각보다 간단하기 때문에 직접 구현해 보는 것도 어렵지 않을 것이라 생각합니다. 다음 포스팅에서는 Document frequency를 위한 distance measure를 배워봅시다🏃‍♂️🏃‍♂️.

 

 


 

💡위 포스팅은 한국외국어대학교 바이오메디컬공학부 고윤희 교수님의 [생명정보학을 위한 데이터마이닝] 강의를 바탕으로 합니다.