모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!!
저번 포스팅에서는 categorical data에 대한 distance measure를 알아보았습니다. 이번에는 Numerical Data를 위한 measure인 Minkowski Distance 를 배워보도록 하겠습니다.
🚩 1. Basic Minkowski Distance
🧩 Minkowski Distance 역시 두 object들 사이의 distance를 계산할 때 사용합니다. 예를 들면,
이와 같이 데이터의 $l$ 개의 모든 feature에 대해서 Basic Minkowski Distance는 아래와 같이 정의됩니다.
$$d(i,j)\;=^p\sqrt{|x_{i1}-x_{j1}|^p+|x_{i2}-x_{j2}|^p+...+|x_{il}-x_{jl}|^p}$$
그리고 이떄의 p값에 대해서 Minkowski Distance를 $L-p\;norm$ 이라 합니다.
Minkowski Distance 는 몇가지 성질을 가지고 있습니다.
▪ $d(i,j)>0\;\;(when\;\;i≠j)$
▪ $d(i,i) = 0\;\;\,(positivity)$
▪ $d(i,j) = d(j,i)\;\;(symmetry)$
▪ $d(i,j) ≦ d(i,k) + d(k,j)\;\;(Triangle\;Inequality)$
맨 마지막 성질이 이해가 안 되실 수 있는데, 이는 $i$, $j$, $k$ 세 점이 삼각형을 이룰 때라고 생각하시면 됩니다.
즉, 한 변의 길이가 두변의 길이의 합보다 작아야 한다는 삼각형의 생성조건에 의한 성질입니다.
🧩 앞서 언급했듯 Minkowski distance는 $p$ 값에 의해 수식과 이름이 달라집니다. 이제 각 경우에 대해 알아보도록 하겠습니다.
🚩 2. L-p Norm
▪ p = 1 인 경우
▪ L1 Norm, Manhattan Distance
▪ 단순 거리의 크기의 합
$$d(i,j)\;=|x_{i1}-x_{j1}|+|x_{i2}-x_{j2}|+...+|x_{il}-x_{jl}|$$
▪ p = 2 인 경우
▪ L2 Norm, Euclidean Distance
▪ 흔히 수학에서 접할 수 있는 두 점 사이의 거리 공식
$$d(i,j)\;=\sqrt{|x_{i1}-x_{j1}|^2+|x_{i2}-x_{j2}|^2+...+|x_{il}-x_{jl}|^2}$$
▪ p → ∞ 인 경우
▪ Lmax Norm, L∞ Norm, Supremum Distance
▪ 거리의 크기들 중 최댓값을 선택
$$d(i,j)\;=max(|x_{i1}-x_{j1}|,\,|x_{i2}-x_{j2}|,\,...,\,|x_{il}-x_{jl}|)$$
🧩 Mimkowski Distance 결과도 Distance Matrix로 만들 수 있습니다. 링크를 첨부해 두었으니 참고하셔도 좋을 것 같습니다😊.
🧩 이번 포스팅에서는 Numerical Attribute의 distance measure를 다루었습니다. 수식에 루트도 들어가 있어서 약간 귀찮아보일 수 있지만, 그 방식은 생각보다 간단하기 때문에 직접 구현해 보는 것도 어렵지 않을 것이라 생각합니다. 다음 포스팅에서는 Document frequency를 위한 distance measure를 배워봅시다🏃♂️🏃♂️.
💡위 포스팅은 한국외국어대학교 바이오메디컬공학부 고윤희 교수님의 [생명정보학을 위한 데이터마이닝] 강의를 바탕으로 합니다.
'📌 데이터마이닝 > 데이터 분포 확인' 카테고리의 다른 글
🚩 데이터마이닝 06. Document Frequency (0) | 2023.02.07 |
---|---|
🚩 데이터마이닝 04. Categorical / Binary Distance (0) | 2023.02.06 |
🚩 데이터마이닝 03. Distance Matrix (2) | 2023.02.06 |
🚩 데이터마이닝 02. QQ Plot (0) | 2023.02.05 |
🚩 데이터마이닝 01. 소개 (0) | 2023.02.05 |