모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!!
🧩 이번 포스팅부터는 Distance measure에 대해 알아보겠습니다.
🚩 1. Similarity / Dissimilarity
▪ Similarity
- 데이터들의 유사한 정도를 의미합니다.
- 범위 : [0,1]
- 0 : No Similarity
- 1 : Completely Similar
▪ Dissimilarity
- 데이터들의 다른 정도를 의미합니다 (= distance)
- 범위 : [0,1]
- 0 : No Distance
- 1 : Completely Dissimilar
위의 두 개념은 서로 정반대의 의미를 가집니다. 가질 수 있는 범위는 같지만, 그 값이 의미하는 바는 정반대라고 이해하면 될 듯 합니다. 이 두 개념을 먼저 다루는 이유는, 앞으로 설명할 내용들에서 계속해서 등장하기 때문입니다. 두 개념을 통합해 Proximity 라고 합니다.
🚩 2. Dissimilarity Matrix
🧩 이번에는 두 object 들 사이의 Distance를 나타내는 Matrix인 Dissimilarity Matrix에 대해 알아볼 것입니다. 이해를 위해 사용할 Data Set의 구조를 좀 더 자세히 나타내겠습니다. 이 구조는 앞으로 Data Matrix 라고 부를 것입니다.
📝Data Matrix
$$feature_1 / feature_2 / feature_3 / ... / feature_m$$
d 1 | x11 | x12 | x13 | ... | x1m |
d 2 | x21 | x22 | x23 | ... | x2m |
... | ... | ... | ... | ... | ... |
d n | xn1 | xn2 | xn3 | ... | xnm |
위의 Data Matrix에서, 구조는 m개의 feature로 표현되는 n개의 object로 이루어집니다. 즉, (n x m) matrix 입니다.
이제는 Dissimilarity Matrix를 만들 생각인데, 이를 위해 비교하고 싶은 feature를 골라오겠습니다. 만들어지는 구조는 아래 그림과 같습니다.
📝Dissimilarity Matrix
$$d_1 / d_2 / d_3 / ... / d_n$$
d 1 | d(1,1) | d(1,2) | d(1,3) | ... | d(1,n) |
d 2 | d(2,1) | d(2,2) | d(2,3) | ... | d(2,n) |
d 3 | d(3,1) | d(3,2) | d(3,3) | ... | d(3,n) |
... | ... | ... | ... | ... | ... |
d n | d(n,1) | d(n,2) | d(n,3) | ... | d(n,n) |
각각의 $d(i,j)$는 하나의 feature에 대해 정해둔 Distance Measure를 통해 구한 $objec_i$와 $object_j$의 거리를 나타냅니다. 이를 통합해서 Matrix 형태로 표현하며, 자기 자신과의 distance는 당연히 0이고 $d(1,2)$와 $d(2,1)$은 서로 같은 object들 간의 비교이기에 같은 값을 가집니다. 따라서, Symmetric(대칭성) 에 의해 이 Matrix는 아래와 같이 표현하기도 합니다.
$$d_1 / d_2 / d_3 / ... / d_n$$
d 1 | 0 | ||||
d 2 | d(2,1) | 0 | |||
d 3 | d(3,1) | d(3,2) | 0 | ||
... | ... | ... | ... | 0 | |
d n | d(n,1) | d(n,2) | d(n,3) | ... | 0 |
일반적으로 distance를 구하기 위한 measure는 미리 정해주는데, 이 measure들은 variables의 자료형에 따라 선택하는 기준이 달라집니다. 이 내용들은 다음 포스팅에서 소개하겠습니다!!
🧩 이렇게 해서 앞으로 Distance들을 정리할 Matrix의 생성을 알아보았습니다. 다음 포스팅부터는 이를 위한 Distance Measure를 알차게 배워보도록 합시다😀😀.
💡위 포스팅은 한국외국어대학교 바이오메디컬공학부 고윤희 교수님의 [생명정보학을 위한 데이터마이닝] 강의를 바탕으로 합니다.
'📌 데이터마이닝 > 데이터 분포 확인' 카테고리의 다른 글
🚩 데이터마이닝 06. Document Frequency (0) | 2023.02.07 |
---|---|
🚩 데이터마이닝 05. Numerical Distance (0) | 2023.02.07 |
🚩 데이터마이닝 04. Categorical / Binary Distance (0) | 2023.02.06 |
🚩 데이터마이닝 02. QQ Plot (0) | 2023.02.05 |
🚩 데이터마이닝 01. 소개 (0) | 2023.02.05 |