Dissimilarity 3

🚩 데이터마이닝 06. Document Frequency

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🧩 Distance Measure 마지막 포스팅입니다🙄. Document Frequency를 위한 Cosine Similarity 에 대해 알아봅시다. 🚩 1. Cosine Similarity of two vectors Document Frequency가 정확히 무엇인지 궁금하실 수 있을 텐데, 신문기사나 인터넷 기사를 가장 대표적인 예시로 생각하시면 될 것 같습니다. 예를 들어 연예기사에는 연예기사만의 자주 나오는 용어들이 있을 것이고, 스포츠 기사에는 그만의 자주 등장하는 용어들이 있을 것입니다. 서로 다른 두 기사들 간의 similarity를 계산해 유사성을 알아보는 것이 Cosine Simi..

🚩 데이터마이닝 05. Numerical Distance

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 저번 포스팅에서는 categorical data에 대한 distance measure를 알아보았습니다. 이번에는 Numerical Data를 위한 measure인 Minkowski Distance 를 배워보도록 하겠습니다. 🚩 1. Basic Minkowski Distance 🧩 Minkowski Distance 역시 두 object들 사이의 distance를 계산할 때 사용합니다. 예를 들면, 이와 같이 데이터의 $l$ 개의 모든 feature에 대해서 Basic Minkowski Distance는 아래와 같이 정의됩니다. $$d(i,j)\;=^p\sqrt{|x_{i1}-x_{j1}|^p+|x_{..

🚩 데이터마이닝 03. Distance Matrix

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🧩 이번 포스팅부터는 Distance measure에 대해 알아보겠습니다. 🚩 1. Similarity / Dissimilarity ▪ Similarity - 데이터들의 유사한 정도를 의미합니다. - 범위 : [0,1] - 0 : No Similarity - 1 : Completely Similar ▪ Dissimilarity - 데이터들의 다른 정도를 의미합니다 (= distance) - 범위 : [0,1] - 0 : No Distance - 1 : Completely Dissimilar 위의 두 개념은 서로 정반대의 의미를 가집니다. 가질 수 있는 범위는 같지만, 그 값이 의미하는 바는 정반대라..