📌 데이터마이닝 20

🚩 데이터마이닝 10. Data Reduction

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 저번 포스팅까지 해서 Data Integration을 다뤘습니다. 이제부터는 데이터 전처리에서 가장 중요한 Data Reduction에 대해 알아보도록 합시다. 먼저, Data Reduction을 하는 이유와 중요한 이유. 그리고 어떤 종류가 있는지를 가볍게 다루겠습니다. 🚩 1. Data Reduction이란?? 실제로 저희가 다룰 데이터에는 불필요한 정보들도 많이 포함되어 있고, 이미 가지고 있는 값을 중복해서 가지고 있는 경우도 있습니다. 또한 비슷한 의미를 가지고 있어 합칠 수 있지만 원본 데이터에서는 여러 개의 attribute로 나눠져 있는 경우도 있습니다. 이렇게 복잡한 데이터를 분석하..

🚩 데이터마이닝 09. Integration-분산/상관관계분석

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 저번 포스팅에서는 범주형 데이터에 대한 data integration 방법인 chi-square test에 대해 알아보았습니다. 이번 포스팅에서는 Numerical Data, 즉 수치형 데이터에 대한 방법들을 알아보도록 합시다. 🧩 이 방법들은 아래와 같이 정리할 수 있습니다. - 분산분석 (Variance) - 공분산 분석 (Covariance) - 상관관계 분석 (Correlation) variance measure부터 차근차근 알아보도록 합시다. 🚩 1. Variance for single numerical data variable 분산, 즉 variance를 다루기 전에 평균과 관련된 기초적..

🚩 데이터마이닝 08. Integration-카이제곱검정

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🧩 저번 포스팅에서 Data Cleaning에 대해서 간단하게 알아보았습니다. 이제는 본격적인 전처리를 위한 방법들을 배워나갈 것인데, 먼저 categorical data 의 integration을 위한 chi-square test를 알아보도록 합시다. 들어보신 분들은 아마 카이제곱검정 이 더 익숙하실 것 같습니다. 🚩 1. Data Integration 기업이나 큰 데이터베이스에서 Data Integration은 여러 출처의 데이터를 일관된 저장소로 통합하거나 데이터베이스를 통합하여 각각의 데이터를 워래의 범위보다 축소된 범위에서 한번에 다루기 위한 방법으로 정의됩니다. 일반적으로는 데이터의 at..

🚩 데이터마이닝 07. Data Cleaning

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🧩 이번 포스팅부터는 Data Preprocessing, 즉 데이터 전처리에 대해서 다룰 생각입니다. 어쩌면 정확한 데이터 분석이나 마이닝을 위해서 가장 중요한 부분이라고도 할 수 있기 때문에, 자세히 알아보도록 하겠습니다. 🧩 Data Preprocessing은 아래와 같은 방법들로 구성됩니다. ▪ Data Cleaning ▪ Data Integration ▪ Data Reduction / Transformation ▪ Dimensinality Reduction 👉 전처리는 데이터의 상황에 맞는 여러가지 measure들을 가지고 있습니다. 🧩 이번 포스팅에서는 첫번째 방법인 Data Cleanin..

🚩 데이터마이닝 06. Document Frequency

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🧩 Distance Measure 마지막 포스팅입니다🙄. Document Frequency를 위한 Cosine Similarity 에 대해 알아봅시다. 🚩 1. Cosine Similarity of two vectors Document Frequency가 정확히 무엇인지 궁금하실 수 있을 텐데, 신문기사나 인터넷 기사를 가장 대표적인 예시로 생각하시면 될 것 같습니다. 예를 들어 연예기사에는 연예기사만의 자주 나오는 용어들이 있을 것이고, 스포츠 기사에는 그만의 자주 등장하는 용어들이 있을 것입니다. 서로 다른 두 기사들 간의 similarity를 계산해 유사성을 알아보는 것이 Cosine Simi..

🚩 데이터마이닝 05. Numerical Distance

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 저번 포스팅에서는 categorical data에 대한 distance measure를 알아보았습니다. 이번에는 Numerical Data를 위한 measure인 Minkowski Distance 를 배워보도록 하겠습니다. 🚩 1. Basic Minkowski Distance 🧩 Minkowski Distance 역시 두 object들 사이의 distance를 계산할 때 사용합니다. 예를 들면, 이와 같이 데이터의 $l$ 개의 모든 feature에 대해서 Basic Minkowski Distance는 아래와 같이 정의됩니다. $$d(i,j)\;=^p\sqrt{|x_{i1}-x_{j1}|^p+|x_{..

🚩 데이터마이닝 04. Categorical / Binary Distance

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🧩 저번 포스팅을 통해 object 간의 Distance Matrix를 만드는 법에 대해 알아보았습니다. 이제는 본격적으로 Distance measure에 대해 알아볼텐데, 이 measure들은 feature의 자료형에 따라 다르게 적용됩니다. 이번 포스팅에서는 categorical feature와 binary feature에 대한 measure에 대해 알아보도록 하겠습니다. 🚩 1. Nominal Categorical Attributes - 순서가 없는 범주형 데이터 🧩 Simple Matching 먼저 알아볼 방법은 simple matching 입니다. 이 방법을 통한 object 사이의 dis..

🚩 데이터마이닝 03. Distance Matrix

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🧩 이번 포스팅부터는 Distance measure에 대해 알아보겠습니다. 🚩 1. Similarity / Dissimilarity ▪ Similarity - 데이터들의 유사한 정도를 의미합니다. - 범위 : [0,1] - 0 : No Similarity - 1 : Completely Similar ▪ Dissimilarity - 데이터들의 다른 정도를 의미합니다 (= distance) - 범위 : [0,1] - 0 : No Distance - 1 : Completely Dissimilar 위의 두 개념은 서로 정반대의 의미를 가집니다. 가질 수 있는 범위는 같지만, 그 값이 의미하는 바는 정반대라..

🚩 데이터마이닝 02. QQ Plot

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🧩 이번 포스팅에서는 각 데이터의 상대적인 위치를 알 수 있는 몇가지 plot 방법에 대해 알아봅시다. 🚩 1. Quantile plot ▪ 각 object에 %를 부여함으로써 어느 위치에 존재하는지 알아내는 방법입니다. ▪ Q1 : 25%에 해당하는 object ▪ Q2 : 50%에 해당하는 object ▪ Q3 : 75%에 해당하는 object ▪ IQR : Q3 - Q1 ▪ 중간 50%의 데이터가 존재하는 범위입니다. ▪ IQR이 크면 중앙을 기준으로 데이터가 퍼져있음을 의미합니다. ▪ IQR이 작으면 중앙을 기준으로 데이터가 모여있음을 의미합니다. 🧩 수식 $$f_{i}=(i - 0.5)/N..

🚩 데이터마이닝 01. 소개

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🧩 데이터마이닝의 첫번째 포스팅입니다. 이번 포스팅에서는 데이터마이닝을 개념 위주로 살펴보고자 합니다. 🚩 1. 데이터마이닝이란?? ▪ 기존의 데이터에서 의미있는 패턴이나 지식을 얻는 것입니다. ▪ 다만 간단한 검색이나 정형화된 규칙을 기반으로 작업하는 것은 데이터마이닝이라고 보기 어렵습니다. 🚩 2. 데이터마이닝 순서 ▪ 데이터 결정 : time-series / sequence / text / graphs / social... ▪ 도출할 insight 결정 : classification / clustering / trend / deviation... ▪ 적용 기술 결정 : machinelearni..