📌 데이터마이닝/데이터 분포 확인

🚩 데이터마이닝 01. 소개

nyamin9 2023. 2. 5. 09:49

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!!

 

 


 

🧩 데이터마이닝의 첫번째 포스팅입니다. 이번 포스팅에서는 데이터마이닝을 개념 위주로 살펴보고자 합니다.

 


🚩 1. 데이터마이닝이란??

 

▪ 기존의 데이터에서 의미있는 패턴이나 지식을 얻는 것입니다.

 

다만 간단한 검색이나 정형화된 규칙을 기반으로 작업하는 것은 데이터마이닝이라고 보기 어렵습니다.

 


🚩 2. 데이터마이닝 순서

 

 데이터 결정 : time-series / sequence / text / graphs / social...

 

 도출할 insight 결정 : classification / clustering / trend / deviation...

 

 적용 기술 결정 : machinelearning / deeplearning / statics / pattern...

 

 적용할 도메인 결정 : retail / banking / bio-data / stack / text...

 

 데이터 타입에 맞는 방법을 사용해서 마이닝을 진행

 

 

🧩 진행순서

 

Data Cleaning  Integration  Selection  Transform  Data Mining  Pattern Evaluation  Knowledge Presentation

 

 

👉 각각의 순서에서 사용하는 기법들은 앞으로 포스팅할 예정입니다!!

 

 


🚩 3. 데이터마이닝의 함수

 

 데이터마이닝 : 데이터에서 유의미한 패턴을 알아내는 것. 따라서 이를 위한 function들이 존재합니다.

 

 

 Generalization

 

  ▪ Information Integration & Data warehouse construction

 

  ▪ Data Cube

 

  ▪ 가지고 있는 정보들을 통해 다양한 각도로 데이터를 일반화합니다.

 

  ▪ 빅데이터를 다루는 경우에 주로 사용합니다.

 

 

 Pattern Discovery

 

  ▪ 데이터 / Attribute 간의 관계와 패턴을 발견하는 방법입니다.

 

  ▪ ex) Frequent Patterns / Correlation Analysis

 

 

 Classification

 

  ▪ Supervised learning with training data (examples)

 

  ▪ 알려지지 않은 class를 예측하는 것입니다.

 

    ▪ support vector machine / deep learning / bayesian / decision tree / logistic regression...

 

 

 Clustering

 

  ▪ Unsupervised learning

 

  ▪ class를 모르는 상태로 유사한 데이터끼리 군집화합니다.

 

  ▪ 묶고 봤더니 묶인 데이터들의 특징이 이러이러하더라를 판단합니다.

 

  ▪ rule : Maximizing intraclass similarity & Minimizing interclass similarity

 

  ▪ 최종 목적은 같은 그룹 내 유사성을 최대화하고 다른 그룹끼리의 유사성은 최소화하는 것입니다.

 

 

 Outlier Analysis

 

  ▪ 데이터가 노이즈인지, 필연적으로 생긴 특이 케이스인지 구분합니다.

   

  ▪ fraud detection / rare events analysis

 

 

 Time & Ordering

 

  ▪ 주식, 주가, 태풍처럼 주기적으로 발생하는 패턴을 분석합니다.

 

  ▪ Sequential Pattern, 즉 시간상 순서관계를 고려합니다.

 

    ▪ 유전자 시퀀스 분석, 유사성 파악

 

 

 Structure & Network

 

  ▪ 그래프 마이닝, 네트워크 분석, 웹 마이닝

 

 

 Major Issues

   

  ▪ 효율적인 알고리즘인지 판단해야 합니다.

 

  ▪ 데이터 양이 증가했을 때도 잘 적용되는지 확인해야 합니다.

 

  ▪ 데이터의 형태에 따라 달라지는지 확인해야 합니다.

 

  ▪ 사회적으로 사용 가능한 데이터인지 확인해야 합니다.

 

 


🧩 이렇게 데이터마이닝이 뭔지, 신경써야 할 부분이 어디인지, 얼마나 다양한 상황에 사용될 수 있는지를 간략하게 알아보았습니다.

 

🧩 다음 포스팅에서는 데이터의 상대적인 위치를 알 수 있는 몇가지 plot 방법에 대해 알아보겠습니다.

 


💡위 포스팅은 한국외국어대학교 바이오메디컬공학부 고윤희 교수님의 [생명정보학을 위한 데이터마이닝] 강의를 바탕으로 합니다.