모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!!
🧩 데이터마이닝의 첫번째 포스팅입니다. 이번 포스팅에서는 데이터마이닝을 개념 위주로 살펴보고자 합니다.
🚩 1. 데이터마이닝이란??
▪ 기존의 데이터에서 의미있는 패턴이나 지식을 얻는 것입니다.
▪ 다만 간단한 검색이나 정형화된 규칙을 기반으로 작업하는 것은 데이터마이닝이라고 보기 어렵습니다.
🚩 2. 데이터마이닝 순서
▪ 데이터 결정 : time-series / sequence / text / graphs / social...
▪ 도출할 insight 결정 : classification / clustering / trend / deviation...
▪ 적용 기술 결정 : machinelearning / deeplearning / statics / pattern...
▪ 적용할 도메인 결정 : retail / banking / bio-data / stack / text...
▪ 데이터 타입에 맞는 방법을 사용해서 마이닝을 진행
🧩 진행순서
Data Cleaning ▶ Integration ▶ Selection ▶ Transform ▶ Data Mining ▶ Pattern Evaluation ▶ Knowledge Presentation
👉 각각의 순서에서 사용하는 기법들은 앞으로 포스팅할 예정입니다!!
🚩 3. 데이터마이닝의 함수
▪ 데이터마이닝 : 데이터에서 유의미한 패턴을 알아내는 것. 따라서 이를 위한 function들이 존재합니다.
▪ Generalization
▪ Information Integration & Data warehouse construction
▪ Data Cube
▪ 가지고 있는 정보들을 통해 다양한 각도로 데이터를 일반화합니다.
▪ 빅데이터를 다루는 경우에 주로 사용합니다.
▪ Pattern Discovery
▪ 데이터 / Attribute 간의 관계와 패턴을 발견하는 방법입니다.
▪ ex) Frequent Patterns / Correlation Analysis
▪ Classification
▪ Supervised learning with training data (examples)
▪ 알려지지 않은 class를 예측하는 것입니다.
▪ support vector machine / deep learning / bayesian / decision tree / logistic regression...
▪ Clustering
▪ Unsupervised learning
▪ class를 모르는 상태로 유사한 데이터끼리 군집화합니다.
▪ 묶고 봤더니 묶인 데이터들의 특징이 이러이러하더라를 판단합니다.
▪ rule : Maximizing intraclass similarity & Minimizing interclass similarity
▪ 최종 목적은 같은 그룹 내 유사성을 최대화하고 다른 그룹끼리의 유사성은 최소화하는 것입니다.
▪ Outlier Analysis
▪ 데이터가 노이즈인지, 필연적으로 생긴 특이 케이스인지 구분합니다.
▪ fraud detection / rare events analysis
▪ Time & Ordering
▪ 주식, 주가, 태풍처럼 주기적으로 발생하는 패턴을 분석합니다.
▪ Sequential Pattern, 즉 시간상 순서관계를 고려합니다.
▪ 유전자 시퀀스 분석, 유사성 파악
▪ Structure & Network
▪ 그래프 마이닝, 네트워크 분석, 웹 마이닝
▪ Major Issues
▪ 효율적인 알고리즘인지 판단해야 합니다.
▪ 데이터 양이 증가했을 때도 잘 적용되는지 확인해야 합니다.
▪ 데이터의 형태에 따라 달라지는지 확인해야 합니다.
▪ 사회적으로 사용 가능한 데이터인지 확인해야 합니다.
🧩 이렇게 데이터마이닝이 뭔지, 신경써야 할 부분이 어디인지, 얼마나 다양한 상황에 사용될 수 있는지를 간략하게 알아보았습니다.
🧩 다음 포스팅에서는 데이터의 상대적인 위치를 알 수 있는 몇가지 plot 방법에 대해 알아보겠습니다.
💡위 포스팅은 한국외국어대학교 바이오메디컬공학부 고윤희 교수님의 [생명정보학을 위한 데이터마이닝] 강의를 바탕으로 합니다.
'📌 데이터마이닝 > 데이터 분포 확인' 카테고리의 다른 글
🚩 데이터마이닝 06. Document Frequency (0) | 2023.02.07 |
---|---|
🚩 데이터마이닝 05. Numerical Distance (0) | 2023.02.07 |
🚩 데이터마이닝 04. Categorical / Binary Distance (0) | 2023.02.06 |
🚩 데이터마이닝 03. Distance Matrix (2) | 2023.02.06 |
🚩 데이터마이닝 02. QQ Plot (0) | 2023.02.05 |