🚩 데이터마이닝 01. 소개

📌 데이터마이닝/데이터 분포 확인

🚩 데이터마이닝 01. 소개

nyamin9 2023. 2. 5. 09:49

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!!

🧩 데이터마이닝의 첫번째 포스팅입니다. 이번 포스팅에서는 데이터마이닝을 개념 위주로 살펴보고자 합니다.

🚩 1. 데이터마이닝이란??

▪ 기존의 데이터에서 의미있는 패턴이나 지식을 얻는 것입니다.

▪ 다만 간단한 검색이나 정형화된 규칙을 기반으로 작업하는 것은 데이터마이닝이라고 보기 어렵습니다.

🚩 2. 데이터마이닝 순서

▪ 데이터 결정 : time-series / sequence / text / graphs / social...

▪ 도출할 insight 결정 : classification / clustering / trend / deviation...

▪ 적용 기술 결정 : machinelearning / deeplearning / statics / pattern...

▪ 적용할 도메인 결정 : retail / banking / bio-data / stack / text...

▪ 데이터 타입에 맞는 방법을 사용해서 마이닝을 진행

🧩 진행순서

Data Cleaning ▶ Integration ▶ Selection ▶ Transform ▶ Data Mining ▶ Pattern Evaluation ▶ Knowledge Presentation

👉 각각의 순서에서 사용하는 기법들은 앞으로 포스팅할 예정입니다!!

🚩 3. 데이터마이닝의 함수

▪ 데이터마이닝 : 데이터에서 유의미한 패턴을 알아내는 것. 따라서 이를 위한 function들이 존재합니다.

▪ Generalization

▪ Information Integration & Data warehouse construction

▪ Data Cube

▪ 가지고 있는 정보들을 통해 다양한 각도로 데이터를 일반화합니다.

▪ 빅데이터를 다루는 경우에 주로 사용합니다.

▪ Pattern Discovery

▪ 데이터 / Attribute 간의 관계와 패턴을 발견하는 방법입니다.

▪ ex) Frequent Patterns / Correlation Analysis

▪ Classification

▪ Supervised learning with training data (examples)

▪ 알려지지 않은 class를 예측하는 것입니다.

▪ support vector machine / deep learning / bayesian / decision tree / logistic regression...

▪ Clustering

▪ Unsupervised learning

▪ class를 모르는 상태로 유사한 데이터끼리 군집화합니다.

▪ 묶고 봤더니 묶인 데이터들의 특징이 이러이러하더라를 판단합니다.

▪ rule : Maximizing intraclass similarity & Minimizing interclass similarity

▪ 최종 목적은 같은 그룹 내 유사성을 최대화하고 다른 그룹끼리의 유사성은 최소화하는 것입니다.

▪ Outlier Analysis

▪ 데이터가 노이즈인지, 필연적으로 생긴 특이 케이스인지 구분합니다.

▪ fraud detection / rare events analysis

▪ Time & Ordering

▪ 주식, 주가, 태풍처럼 주기적으로 발생하는 패턴을 분석합니다.

▪ Sequential Pattern, 즉 시간상 순서관계를 고려합니다.

▪ 유전자 시퀀스 분석, 유사성 파악

▪ Structure & Network

▪ 그래프 마이닝, 네트워크 분석, 웹 마이닝

▪ Major Issues

▪ 효율적인 알고리즘인지 판단해야 합니다.

▪ 데이터 양이 증가했을 때도 잘 적용되는지 확인해야 합니다.

▪ 데이터의 형태에 따라 달라지는지 확인해야 합니다.

▪ 사회적으로 사용 가능한 데이터인지 확인해야 합니다.

🧩 이렇게 데이터마이닝이 뭔지, 신경써야 할 부분이 어디인지, 얼마나 다양한 상황에 사용될 수 있는지를 간략하게 알아보았습니다.

🧩 다음 포스팅에서는 데이터의 상대적인 위치를 알 수 있는 몇가지 plot 방법에 대해 알아보겠습니다.

💡위 포스팅은 한국외국어대학교 바이오메디컬공학부 고윤희 교수님의 [생명정보학을 위한 데이터마이닝] 강의를 바탕으로 합니다.

저작자표시

'📌 데이터마이닝 > 데이터 분포 확인' 카테고리의 다른 글

🚩 데이터마이닝 06. Document Frequency (0)	2023.02.07
🚩 데이터마이닝 05. Numerical Distance (0)	2023.02.07
🚩 데이터마이닝 04. Categorical / Binary Distance (0)	2023.02.06
🚩 데이터마이닝 03. Distance Matrix (2)	2023.02.06
🚩 데이터마이닝 02. QQ Plot (0)	2023.02.05

현재글🚩 데이터마이닝 01. 소개

📊 데이터분석 공부 블로그

Visual analysis, 전처리, 데이터분석, R, 맨몸운동, 체력은국력, 태블로, 애플워치, 비즈니스분석, Cardio Vascular, DataMining, 시각화, Plotly, mysql, 캐글, 데이터마이닝, 시계열분석, 심혈관질환, 홈트레이닝, 피트니스,

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

데굴데굴 데이터분석