데이터 분석 공부 105

🕑시계열데이터 분석 06 - 시계열 데이터 분해

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🕑 시계열 분해 시계열 분석 모형의 선택은 Y 변수와 그와 관련있는 다른 변수의 유무에 의해 정해집니다. 🕑 시계열자료의 구성 및 요인 추세요인(trend factor) : 장기변동 / 기술의 변화, 인플레이션 / 전반적인 움직임 순환요인(cycle factor) : 중기변동 / 경기순환주기 / 몇년 단위 반복 움직임 / 파악 어려움 / 계절성 잡은 후 잡기 가능 계절요인(seasonal factor) : 1년 주기로 발생하는 단기변동 불규칙요인(irregular factor) : 측정 및 예측이 어려운 오차변동 / 시계열을 위 세 가지 요인으로 설명하고 남은 변동 • 보통, 주어진 시계열을 추세(..

🕑시계열데이터 분석 05 - aggregate( ) 함수

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🕑 aggregate( ) 월별 / 분기별 / 년도별 데이터가 있다면, 큰 주기에 맞춰서 각 데이터의 주기를 맞춰줘야 합니다. 큰 주기의 데이터를 작은 주기로 넣으려면 없는 데이터를 만들어서 넣어야 하기에 가정과 추가적인 모델링이 필요한 경우가 있습니다. 하지만 이 경우, 데이터의 크기가 작아져 몇 가지 문제가 생길 수 있습니다. 어쨌든, 각 데이터의 주기를 맞춰주어야 시계열 분석에 용이하고, 여러 데이터를 하나의 시간 축에 대해서 분석하는 것이 가능해지기 때문에, R에서는 이러한 기능을 수행하는 함수를 제공합니다. 원래 주기가 12짜리 월별 데이터인 AirPassengers 에 aggregate ..

🕑 시계열 데이터 분석 04 - 시계열 데이터 plot

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🕑 데이터 선언 unemploy.df=read.csv("BOK_unemployment_rate.csv") oil.df=read.csv("BOK_energy_oil.csv") exchange.df=read.csv("BOK_exchange_rate_krw_usd.csv") unemploy.ts=ts(unemploy.df$unemployment_rate, start=2000, frequency=1) oil.ts=ts(oil.df$oil, start=c(1994,1), frequency=12) exchange.ts=ts(exchange.df$exchange_rate_krw_usd, start=c(1980,..

🎁 4주차 분석 피드백

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🎁 과제로 제출한 차트와 질문들에 대해 멘토님께서 피드백을 남겨주셨습니다. 🎁 전체 피드백을 한번 살펴보고, 적용할 차트들은 수정해보도록 하겠습니다!! Q1. 위 차트에서의 빈 부분처럼 아무런 값이 없는 경우를 0으로 채우는 방법이 있는지 궁금합니다!! 계산된 필드를 만든 결과 해당 경우(예를 들어 2020년 2분기에 주문해서 0분기 후에 다시 구매한 경우)의 Customer ID 를 카운트한 결과가 0으로 집계되기 때문에 0이라는 값이 채워질 줄 알았는데, 그렇지 않았습니다. 해결할 수 있는 방법이 있을까요?? A1. null filter 생성 및 테이블 계산 -> 계산된 필드 3개 생성 후 테이..

😡 05. Consumer Complaint Analysis

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 😡 Consumer Complaint Analysis (📆 2023.03.27 ~ 2023.03.31) 😡 대시보드 태블로 퍼블릭 링크 https://public.tableau.com/app/profile/kang.mingu/viz/ConsumerComplaintAnalysis_16805202287360/2 😡 Consumer Complaint Analysis 😡 Consumer Complaint Analysis public.tableau.com 😡 1. 비즈니스 시나리오 정의 Vizable USA Financial 사의 분석팀으로서, consumer의 complaint 데이터를 분석하여 회사의 임..

🕑시계열데이터 분석 03 - quantmod 패키지

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🕑 quantmod 패키지 🕑 getSymbols( ) 함수 : 파이낸스 데이터 불러오기 quantmod 패키지의 getSymbols( ) 함수를 통해 야후 파이낸스 데이터를 ts data 형태로 불러올 수 있습니다. 주말도 알아서 제외해줍니다. 🕑 getSymbols("META", src = "yahoo", from = as.Date("2015-08-01"), to = as.Date("2016-08-31")) ## quantmod ## 페이스북 데이터 불러옴 ## FB에서 META로 이름이 바뀌었으므로 META로 키값 지정 install.packages("quantmod") library(quan..

👥 3주차 분석 피드백

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 👥 과제로 제출한 차트와 질문들에 대해 멘토님께서 피드백을 남겨주셨습니다. 👥 전체 피드백을 한번 살펴보고, 적용할 차트들은 수정해보도록 하겠습니다!! Q1. INDEX( ) 함수의 사용상황이 궁금합니다. 이전 과제에서 INDEX 함수를 매개변수로 만들어서 필드와 집합으로 만들어 상위 5개의 요소를 도출해본 적이 있는데, 테이블 계산에서의 INDEX 함수 사용의 목적은 무엇인지 알고 싶습니다. A1. INDEX 함수는 실무에서 row의 번호를 매길 때 정말 자주 사용하는 함수입니다. 맨 앞에 차원으로 바꿔놓고 숫자를 매길 때 자주 사용합니다. 전체 로우에서 딱 10개만 보여주고 싶을 때 index(..

🕑시계열데이터 분석 02 - ts( ) 함수

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🕑 ts Data로 변환하기 : ts( ) 함수 앞선 포스팅에서 살펴보았듯이 시계열 데이터 분석을 위해서는 ts 데이터가 필요합니다. 이번 포스팅에서는 일반적인 csv 파일, 즉 데이터프레임을 시계열 데이터로 바꾸기 위한 ts( ) 함수 를 알아봅시다. ## 클래스 확인 결과 data.frame 출력 ## 이를 시계열 데이터로 바꿔줘야 함 head(exchange1.df) is.ts(exchange1.df) class(exchange1.df) >> ## date exchange_rate_krw_usd ## 1 1980 1 586.1 ## 2 1980 2 603.0 ## 3 1980 3 625.0 #..

🕑시계열데이터 분석 01 - is.ts( ) 함수

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🕑 시계열 자료 준비 시계열 데이터는 시간의 흐름에 따라 하나 혹은 다수의 변수가 측정된 데이터입니다. cross sectional data, 즉 횡단면 데이터에 비해 적은 객체를 가지고 있으며, 하나의 객체에 대한 측정량을 다룹니다. longitudinal data는 여러 명의 데이터를 시간의 흐름에 따라 측정한 데이터로써, 시계열 + cross sectional data의 성격을 띕니다. 분석하기 위해서는 꽤나 복잡한 모델이 필요합니다. 또한 시계열 데이터는 관측 주기가 데이터에 항상 따라옵니다. 주로 일별, 월별, 년도별로 주기를 정하며, 예시로는 POS데이터 / 카드데이터 / 코스피지수판매량..

🎁 04. 슈퍼스토어 코호트 차트 분석

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🎁 코호트 차트 및 LOD 식 사용하기 (📆 2023.03.20 ~ 2023.03.23) 🎁 1. 코호트 차트 (1) superstore_sample 데이터셋 먼저, 올려주신 영상을 보고 그대로 따라서 차트를 구현하였습니다. 위 차트를 분석해보면, 2019년 4분기에 첫 구매가 이뤄진 고객의 경우 같은 분기에 두번째 주문을 할 정도로 재주문 성호도가 높다고 할 수 있을 것 같습니다. 또한, 2019년 3분기에 첫 구매를 한 고객은 다음 분기와 그 다음 분기에 두번째 주문을 하는 경우가 많았습니다. 특히 두분기 후에 구매가 이루어진 경우 해를 넘어서 재구매를 한 고객이기 때문에 더욱 유의미한 재구매라..