데이터 분석 공부 105

✏️ 01. SELECT, FROM, LIMIT

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🐬 모든 데이터 가져오기 : SELECT, FROM SELECT : 테이블에서 가져올 레코드를 선정합니다. FROM : 정보를 가져올 테이블을 선정합니다. ⋆ : Asterisk, 아스타라고 하며, 테이블의 모든 레코드를 가져올 때 SELECT 뒤에 써서 사용합니다. Customer 전체 테이블을 가져오는 쿼리입니다. SELECT * FROM Customers; 🐬 필요한 레코드만 추출하기 일반적으로 SELECT 뒤에는 column 명이, FROM 뒤에는 테이블 명이 온다고 생각하면 됩니다. Customer 테이블에서 CustomerName, Address 두 개의 열만 가져오는 쿼리입니다. SEL..

💵 2022년도 물가영향지표 선형회귀 분석 회고

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 💵 물가 영향 지표 선형회귀 분석 프로젝트 💵 프로젝트 선정 배경 ☑️ 2022년 코로나의 완화로 인해 세계 경제가 다시 회복세로 접어들자 미국이 지난 2년간 풀어놓았던 달러를 다시 거두고자 하는 정책을 펼치고 있습니다. 이에 달러 환율 상승에 따라 우리나라의 물가와 금리 역시 큰 폭으로 오르는 추세입니다. ☑️ 대부분 분식집에서 떡볶이와 김밥을 드시거나, 자장면을 시켜 드신 적이 있을 것이라 생각합니다. 생각해보면 예전에는 정말 대수롭지 않게 시켜먹었던 기억이 있는데, 최근 기사를 보면 김밥 한 줄과 떡볶이를 시키면 거의 9000원에 달하는 금액이 나온다는 인터뷰 내용이 나옵니다. 이처럼, 다들 ..

🕑시계열 데이터 분석 13 - 자기상관 해결 5. 자기상관오차회귀모형

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🕑 오차의 자기상관 해결 05. 자기상관오차회귀모형 🕑 오차의 자기상관 해결방법 1. 변수변환 & 회귀분석 2. 회귀 가변수를 이용한 회귀모형 3. 시계열 모형 : 선형회귀모형의 형태 : 시간이 다른 변수값(과거값)을 사용한다는 점에서 다름 • 자기회귀모형 (Autoregressive, AR model) - y 변수를 과거의 y값으로 적합. . • 자기회귀시차분포모형 (Autoregressive Distributed Lag –ARDL) - y변수를 x변수와 과거의 x값, 과거의 y값으로 적합. • 자기상관오차회귀모형 (Regression model with autoregressive error) -..

🕑시계열 데이터 분석 12 - 자기상관 해결 4. 자기회귀시차분포모형(ARDL Model)

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🕑 오차의 자기상관 해결 04. ARDL 모델 : 자기회귀시차분포모형 🕑 오차의 자기상관 해결방법 1. 변수변환 & 회귀분석 2. 회귀 가변수를 이용한 회귀모형 3. 시계열 모형 : 선형회귀모형의 형태 : 시간이 다른 변수값(과거값)을 사용한다는 점에서 다름 • 자기회귀모형 (Autoregressive, AR model) - y 변수를 과거의 y값으로 적합. . • 자기회귀시차분포모형 (Autoregressive Distributed Lag –ARDL) - y변수를 x변수와 과거의 x값, 과거의 y값으로 적합. • 자기상관오차회귀모형 (Regression model with autoregressiv..

😡 5주차 분석 피드백

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 😡 과제로 제출한 대시보드와 질문들에 대해 멘토님께서 구두로 피드백을 남겨주셨습니다. 😡 피드백을 한번 살펴보고, 적용할 차트들은 수정해보도록 하겠습니다!! ☑️ 원본 대시보드 ☑️ 피드백 정리 가끔 몇몇 대시보드를 살펴보면 전반적으로 이야기의 흐름에 벗어나는 대시보드가 있는데, 제출한 대시보드는 왼쪽에서 오른쪽으로, 위에서 아래로 읽고 이해하는 데에 문제가 없습니다. 색감도 괜찮고, 가독성이 좋은 대시보드를 만들어 주셨습니다. 다만, 년도와 제품군에 대해서 만든 우측 상단의 필터가 눈에 확 띄지 않아 보여주려는 바가 한눈에 보이지 않기도 합니다. 어차피 전체 대시보드가 두 필터를 거쳐서 만들어지기..

🕑시계열데이터 분석 11 - 자기상관 해결 3. 자기회귀모형 (AR Model)

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🕑 오차의 자기상관 해결 03. AR 모델 : 자기회귀모형 🕑 오차의 자기상관 해결방법 1. 변수변환 & 회귀분석 2. 회귀 가변수를 이용한 회귀모형 3. 시계열 모형 : 선형회귀모형의 형태 : 시간이 다른 변수값(과거값)을 사용한다는 점에서 다름 • 자기회귀모형 (Autoregressive, AR model) - y 변수를 과거의 y값으로 적합. . • 자기회귀시차분포모형 (Autoregressive Distributed Lag –ARDL) - y변수를 x변수와 과거의 x값, 과거의 y값으로 적합. • 자기상관오차회귀모형 (Regression model with autoregressive erro..

🕑시계열데이터 분석 10 - 자기상관 해결 2. 회귀가변수

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🕑 오차의 자기상관 해결 02. 회귀가변수 추가 🕑 1. 트렌드 (trend) 1차 자기상관이 심하게 있는 경우 고려해 줘야 하는 사안입니다. 다만 $X$변수에도 trend가 있기 때문에 회귀모형 적합 결과 오차항에는 trend가 남지 않을 수도 있습니다. 하지만 오차항에 trend 자기상관이 남아있다면, trend에 해당하는 가변수를 $X$변수로 추가 가능합니다. 트렌드 가변수로는 시간 가변수 $𝑡$ 또는 $𝑡^2$ 를 사용합니다. 🕑 트렌드 파악 우선 데이터에서 각 feature의 plot을 그려 트렌드 유무를 파악합니다. df1 |t|) (Intercept) 0.6640849 0.3513251..

🕑시계열데이터 분석 09 - 자기상관 해결 1. 차분

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🕑 오차의 자기상관 해결 01. 차분 🚩 선형회귀 모델의 타당성을 파악하기 위해서, 모집단 모형에는 8가지 가정이 존재합니다. 가정1 : 변수 $Y$와 $X$의 관계는 선형이다. scatter plot으로 검증. 가정2 : $X$는 확률변수가 아닌 주어진 상수값이다. Cross sectional data에서는 그냥 받아들이지만, 시계열데이터에서는 고려. 가정3 : $X$값이 주어져 있을 때, 오차항의 평균은 0이다. $E(εi|X)=0$ 즉, X값이 주어져 있을 때 Y의 평균은 체계적인 부분. 잔차플롯으로 검증. 전반적인 잔차가 0에 모여있는지 확인. 가정4 : $X$값이 주어졌을 때, 오차항의 분..

🕑시계열데이터 분석 08 - 시계열 회귀분석

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🕑 시계열 회귀분석 서로 다른 개체 간 오차항들은 서로 자기상관이 없다는 가정의 영향을 고려해줘야 합니다. 특히 시계열 데이터의 특성 상, 각 개체 간 자기상관이 없을 수 없기 때문에 꼭 이에 대한 처리를 해주어야 합니다. 대표적으로, 차분을 진행해서 자기상관을 줄이는 방법이 있겠습니다. 🕑 선형회귀 : lm(Y ~ X1 + X2 + X3, data = DATA) 🕑 먼저, 일반 데이터프레임에 대해 회귀분석을 진행하겠습니다. ## 데이터프레임 head(df1) ## year consumption income wealth interest lnconsump lndpi lnwealth ## 1 1947 ..

🕑시계열데이터 분석 07 - 평활기법

모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!! 🕑 평활기법 (Smoothing) 평활기법은 대부분 prediction 혹은 projection을 위한 방법입니다. 만약 계절성이 있는 데이터라면, 반드시 계절성을 제거한 다음 진행해야합니다. 🕑 1. 선형평활 - naive : naive(TS_DATA) 가장 최근 값을 사용해서 예측하는 방법입니다. setwd("C:\\Users\\yamingu\\Desktop\\고급비즈니스어낼리틱스") oil.df=read.csv("[Ch1.시계열자료준비시계열분해]_files\\BOK_energy_oil.csv") oil.ts=ts(oil.df$oil, start=c(1994,1), frequency=12) ##..