모바일은 화면을 돌려 가로화면으로 보시는 게 읽으시기 편할 수 있습니다. 돌려서 보시는 걸 추천드릴게요!!
💵 물가 영향 지표 선형회귀 분석 프로젝트
💵 프로젝트 선정 배경
☑️ 2022년 코로나의 완화로 인해 세계 경제가 다시 회복세로 접어들자 미국이 지난 2년간 풀어놓았던 달러를 다시 거두고자 하는 정책을 펼치고 있습니다. 이에 달러 환율 상승에 따라 우리나라의 물가와 금리 역시 큰 폭으로 오르는 추세입니다.
☑️ 대부분 분식집에서 떡볶이와 김밥을 드시거나, 자장면을 시켜 드신 적이 있을 것이라 생각합니다. 생각해보면 예전에는 정말 대수롭지 않게 시켜먹었던 기억이 있는데, 최근 기사를 보면 김밥 한 줄과 떡볶이를 시키면 거의 9000원에 달하는 금액이 나온다는 인터뷰 내용이 나옵니다. 이처럼, 다들 몸소 체감하고 계시겠지만 물가가 정말 크게 올랐습니다.
중앙일보에 따르면, 생활물가지수와 체감실업률을 고려하여 서민이 체감하는 경제적 어려움을 수치화한 서민경제고통지수가 관련 통계 집계를 시작한 2015년 이래 지난해 가장 높게 나타났습니다. 이에 더하여 지난해 경제고통지수 역시 큰 폭으로 상승했습니다. 이는 밥상물가를 중심으로 생필품의 가격이 크게 올랐을 뿐더러, 저희가 피부로 느끼는 일자리 사정이 나아지지 않았기 때문으로 보입니다.
☑️ 또한 산업통상자원부에 따르면 올해 상반기 무역적자는 103억 달러를 기록하면서 역대 최고기록이었던 91억 달러를 넘어섰다고 합니다. 그리고 한국은행은 올해 7월 경상수지 흑자가 지난해 동월 대비 66억 달러 감소한 10억 달러임을 발표하였습니다. 이렇게 우리나라 경제를 책임지는 두 수지가 악화됨과 동시에 환율이 상승하면서 저희는 물가가 계속해서 오르는 악순환을 겪고 있는 것입니다.
☑️ 이런 상황에 있어 물가의 상승에 가장 큰 영향을 미치는 경제적 요인은 무엇일지 알아보고 그에 대한 정책적 해결책을 마련하고자 본 프로젝트를 기획하였습니다.
💵 경제 지표 선정
고려한 변수는 대표 원자재 지수인 유가였습니다. 2020년 기준 한국은 OECD 회원국 중 1위의 원유의존도를, 1인당 원유소비량은 4위를 기록할 정도로 석유 의존성이 높았습니다. 특히 철강, 화학 등의 산업이 주가 되고 운수업 / 서비스업이 큰 비중을 차지하기에 산업에 대한 높은 원가상승률을 보일 것으로 예상되었습니다. 이러한 이유로 유가를 독립변수로 사용하기로 결정하였습니다.
그 다음으로 고려한 지표는 금리와 환율이었습니다. 한국은행 통화정책국 정책분석팀에 의하면 원화 가치 상승으로 인한 수입물가 하락은 국내 물가를 하락시키는 요인으로 작용합니다. 반면 환율이 상승하면 원화가치가 하락해 물가가 상승하고, 원화가치를 올리기 위해 금리를 인상하여 물가를 낮추는 흐름이 이어집니다. 따라서 금리와 환율 두 변수의 선정을 결정하였습니다. 또한, 환율이 낮아지면 국내 시장의 투자가 활발해져 코스피지수가 오르는 등 영향을 줄 수 있을 것이라 생각하였기에 코스피지수 또한 물가와 관계 있는 지표라 생각하였습니다.
또한 KDI 경제정보센터에 의하면 기존의 CD 금리를 사용하는 경우 기준금리보다 가산금리가 높아지는 등의 단점을 보완해야 할 필요가 있었습니다. 이에 저희는 코픽스 금리를 독립변수로 채택해 오류를 미연에 방지하고자 했습니다.
2022년 상반기 경상수지와 무역수지가 급격히 하락하면서 쌍둥이 적자에 대한 공포가 커지고 있습니다. 이에 저희는 상품수지와 경상수지, 무역수지를 독립변수로 사용해 이러한 상황을 반영하였습니다. 다만, 계절조정을 하지 않은 수치이기에 이에 대한 처리를 해야 할 가능성도 고려하였습니다.
마지막으로 선택한 독립변수는 월별 코로나19 확진자 수입니다. 한국은행 BOK 이슈노트에 의하면 코로나19에 따른 사회적 거리두기 및 대면접촉 기피는 물가하방압력으로 작용하면서 통 수요를 감소시키고 물가상승률을 낮추었습니다. 이에 확진자의 증감 추세에 따른 물가 이동 작용을 파악할 수 있을 것이라 생각하였기에 확진자 수를 독립변수로 선정하였습니다.
선택한 독립변수들을 바탕으로 종속변수인 소비자물가지수를 분석해보고자 합니다. 물가지수에는 생산자물가지수와 수출입물가지수, GDP 디플레이터 등이 있지만 소비자 입장의 물가를 가장 잘 나타내는 소비자물가지수를 선택하였습니다.
다만 저희 조는 올해의 물가지수를 제외한 2018년부터 2021년의 월별 물가지수를 사용하여 분석하고자 합니다. 금융적으로 많은 유동성이 있던 올해를 제외한 이유가 궁금하실 수 있습니다. 이는 전쟁, 미국의 정책 등으로 인해 독립변수로 표현하기 힘든 사건이 많이 일어났기 때문입니다. 만약 올해 데이터를 사용할 경우 통제가 힘든 노이즈가 생겨 모델의 구축에 방해가 될 것으로 판단하였습니다. 이에, 지난 4개년의 물가를 분석하여 주요 지표들을 선정하였습니다.
💵 데이터 출처
소비자물가지수 (종속변수) : KOSIS 소비자물가지수, 20221102
국제수지 (정량) : KOSIS 경상수지, 20221103
국제유가 도입가 (정량) : KOSIS 국제유가, 20221018
경상수지 (정량) : KOSIS 경상수지, 20221111
상품수지 (정량) : KOSIS 상품수지, 20221111
무역수지 (정량) : KOSIS 수출입총괄, 20221021
기준금리 (정량) : 한국은행 기준금리 추이
환율 (정량) : 환율 (USD/KRW) ,2022110
코스피지수 (정량) : 코스피지수 ,20221103
COFIX 금리 (정량) : 은행연합회 소비자포털 COFIX 금리, 20221111
코로나19 확진자 수 : 질병관리청 코로나바이러스19 누적 확진자 통계
💵 최종 모델
물가 ~ 금리:(코로나 확진자 수) + 로그환율:(코로나 유무) + 로그유가 + 로그환율 + 로그코스피
☑️ 그 중에서 금리는 코로나 확진자의 정도에 따라 영향을 받을 수 있을 것이라 생각하였기에 두 변수의 교호작용을 고려하였으며, 환율의 경우 코로나의 유무에 따른 영향을 파악하기 위해 두 변수의 교호작용을 확인하였습니다. 이를 통해 각각의 변수에 대한 조합을 검증하였습니다.
☑️ 최종 모델의 summary 결과는 다음과 같습니다.
R-square 수치를 통해 모델이 종속변수를 94%가량 설명하는 것을 파악했으며, 두 R-square 수치의 차이가 크지 않기에 자료를 잘 표현하는 회귀식이라 말할 수 있습니다. 또한 각 변수의 p-value가 0.05보다 작으므로 유의하다고 판단했습니다. 각 변수가 모델에 미치는 영향을 확인하기 위해 추정치인 estimate을 살펴보았습니다.
교호작용이 없는 변수부터 보면, 코스피지수가 100% 증가하면 물가는 6%p 증가합니다. 또한, 원유의 가격이 100% 증가하면 물가지수는 1.4%p 가량 증가합니다.
이어서 교호작용이 있는 변수들은 다음과 같이 해석할 수 있습니다. 먼저 환율과 코로나 발생여부의 교호작용을 분석해보면, 코로나가 없던 시기 환율이 100% 증가하면 물가지수는 16%p 증가하였지만, 코로나의 유무를 고려하면 16.073%p 증가하여 약 0.073%p의 기울기 차이를 보입니다.
또한 금리와 확진자 수의 교호작용을 보면, 확진자 수가 증가할수록 그 수에 비례하여 금리의 영향이 커짐을 알 수 있습니다. 확진자 한 명이 증가하면 금리는 평균적으로 물가지수를 $8.536 ✕ 10^{-6}$만큼 높임을 예측할 수 있습니다. 한명의 영향은 굉장히 미미해 보이지만, 최대 확진자 수가 18만명까지 발생했기에 이를 고려하면 그 영향력은 유의하다고 판단했습니다. 이렇게 코로나와 금리, 환율의 각 교호작용을 바탕으로 코로나19가 물가지수 상승에 유의한 영향을 주었음을 확인하였습니다.
💵 모델 평가
잔차와 예측값 플롯에서 어느 정도 0 주변에서 관측되는, 기울기가 0인 빨간 선을 확인하였습니다. 이 중 7번, 10번, 47번 데이터는 이상치로 보이지만 0을 중심으로 특정한 패턴을 가지고 있지는 않음을 확인할 수 있습니다. 또한 잔차가 0을 중심으로 크게 벗어나지 않았습니다. 이에 잔차의 등분산성을 만족한다고 평가하였습니다.
반면 잔차가 정규분포를 따른다고 하기는 어려웠습니다. 특히 앞서 이상치로 발견되었던 7번 데이터와 10번 데이터가 QQ plot에서도 이상치로 발견되었습니다. QQ plot에서는 –2와 –1사이, 그리고 1에서 2사이의 값이 직선에서 많이 벗어나 잔차의 정규성을 만족하지는 못했습니다.
세 번째 그래프인 스케일-로케이션의 경우도 첫 번째 그래프처럼 0 주변에서 생기는 기울기가 0인 직선이 이상적입니다. 하지만 본 모델은 가장 우측에 있는 48번 데이터에 지나치게 맞추려다 보니 오히려 그 기울기가 커졌습니다. 물론 이러한 점들은 이상치일 가능성이 있으나, 회귀 직선이 해당 데이터를 잘 적합하지 못함을 의미하기도 합니다.
48번 데이터에 대해 확인하기 위해서 마지막 레버리지 플롯을 분석해보았습니다. x축의 레버리지가 다른 값들에 비해 한쪽으로 넘어가 있다면, 이는 해당 데이터가 극단에 치우쳐있음을 의미합니다. 이를 바탕으로 48번 데이터는 이상치라고 판단하였습니다. 실제 데이터를 살펴본 결과 전월에 비해 코로나 확진자 수가 십만명 이상 증가하였기 때문에 이를 단순선형모델이 완전히 분석하기에는 어려워 보였습니다.
💵 프로젝트 결론
지난 4년간의 물가지수 분석 결과, 국내 물가를 잡기 위해 환율의 안정화가 필요하다고 판단했습니다. 우리나라는 경제적 대외의존도가 높기 때문에 환율상승이 물가상승에 가장 큰 요인으로 이어짐을 검증할 수 있었습니다. 국내 물가 통제를 위해서는 원화가치가 떨어지지 않고 유지될 수 있도록 먼저 힘써야 할 것입니다.
이에 더하여, 원유에 대한 의존도가 높기에 유가 상승에 의한 경제 파급력이 크다는 것을 검증할 수 있었습니다. 다만, 기름 한 방울 나지 않는 국가에서 여러 서비스업과 운송업, 철강업과 중화학 등의 산업을 지탱하기 위해서는 어쩔 수 없는 일이라 생각합니다.
우리나라는 이를 조정하기 위해서 여러 가지 정책들을 시행중입니다. 중앙은행은 통화정책의 수단과 환율의 변화에 대응하고자 공개시장을 운영해 BOK채권을 매도/매수하며, 여수신금리를 인상/인하시킴으로서 시장금리를 조절합니다. 또한, 지준율을 조정하여 금리와 환율까지 조정할 수 있는 여러 가지 정책을 시행중입니다. 이에 더하여, 예전에 시행했던 승용차 요일제를 기억하실 것입니다. 비록 몇 년 전 폐지되었지만 교통체증과 온실가스 감소, 그리고 원유 사용량을 줄이기 위해 시행한 제도였습니다. 이러한 다양한 정책을 바탕으로 저희는 우리나라의 물가 안정에 기여할 수 있는 정책에 대해 고민하였습니다.
결론적으로 환율안정화가 물가안정화에 가장 유의한 영향을 준다고 판단하여, 저희 조는 물가와 환율 안정을 위해 통화 스와프 체결을 제안합니다. 실제로 외환스왑은 서울외환시장 최대거래 외환상품으로써, 통화를 단기간에 싸게 빌릴 수 있다는 측면에서 그 유용함을 나타내고 있습니다. 이러한 장점을 살려 현재 RCEP(역내 포괄적 경제동반자협정)에서 아세안+3 통화스와프의 원활한 가동을 위한 협력이 추진되고 있습니다. 통화스와프 뿐 아니라 RCEP 회원국 간 공급망 안정화와 중소기업 경쟁력 강화 등을 통해 금융시장의 변동성을 대비하는 목적입니다. 이러한 협정이 우리나라의 물가 안정에 기여할 것이라 예상합니다.
💵 한계점 및 소감
프로젝트를 진행하며 느낀 점은 선형회귀를 통해 물가의 움직임이나 분산을 파악하기에 어려움이 있었다는 것입니다. 이는 물가지수가 저희가 선정한 지표만이 아닌 다양한 경제 지표의 영향을 받고, 더 나아가 사회 분위기에 의해서도 영향을 받는 종합 경제지수이기 때문일 것이라 생각합니다. 따라서 보다 많은 범주형 변수들을 사용해 수치로 표현하기 힘든 부분을 짚었더라면 이상치 분석에 도움이 되지 않았을까 생각해봅니다. 또한 원했던 만큼의 데이터를 모으지 못한 점이 다소 아쉽습니다. 데이터 중에 최근 5개년의 자료만 존재하는 경우가 있어 처음 목표로 했던 10개년 데이터를 추출할 수 없었기 때문입니다. 만약 더욱 많은 데이터를 이용했더라면, 더 유의한 결과를 얻지 않았을까 하는 아쉬움이 남기도 합니다.
그럼에도 프로젝트를 진행하면서 많은 것을 배웠습니다. 특히 모델을 생성하고 가정을 검증하면서 잔차의 분산과 자기상관을 해결하기 위해 겪은 실패들이 기억에 남습니다. 이 실패를 통해 최적의 모델은 단순히 함수의 사용으로 구축하는 것이 아닌 교호작용과 추세를 잡기 위한 변수, 절편 제거 등 많은 고민을 바탕으로 이뤄짐을 알게되었습니다. 각 단계별로 유의한 모델을 만들기 위해 노력하며 수치를 기반으로 결론을 내리는 법을 배운, 정말 많은 것이 남은 프로젝트였습니다.
💵 프로젝트 진행 일정
📆 11/03 데이터 탐색 및 계획 수립
📆 11/05 데이터 전처리 및 통합
- 소비자물가지수
- 국제수지
- 국제유가 도입가
- 경상수지
- 상품수지
- 무역수지
- 환율
- 코스피지수
- 코로나 발생 여부
📆 11/10 데이터 추가 탐색 및 전처리, 데이터 통합
- 기준금리
- COFIX 금리
📆 11/17 시계열 데이터 생성 및 linear regression model 생성
- 코로나 확진자 수 데이터 추가
- 시계열 데이터 독립변수들 간의 다중공선성 문제 해결
- 잔차들 간의 자기상관계수 파악
📆 11/24, 11/25 가정 검정 및 최종 linear regression model 생성
- 독립변수 간의 잔차의 자기상관 제거를 위한 방법 고안
- 최종 모델 생성
- 잔차플롯 / QQ plot / standarded residual plot / leverage plot 을 통한 모델 평가
📆 12/01 프로젝트 결과 발표
📆 12/09 프로젝트 최종 보고서 작성
💵 수행 역할
💡제가 프로젝트에서 수행한 주요 역할을 정리하면 아래와 같습니다.
📌 코스피, 환율, 유가, 코로나 발생여부 및 확진자 수, 소비자 동향지수, COFIX 금리 데이터 전처리 및 통합
📌 선형회귀 모델 구현
📌 모델 성능 평가 및 프로젝트 결론