셀스마트 CPI Nowcasting은 이렇게 시작됐습니다.
안녕하세요. 셀스마트의 인디입니다. 미국 현지시간 기준으로 4월 10일 오전 8시 30분, 미국 노동통계국(BLS)에서 소비자물가지수(CPI)가 발표됩니다. 매월 발표되는 이 숫자 하나로 시장이 크게 출렁이는 걸 보며 "이걸 미리 알 수 있다면 얼마나 좋을까?"라는 질문이 떠올랐습니다.
CPI는 월 단위로 발표되지만, 그 수치를 구성하는 여러 항목들은 매일 또는 매주 단위로 데이터가 공개되기도 합니다. 그렇다면 "그날그날 들어오는 정보를 조합해 이번 달 CPI를 미리 계산해보면 어떨까?"라는 아이디어로 개발이 시작됐습니다.
왜 CPI를 예측해야 할까?
미국 소비자물가지수(CPI)는 전 세계 금융 시장의 방향성을 결정짓는 핵심 지표입니다. 연방준비제도(Fed)의 통화정책, 채권 금리, 주식 시장의 흐름 등 다양한 자산군에 직간접적인 영향을 미칩니다. 그러나 CPI는 매월 중순에 전월 데이터를 발표하는 구조이기 때문에, 발표 이전까지 인플레이션 상황을 정량적으로 파악하기 어렵다는 한계가 존재합니다. 특히 인플레이션이 급등하거나 디스인플레이션으로 전환되는 시기에는 시장 대응 시점이 수익률에 큰 차이를 만들어냅니다.
아래 이미지는 2025년 2월 CPI 발표 당시(2025-03-12)의 나스닥 100 E-mini 선물 5분봉 차트입니다.

차트 중앙의 'CPI 발표' 구간을 보면, 발표 직후 강한 변동성이 터져 나오는 것을 확인할 수 있습니다. 당시 시장 컨센서스는 전년 동월 대비 2.9% 상승이었지만, 실제 발표치는 2.8% 상승으로, 소폭 하회했습니다. 이는 직전 발표치(3.0%) 대비로도 둔화된 결과였고, 전월 대비 상승률도 0.5%에서 낮아진 상황이었습니다.
흥미로운 점은, 시장 분위기는 그 전과 정반대였다는 것입니다. 당시 시장은 트럼프 행정부의 관세 정책 여파로 인플레이션이 다시 반등하고, 이로 인해 연준이 긴축을 강화할 수 있다는 우려에 휩싸여 있었습니다. 실제로 기대 인플레이션 지표도 계속 상승세를 보이고 있었죠.
하지만 발표된 실제 CPI 수치는 이런 시장의 우려와는 반대 방향이었습니다. 인플레이션은 오히려 완화되고 있었던 겁니다. 이 때문에 발표 직후 선물 시장은 급등했고, 월가는 일단 물가에 대한 우려를 한숨 돌리는 분위기로 전환됐습니다.
이처럼 CPI 발표는 시장 참여자들에게 단기적인 방향성과 포지셔닝 전략을 결정짓는 트리거로 작용합니다. 특히 발표 전, 시장 컨센서스를 상회할지 하회할지를 어느 정도라도 사전에 판단할 수 있다면, 정교한 이벤트 기반 전략을 구성할 수 있죠.
CPI 예측이 왜 어려울까?
CPI는 주거비, 식료품, 에너지, 서비스 등 다양한 품목들의 가격 변화를 종합한 지표입니다. 각 항목마다 데이터 발표 일정과 빈도, 변동성이 상이하여, 일관된 시점에서 데이터를 확보하기 어렵습니다. 일부 항목은 고빈도 데이터(예: 유가, 가솔린 가격)를 활용할 수 있지만, 주거비나 서비스 가격처럼 월 단위로만 제공되는 항목도 존재합니다.
또한 Ragged-edge 문제라고 불리는 구조적 결측 문제가 있습니다. 동일한 기준일에 대해 일부 항목은 이미 데이터가 존재하고, 일부는 아직 발표되지 않았기 때문에 모델링 시 큰 제약이 발생합니다. 더불어 CPI 구성 항목들의 가중치는 고정되어 있지만, 실제 시장 충격은 특정 항목에 집중되는 경우가 많아 구조적 비선형성도 고려되어야 합니다.
선행 연구
클리블랜드 연준(Cleveland Fed)의 CPI Nowcasting 모델을 주요 벤치마크로 삼았습니다. 해당 모델은 회귀 기반 Mixed-Frequency 접근법을 활용하여, 유가, 가솔린, 식료품 등 고빈도 데이터를 조합해 월별 CPI를 예측합니다. 단순한 구조임에도 실시간 데이터 반영성과 해석 가능성이 높아 좋은 평가를 받았습니다.
또한 유럽중앙은행(EZ), IMF, NY Fed 등에서도 다양한 시도가 이어졌으며, 대표적으로 DFM(Dynamic Factor Model) 기반 접근과 머신러닝 기반 예측(예: Enhanced Random Forests, Gradient Boosting) 등이 사용되었습니다. 우리는 이러한 연구들을 참고해, 현실적인 입력 데이터를 중심으로 구성한 하이브리드 회귀 기반 구조를 설계했습니다.
방법론
먼저 데이터를 수집하는 작업부터 시작했습니다. 데이터 소스로는 FRED, EIA, Yahoo Finance 등을 사용했으며, API 연결을 통해 자동 업데이트되는 구조를 구축했습니다. 이 과정에서 두 가지 까다로운 문제가 있었습니다.
첫째, look-ahead bias를 방지하기 위해 Vintage 데이터를 사용해야 했습니다. ALFRED를 활용해 각 시점별로 실제로 사용 가능했던 데이터만 추출함으로써, 미래 정보를 모델이 미리 알 수 없도록 구성했습니다.
둘째, 지표의 ‘발표 날짜’ 기준으로 데이터를 정렬해야 했습니다. 예를 들어, 3월 중순에 발표된 CPI는 2월 데이터를 의미하므로, 이를 정확히 모델의 학습 시점과 맞춰 반영하는 작업이 필요했습니다.
우리가 만든 모델은 복잡하지 않습니다. 핵심은 "오늘 들어온 정보로 최대한 합리적인 예측치를 제공하는 것"에 집중했습니다. 새롭게 발표된 데이터가 들어오면 즉시 예측값을 갱신합니다. 구조 자체는 간단하지만, 실제로 매일 돌아가는 시스템에서는 이런 작은 설계가 예측 안정성과 직결되죠.
결과
2024년부터 2025년 3월까지를 검증한 결과, 우리가 개발한 모델은 기존 모델에 비해 평균 예측 오차를 약 20% 줄이는 성과를 거뒀습니다.
예측 결과는 매일 갱신되며, 2025년 4월 9일 기준 CPI YoY 예측치는 2.49%로 나타났습니다.
후속 연구
앞으로는 또한 머신러닝 기반 예측 모델(MO-RFRN, LGBM 등)과 DFM 기반의 실시간 업데이트 시스템을 통합하여 예측 민감도와 정확도를 함께 높이는 방향으로 개발 중이며, 궁극적으로는 거시 경제 전반을 실시간으로 파악하여 실제 투자 성과로 연결지을 수 있도록 확장하는 것이 목표입니다.
[Compliance Note]
셀스마트의 모든 게시글은 참고자료입니다. 최종 투자 결정은 신중한 판단과 개인의 책임 하에 이루어져야함을 알려드립니다.
게시글의 내용은 부정확할 수 있으며, 매매에 따른 수익과 손실은 거래 당사자의 책임입니다.
코어16은 본 글에서 소개하는 종목들에 대해 보유 중일 수 있으며, 언제든 매수 또는 매도할 수 있습니다.