GPT-4 > GPT-3.5-turbo: 모든 조건에서 GPT-4가 더 높은 상관관계를 보이며, 재무 언어 이해 능력이 우수함.
편향 문제: GPT 모델은 긍정적 공시 내용을 과대평가하는 경향이 있음.
전문가 의견과의 일치도:
Cohen’s Kappa: 0.352
단순 합치율: 68% → 비교적 양호한 수준.
최적 조건: GPT-4는 긍정적 평가를 줄이는 조정을 적용한 조건에서 가장 높은 성능을 보임.
Opinion
본 연구는 LLM이 한국 기업 공시 감성 분석에서 일정 수준의 신뢰성을 확보할 수 있음을 입증했다. 특히 GPT-4가 GPT-3.5보다 우수한 성능을 보였다는 점은 최신 LLM을 활용한 금융 데이터 분석의 가능성을 시사한다. 다만, 긍정적 감성 평가를 과대평가하는 경향이 있어 현실적인 적용에는 조정이 필요하다. 또한, 외부 데이터 활용 및 정량적 분석이 불가능하다는 한계가 명확히 드러났으며, 이는 향후 금융 AI 모델 개발 시 해결해야 할 주요 과제가 될 것이다. 결론적으로, GPT-4 기반 감성 분석은 보조 도구로 유용할 수 있으나, 전문가 분석을 완전히 대체하기에는 한계가 있다.
Core Sell Point
GPT-4는 한국 기업 공시 감성 분석에서 유용하지만, 편향성과 데이터 활용 한계로 인해 보완이 필요하다.
"Large Language Models for Semantic Monitoring of Corporate Disclosures: A Case Study on Korea’s Top 50 KOSPI Companies"
본 논문에서는 OpenAI의 GPT-3.5-turbo와 GPT-4와 같은 대규모 언어 모델(LLM)을 활용하여 한국 KOSPI 상위 50대 기업의 공시 자료에 대한 감성 분석을 자동화하는 가능성을 탐색한다.
1. 주요 목표:
* LLM이 기업 공시 자료의 감성을 분석하는 데 얼마나 효과적인지 평가한다.
* GPT-3.5-turbo와 GPT-4 모델의 성능을 비교한다.
* LLM을 사용한 감성 분석의 과제와 한계를 파악한다.
2. 연구 방법:
* 2023년 6월 28일 기준으로 KOSPI 상위 50대 기업을 선정한다.
* 2022년 1월 1일부터 2023년 5월 31일까지의 월별 공시 요약 자료를 수집한다.
* GPT 모델에 기업의 재무 건전성, 시장 점유율, 성장 잠재력 등의 요소를 평가하도록 지시한다.
* GPT 모델과 금융 전문가가 생성한 감성 평가를 1(매우 부정적)에서 5(매우 긍정적) 척도로 비교한다.
* Cohen's Kappa 통계량과 단순 합치율을 사용하여 평가자 간의 일치도를 측정한다.
* 스피어만 상관계수(Spearman correlation coefficient) 및 켄달 순위 상관계수(Kendall)를 사용하여 GPT 모델과 인간 평가 간의 상관관계를 분석한다.
3. 주요 결과:
GPT-4의 우수한 성능: 모든 조건에서 GPT-4 모델은 GPT-3.5-turbo 모델보다 높은 상관관계를 보여주었다. 이는 GPT-4가 더 복잡한 재무 언어를 이해하고 평가하는 능력이 뛰어나다는 것을 의미한다.
최적의 조건: GPT-4 모델은 긍정적인 평가를 다소 줄이는 조정을 적용한 조건 2에서 모든 측정 기준에 걸쳐 가장 높은 성능을 보였다.
평가 편향: GPT 모델은 긍정적인 공시 내용을 과대평가하는 경향이 있는 것으로 나타났다. 이는 GPT 모델이 모든 공시 자료를 긍정적으로 해석하는 경향이 있음을 시사하며, 추가적인 연구를 통해 완화할 필요가 있다. 하지만, 본 연구는 LLM의 한계를 인식하고 이를 개선하기 위한 추가적인 조정을 통해 편향을 해결할 수 있음을 제시한다.
전문가 의견과의 일치율: Cohen's Kappa 통계량은 0.352, 단순 합치율은 68%로 나타나, 전문가 의견과 비교적 일치하는 것으로 판단된다.
4. 한계점 및 과제:
* LLM은 분석 대상 기업에 대한 배경 지식이 부족하여 분석의 깊이와 문맥 이해 능력이 제한적이다.
* 재무 데이터 표 또는 뉴스 기사 등 외부 데이터 소스를 활용하지 못한다.
* 복잡한 재무 공식이나 고급 통계 분석을 이해하고 수행하는 데 제한적이다.
* LLM은 변경될 수 있으며, 이는 일관성 없는 성능으로 이어질 수 있다.
5. 결론:
본 연구는 LLM(특히 GPT-4)이 한국 기업의 공시 자료에 대한 감성 분석을 수행하는 데 잠재력이 있음을 보여준다. 하지만 LLM의 한계와 편향을 해결하고, 문맥적 이해를 개선하며, 외부 데이터 통합, 수학적 분석 능력을 향상시키는 등 추가 연구가 필요하다. 이 연구는 실시간 감성 모니터링 분야에서 LLM의 기능과 한계에 대한 이해를 높이는 데 기여하고, 학계와 산업 실무자 모두에게 귀중한 정보를 제공한다.