본문 바로가기
기타/Project

M6 Competition (Makridakis competition : 시계열 예측 대회)

by climba 2022. 3. 21.

0. 글 쓰기에 앞서

학부 연구생을 하며 M6 competition에 참여하게 되었다.

대회에 대해 인터넷 검색을 아무리 해봐도 이상한 자동차 대회만 나오고 Makridakis competition에 대한 한국어로 된 자료는 별로 없었다. 이에 내가 찾은 이 대회에 관련된 자료들을 정리해보려한다.

1. 이전의 대회들

M Competition은 다양한 시계열 예측 방법의 정확성을 평가하고 비교하기 위한 일련의 공개 대회다.

M6 competition은 이전에 열린 5개의 M(Makridakis)경쟁들과 매우 유사하다.

이전의 경쟁들 역시 시계열 데이터의 예측 대회였는데 주최자인 Makridakis(마크리다키스) 교수의 이름을 따서 Makridakis competition이라 불린다.

M 결과 발표 년도 사용된 시계열의 수 테스트한 방법의 수 다른 특징들
1 1982년 1001 15개 실시간 아님
2 1993년 29 16개(5명의 인간 예측자와 11개의 자동 추세 기반 방법) 및 2개의 결합된 예측 및 1개의 전체 평균 실시간, 많은 협력기관
3 2000년 3003 24개  
4 2020년 100,000 모든 주요 ML 및 통계 방법 첫 승자 Slawek Smyl, Uber Technologies
5 초기결과 2021년, 최종 결과 2022년 Walmart에서 제공하는 42,000개의 계층적 시계열 데이터 머신러닝, 딥러닝, 통계적 예측을 포함한 모든 주요 예측 방법  
6 초기결과 2022년, 최종 결과 2024년 50개의 S&P500 미국 주시과 50개의 국제 ETF로 구성된 실시간 재무 예측 경쟁 머신러닝, 딥러닝, 통계적 예측을 포함한 모든 주요 예측 방법  


2. 대회 개요

2-1. 효율적 시장 가설(EMH)

효율적 시장 가설이란 가격은 상품에 대해 얻을 수 있는 모든 정보를 빠르게 반영하며 따라서 장기적으로 그 정보들만을 이용하여 시장 수익률을 넘을 수 없다는 가설이다.

 

그러나 워렌 버핏, 피터 린치와 같은 저명한 투자자들이나 블랙스톤, 르네상스 테크놀로지스 등 유명 기업들은 수십년에 걸쳐 경이적인 투자 수익률을 기록했다. 효율적 시장 가설(EMH)을 지지하는 사람들은 이에 대해 어느정도의 “운"이 작용했고, 그런 경우는 매우 이례적이라고 말한다.

그들은 단기적으로는 시장이 효율적으로 작동하지 않을 수 있지만, 장기적으로 보면 효율적이라고 주장한다.

 

경제학자이자 펀드매니저인 리처드 롤은 이렇게 말했다.

“나는 여러 연구에 나온 다양한 투자전략을 시도해봤지만, 그걸로 한푼도 벌지 못했다. 시장이 비효율적이라면 그것으로, 체계적으로, 반복적으로 돈을 벌 수 있어야 하는데 그렇지 않다.”

이 역시 효율적 시장 가설을 지지하는 입장임을 알 수 있다.

2-2. 대회의 목표

갑자기 효율적 시장 가설에 대해서 언급한 이유는 M6 competition의 목표가 바로 이 효율적 시장 가설과 관련되어있기 때문이다.

M6 competition효율적 시장 가설의 유효성에 대해 의구심을 던진다.

대회의 목표는 다음 요소들 중 하나 혹은 그 이상의 조합에 의해 시장의 평균 수익률보다 높은 수익을 낼 수 있는지 확인하는 것이다.

  • 전체 시장 수익률 또는 개별 주식/ETF의 수익률을 정확하게 예측하는 능력.
  • 시장 또는 개별 주식/ETF 불확실성을 적절하게 모델링하는 능력.
  • 다양한 주식 및 ETF에 투자할 때 예측 정확도와 불확실성을 (포트폴리오) 투자 결정과 결합하는 능력.
  • 시장을 "이기기" 위해 예측하고 투자할 때 판단력을 사용하는 능력.
  • 일관된 투자 전략의 중요성.
  • 예를 들어, 평균 이상의 수익을 달성하기 위해 악용될 수 있는 판단 및 모델 기반 예측, 투자 결정 편향 및 비효율성을 포함한 다른 요소의 중요성.

3. 대회 특징

3-1. 주요 특징

대회의 주요 특징은 다음과 같다.

  • 100개의 자산군에 대한 예측
    • S&P 500 지수의 50개 종목 및 50개의 국제 상장지수펀드(ETF)
  • 예측 및 투자 결정에 사용할 수 있는 모든 정보를 사용할 수 있다.
    • 기존의 예측 대회들은 대부분 특정 데이터를 사용함
  • 예측성과투자성과를 모두 평가하는 듀애슬론 대회이다.

12개의 제출포인트가 있고 제출 후 1개월 동안 시험 실행 평가를 받는다.

 

Quarter Month 1 Month 2 Month 3
0 2022/03/06 2022/04/03 2022/05/01
1 2022/05/29 2022/06/26 2022/07/24
2 2022/08/212 2022/09/18 2022/10/16
3 2022/11/13 2022/12/11 2023/01/08

→ 4주간격, 일요일까지 제출 가능(18:00GMT,런던표준시)

→ 한국 시간 기준 월요일 03:00AM 까지 제출 가능

3-2. 주의사항

  • 특정 월에 예측 및 투자 결정을 하지 않기로 결정 한 경우, 이전 제출물이 이월되는 것을 기본으로 한다. 투자 결정에 대한 백분율(7번째 열) 역시 지난달과 동일하게 유지된다.
  • 특정 분기 첫 달에 예측 및 투자 결정을 제출하지 않고 이월 할 제출이 없는 경우, 해당 분기의 상을 받을 수 없다.
  • 글로벌 상(Global prize)을 받으려면 대회 첫 달부터 예측 및 투자 결정을 제출해야한다.
    • 분기가 지나면 받을 수 없다.
  • 100행 미만의 불완전한 파일은 유효하지 않다.
    • 즉 모든 자산군에 대한 예측값들을 모두 작성해서 제출해야한다.


4. 평가 방법

4-1. 제출형식

ID Rank 1 Rank 2 Rank 3 Rank 4 Rank 5 Decision
MMM 0 0.1 0.2 0.5 0.2 0
ATVI 0 0 1 0 0 0
GOOGL 0.1 0.1 0.1 0.1 0.6 0.5
APH 0.4 0.05 0.05 0 0 0
BMY 0.2 0.2 0.2 0.2 0.2 0
CB 0 0 0.1 0.4 0.5 0.3
EXR 0.7 0.3 0 0 0 -0.2
MSI 0 0 1 0 0 0
... ... ... ... ... ... ...
  • 1열은 자산의 이름
  • 2~6열은 각 Rank에 대한 예상 수익률의 순위 확률
    • 확률값이므로 0~1사이 값이여야하고, 각 Rank의 확률값들의 합은 1이 되어야함
    • 안 지킬시 무효처리
  • 7열은 투자 가중치
    • 각 자산에 대해 Long position이면 양수, Short position이면 음수 또는 position을 안 갖는경우 0을 입력
    • 가중치들의 절댓값 합은 1을 초과하면 안됨
      • 1 초과시 무효처리가되고, 1 미만일 경우 투자하지 않는 비율로 추정한다(현금보유)
    • 0.25 미만이면 경고 메시지가 표시되고 제출이 무효가 됨

4-2. 평가방식

M6 competition은 예측 성과투자 성과 두 순위의 산술평균을 통해 측정된다.

즉, 동일한 중요성을 가정한 후 다음과 같이 계산한다.

4-2-1. 예측 성능 측정

  • 100개의 자산군에 대해서 해당 기간동안 실현된 백분율 수익률을 rank1(최악)에서 rank5(최고)로 나눈다. (rank1,2,3,4,5 각각 20개의 자산군)
  • 이때 만약 4개의 자산이 18위에서 동률인 경우, 18,19,20,21 순위 인 것임으로 (5+5+5+4) / 4 = 4.75로 평균을 내주어 4개 자산 모두 rank4.75로 생각한다.
  • 예측 성능은 RPS(Ranked Probability Score로 측정한다.
    • qi,T,k 는 자산이 5분위수 k(k=1,2,3,4,5)로 순위가 지정되면 1, 그렇지 않으면 0인 벡터이다.
      • 자산 i가 60등의 수익률을 기록한 경우 qi,T,k = [0,0,1,0,0]이다.
    • fi,T,k 는 참가자가 제출한 특정 자산 fi,T에 대한 각 순위의 확률을 나타내는 벡터이다.
      • 즉, 제출형식의 2열~6열 벡터를 의미한다.(e.g. [0.2,0.2,0.2,0.2,0.2])
  • 만약, qi,T,k = [0, 0, 0, 1, 0], fi,T = [0, 0.2, 0.3, 0.4, 0.1] 일때 RPS를 계산해보면 다음과 같이 0.06이 나온다.

  • RPS는 완벽하게 예측을 한 경우 0이고, 그렇지 않은 경우에는 낮을수록 좋다.

 

 

4-2-2. 투자 결정의 성과 측정

  • 투자 결정의 성과는 포트폴리오 수익률(ret)과 포트폴리오 수익률의 표준편차(sdp)의 비율(IR)을 통해 측정한다.

  • ret은 연속 복합 포트폴리오 수익률을, sdp는 일일빈도로 측정한 수익률의 표준편차를 나타낸다.
  • IR은 Sharpe ratio를 변형한 형태인데 Risk-Free Rate는 0이라고 가정한다.

sharpe ratio(샤프지수) : 위험 자산에 투자함으로써 얻은 초과 수익의 정도를 나타내는 지표

risk-free rate(무위험 수익률) : 위험이 없는 투자의 이론적 수익률(3개월 만기 미국채의 이자율)

 

5. 정리

M6 competition 공식 홈페이지에 나온 내용들을 내가 요약한 것이다.

다만 마지막에 투자 결정의 성과 측정부분은 수식이 조금 더 복잡하였는데, 글로만 읽어서는 잘 이해가 되지 않았다.

중요한 것은 100개 종목들의 수익률을 낮은 표준편차(변동이 적게)로 최대화하고 각 자산들이 rank1~5 중 어디에 포함되있는지 정확하게 예측하는 것이 이 대회에서 좋은 점수를 받을 수 있는 방법이라는 것이다.

또한 대회의 평가 항목이 두개이고 각 순위들을 평균내는 형태로 계산하므로 한 가지 평가 항목에 시간을 많이 투자하는 것 보단 둘 다 적절히 배분하여 두 항목 모두에서 좋은 순위를 받는 것이 중요할 것이다.

 

더 자세한 정보를 알고싶다면 아래 공식 홈페이지에서 확인 할 수 있다.

https://m6competition.com/

 

Home page - M6

Data Download asset prices data. Download

m6competition.com

댓글