2020 빅콘테스트 데이터분석분야 퓨처스리그
: KBO 정규시즌 팀별 승률, 타율 및 방어율 (평균자책점) 예측
- 약 5개월 (2020.7 - 2020.11)
- 김동현(@ddhh445)
- 김민영(@kkminyoung)
- 남상대(@nsd9696)
- 이윤정(@yjlee-lis)
- 임창건(@ckdrjs96)
- 최우수상 부문 한국지능정보사회진흥원장상
-
2020년 9월 28일 ~ KBO 정규리그 종료시점까지의 각 팀의 승률, 타율, 방어율 예측
-
팀별 약 700개 경기의 경기결과를 활용하여, 추후 2-30개 경기결과 예측하기
- 다음 20 경기의 평균 타율, 방어율, 승률을 y_next라는 타겟 변수로 재정의
- 이때, VAR모델은 데이터의 시계열성을 통해 이후 기간의 값을 예측하므로 y_next 변수 없이 진행
- 이상치 제거
- 세이버 메트릭스 지표 추가
- 트랜드 반영 변수 추가
-
Parametric Model
- Regression 모델 : ridge, Lasso, best subset selection, GLM
- 시계열 모델 :
VAR, ARIMA, SARIMA, FBprophet
-
Non-Parametric Model
SVR- KNN
- Tree Model :
Random Forest,LGBM LSTM,DNN
cf. 모델 검증 후 선정된 모델 : 블럭 표시
-
(VAR + LSTM + LGBM + SVR + RF + 2020년 데이터) / 6
- 왜 1/6 인가?
: 해당 문제는 데이터셋이 적어 오버피팅의 위험성이 매우 높았기에, validation set의 결과를 신뢰할 수 없다고 판단하였다. 최대한 일반화된 모델을 만들기 위하여 평균값으로 최종 결과를 도출하였다. - 왜 2020년 데이터가 추가되었는가?
: 야구 예측에 있어 최신 데이터는 매우 중요한 역할을 한다. 예를 들어, SK의 경우 작년까지만 해도 강팀이었지만 올해 9위로 추락하는 하락 경향을 보였다. 이러한 2020년의 데이터를 직접적으로 반영하기 위하여 해당 데이터를 추가하였다.
- 왜 1/6 인가?
| 예측 방어율 | 예측 타율 | 예측 승률 | |
|---|---|---|---|
| WO | 4.567643 | 0.270651 | 0.550921 |
| OB | 4.506169 | 0.284679 | 0.54775 |
| NC | 4.643764 | 0.278741 | 0.59196 |
| SK | 5.427254 | 0.257827 | 0.410641 |
| LG | 4.62773 | 0.274902 | 0.492944 |
| KT | 4.918385 | 0.272521 | 0.502009 |
| LT | 5.027182 | 0.271161 | 0.488329 |
| HT | 5.307015 | 0.27756 | 0.45959 |
| SS | 5.322334 | 0.268757 | 0.468494 |
| HH | 5.200824 | 0.256868 | 0.39356 |
