Skip to content

yjlee-lis/2020bigcontest

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

2020 BigContest

표지



1. 프로젝트 소개


1.1 참여 대회

2020 빅콘테스트 데이터분석분야 퓨처스리그

: KBO 정규시즌 팀별 승률, 타율 및 방어율 (평균자책점) 예측


1.2 대회 기간

  • 약 5개월 (2020.7 - 2020.11)

1.3 팀원 소개


1.4 수상



2. 프로젝트 요약


2.1 문제 정의 및 데이터 파악

분석목표

  • 2020년 9월 28일 ~ KBO 정규리그 종료시점까지의 각 팀의 승률, 타율, 방어율 예측

  • 팀별 약 700개 경기의 경기결과를 활용하여, 추후 2-30개 경기결과 예측하기


2.2 분석 목표

도식화

  • 다음 20 경기의 평균 타율, 방어율, 승률을 y_next라는 타겟 변수로 재정의
  • 이때, VAR모델은 데이터의 시계열성을 통해 이후 기간의 값을 예측하므로 y_next 변수 없이 진행

2.3 데이터 전처리 및 EDA

  • 이상치 제거
  • 세이버 메트릭스 지표 추가
  • 트랜드 반영 변수 추가

2.4 모델 선정 검증

  • Parametric Model

    • Regression 모델 : ridge, Lasso, best subset selection, GLM
    • 시계열 모델 : VAR, ARIMA, SARIMA, FBprophet
  • Non-Parametric Model

    • SVR
    • KNN
    • Tree Model : Random Forest, LGBM
    • LSTM, DNN

cf. 모델 검증 후 선정된 모델 : 블럭 표시


2.5 최종 모델 구축 및 훈련

  • (VAR + LSTM + LGBM + SVR + RF + 2020년 데이터) / 6

    • 왜 1/6 인가?
      : 해당 문제는 데이터셋이 적어 오버피팅의 위험성이 매우 높았기에, validation set의 결과를 신뢰할 수 없다고 판단하였다. 최대한 일반화된 모델을 만들기 위하여 평균값으로 최종 결과를 도출하였다.
    • 왜 2020년 데이터가 추가되었는가?
      : 야구 예측에 있어 최신 데이터는 매우 중요한 역할을 한다. 예를 들어, SK의 경우 작년까지만 해도 강팀이었지만 올해 9위로 추락하는 하락 경향을 보였다. 이러한 2020년의 데이터를 직접적으로 반영하기 위하여 해당 데이터를 추가하였다.

2.6 결과 도출

예측 방어율 예측 타율 예측 승률
WO 4.567643 0.270651 0.550921
OB 4.506169 0.284679 0.54775
NC 4.643764 0.278741 0.59196
SK 5.427254 0.257827 0.410641
LG 4.62773 0.274902 0.492944
KT 4.918385 0.272521 0.502009
LT 5.027182 0.271161 0.488329
HT 5.307015 0.27756 0.45959
SS 5.322334 0.268757 0.468494
HH 5.200824 0.256868 0.39356

About

빅콘테스트 퓨처스리그

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 5