Citat:
Ursprungligen postat av Jegor
Min responsvariabel kommer vara binär som jag kommer försöka klassificiera.
Några av de förklaringsvariabler jag kommer använda är:
Hur många av lagets tidigare matcher slutar över X mål
Hur många matcher misslyckas laget med att göra mål
Hur många matcher lagen håller nollan.
...
...
...
Ungefär 45st just nu som kommer minska efter variabelselektion.
Sedan kommer jag även ta med avstånd mellan klubbarna, väderförhållanden m.m.
Notera: All statistik räknas per säsong, så jag upplever inte att gammal statistik kommer vara värdelös, men vi får se.
Datainsamlingen är inte klar ännu, men kommer bestå av 6460 matcher, dock så har jag har odds bara för ca 2000 av matcherna. Kan även inte kolla om vädret har något påverkan för samtliga matcher då ca 1/3 saknar starttid.
Om det visar sig att gammal data förvärrar modellerna så jag enkelt ta bort dom och fortfarande ha ett stort datamaterial att jobba med.
När datainsamlingen blir klar, vilket borde vara inom ett par dagar så får vi se om det finns någon korrelation mellan respons och förklaringsvariablerna.
Valideringen kommer enbart ske på matcher som inte ingår i träningsdata.
|
Många variabler, men kollar du korrelationen mot utfallet så kommer nog väldigt många att försvinna - hoppas jag. Jag menar att den blir tunga att använda annars