Visa ett inlägg
Gammal 2012-01-22, 20:37   #9
astvald
 
Reg.datum: aug 2011
Inlägg: 88
Sharp$: 608

NHL
Stats: 64 - 83 - 0
ROI: 97.04%
Vinstprocent: 43.54%

Standard

Lite teori


Teorin bakom min (och många andra) statistiska modeller är att modellera t.ex. gjorda och insläppta mål som Poissonfördelade slumpvariabler. Poissonfördelningen passar bra för att beskriva händelser som är förhållandevis ovanliga, och som sker oberoende av varandra. Gjorda mål i många sporter (tex ishockey) uppfyller dessa antaganden åtminstone någorlunda väl. Däremot lämpar sig inte Poissonfördelningen så bra för att modellera (t.ex.) poäng i baseball -- det är mer sannolikt att få en andra poäng i en inning när man väl fått sin första.

Jag har knappt 700 matcher från årets NHL-spel i en databas. Vi roar oss med att låta X beteckna antalet gjorda mål för hemmalaget och Y antalet gjorda mål för bortalaget och antar vidare att X och Y är oberoende (se nedan!) Poissonfördelade slumpvariabler. Om vi anpassar X och Y till de 700 matcherna och bestämer parametrarna för X och Y med Maximum Likelihood-uppskattningar, finner vi att X är ungefär Poi(2.80) och Y är ungefär Poi(2.48).

Dessa uppskattningar i sin tur skulle medföra att antalet gjorda mål för hemmalaget skulle fördela sig enligt:

Kod:
Mål Modell Verkliga data
 0   42.0    [43]
 1  117.7   [130]
 2  165.0   [164]
 3  154.2   [120]
 4  108.1   [122]
 5   60.6    [73]
 6   28.3    [25]
 7   11.3     [9]
 8    4.0     [4]
 9    1.2     [3]
10    0.3     [0]
11    0.1     [0]
Modellen stämmer förbluffande väl. Antalet matcher med 1 och 4 mål är lite för lågt och antalet med 3 mål lite för högt, men i stort sett ser modellen bra ut. Motsvarande beräkningar för bortalaget ger

Kod:
Mål Modell Verkliga data
 0   57.8    [50]
 1  143.5   [140]
 2  178.3   [193]
 3  147.7   [150]
 4   91.7    [86]
 5   45.6    [50]
 6   18.9    [18]
 7    6.7     [5]
 8    2.1     [0]
 9    0.6     [1]
10    0.1     [0]
11    0.0     [0]
och här är överensstämmelsen mellan modell och data ännu bättre. Under förutsättningen att X och Y är oberoende slumpvariabler skulle man få följande tabell över matchresultat (hemmalagets mål radvis; bortalagets kolumnvis, verkliga data inom klammer):

Kod:
H  A: 0         1          2          3          4          5
0   3.50 [ 3]  8.69 [ 7] 10.80 [ 7]  8.95 [18]  5.56 [ 2]  2.76 [ 2] 
1   9.81 [12] 24.38 [36] 30.29 [22] 25.08 [19] 15.58 [30]  7.74 [ 8] 
2  13.75 [ 7] 34.17 [23] 42.46 [65] 35.17 [27] 21.85 [22] 10.86 [15] 
3  12.85 [15] 31.94 [16] 39.68 [27] 32.87 [32] 20.42 [ 9] 10.15 [16] 
4   9.01 [ 6] 22.39 [34] 27.81 [40] 23.04 [24] 14.31 [12]  7.11 [ 4] 
5   5.05 [ 4] 12.55 [18] 15.60 [23] 12.92 [18]  8.02 [ 5]  3.99 [ 3]
Här syns det stora problemet med Poissonmodeller. I verkligheten är X och Y inte oberoende, och ett sådant antagande ger rejält underskattade sannolikheter för oavgjort, i synnerhet underskattas resultaten 1-1 och 2-2. Tyvärr blir matematiken för korrelerade Poissonmodeller avsevärt mer komplicerad, men jag planerar att återkomma till sådana lite senare.

Sammanfattningsvis uppskattar den (oberoende) Poissonmodellen slutresultat enligt

Kod:
1    322.6 [311]
x    122.4 [152]
2   248.0 [230]
Här syns det tydligt att antalet x är ca 20% för lågt, men att förhållandet 1/2 stämmer väl överens med verkliga data.

Alla ovanstående beräkningar är gjorda kollektivt för alla lag tillsammans, men kan kan förstås göra dem lag för lag också. Då blir osäkerheten förstås lite större, eftersom datamaterialet är mindre, men i det stora hela för man motsvarande överensstämmelse.
Följande användare gav Sharp$ för den här posten:
lordagspippi (+10), Persa (+10), Bjourne (+5)
astvald är inte uppkopplad   Ge poäng Svara med citat