|
LinkBack | Ämnesverktyg |
2012-02-27, 13:09 | #1 |
Reg.datum: mar 2010
Inlägg: 347
Sharp$: 1076Sabermetrics-Test MLB Stats: 236 - 128 - 4 ROI: 109.75% Vinstprocent: 65.00% |
MLB betting och Sabermetrics
Hejsan.. det börjar ju bli dags för Spring Training nu och mina baseball-synapser blixtrar för fullt.. kan inte koncentrera mig på dagarna i väntan på att världens mest traditionsrika sport snart slår upp portarna för en ny säsong.
Därför tänkte jag i några inlägg på raken prata om hur jag de sensate åren (med varierad framgång skall sägas) använt mig av Sabermetrics för att räkna ut sannolikheten för att ett lag ska slå det andra och därmed bedöma om det finns värde i att spela ett visst odds. Jag tänker gå igenom vilka formler jag använt, samt hur jag modifierat dem för att öka träffprocenten. Om någon mod tycker att det hör mer hemma i Tänkarhörnan får ni gärna flytta topicen, men jag kände att det är så baseball-fokuserat att det är bättre att lägga det här.
__________________
"Alla kan inte som jag koppla bort känslorna och se siffrorna" - pilen - To view links or images in signatures your post count must be 10 or greater. You currently have 0 posts. |
2012-02-27, 13:10 | #2 |
Reg.datum: mar 2010
Inlägg: 347
Sharp$: 1076Sabermetrics-Test MLB Stats: 236 - 128 - 4 ROI: 109.75% Vinstprocent: 65.00% |
INLEDNING
I två år har jag kört MLB-bets med varierad framgång. Första året gick det väldigt bra, andra året var det väl strax under 100 ROI, vilket ju givetvis inte alls är godkänt. Till grund för mina bets använde jag några olika formler som skapats av Bill James, mannen som många kallar Sabermetrics fader. De formler jag använt är i första hand Pythagorean Win Percentage samt Log5 formeln. Därtill har jag dessutom utvecklat några egna varianter av de båda som jag kombinerat med originalen och därmed haft en rätt så unik variant av mina uträkningar. SABERMETRICS Vad är då Sabermetrics? Jo, det är ett samlingsnamn för i princip all icke-traditionell (som förvisso numera har blivit traditionell eftersom de funnits så länge) baseball-statistik. Saber är förtydligande av SABR, Society for American Baseball Research. Några av de statistikkategorier som är ett resultat av Sabermetrics är exempelvis VORP, DIPS, BABIP och OPS med flera.
__________________
"Alla kan inte som jag koppla bort känslorna och se siffrorna" - pilen - To view links or images in signatures your post count must be 10 or greater. You currently have 0 posts. |
2012-02-27, 13:11 | #3 |
Reg.datum: mar 2010
Inlägg: 347
Sharp$: 1076Sabermetrics-Test MLB Stats: 236 - 128 - 4 ROI: 109.75% Vinstprocent: 65.00% |
VAD JAG GJORT
De två formler jag använt är alltså Pythagorean Win% och Log5, två formler som appliceras mer på laget än på individen (vilket de flesta SABR-formler faktiskt gör). Mitt mål var att sätta en styrkefaktor på två lag som möts och sedan avgöra hur stor sannolikheten att det ena laget slår det andra var. Den första formeln, Pythagorean Win % är en variant av den vanliga vinstprocenten, det vill säga Wins/Games Played, men istället för att bara ta wins så räknar man ut en Win% baserat på Runs Scored och Runs Allowed, en slags "Så här bra BORDE lagets Win% vara baserat på hur många runs dom gör kontra släpper till".. Pythagorean Win% formeln i sitt ursprungsformat ser ut så här: Runs Scored är ju en rätt enkelt variabel att ta fram, det är helt enkelt så många runs scored laget har hittills under säsongen. Runs Allowed däremot är ju lite märkvärdigare i Baseball.. vi kan ju inte ta hela säsongens Runs Allowed för att applicera på en individuell match då starting pitcher är så oerhört påverkande. Det var alltså med Runs Allowed som jag stötte på min första utmaning. Hur tar jag Pitcherns ERA och använder som bas, men tar samtidigt i beaktande att han inte spelar alla 9 innings, samt att lagets försvarsspel utöver pitchningen påverkar? Så jag testade lite och landade till slut på följande: ((SP_ERA/9) * 5) + ((TEAM_ERA/9) * 4) TEAM_ERA blev helt sonika lagets runs allowed per match, oavsett om det var beroende på error eller starting pitcher eller bullpen. Hypotesen var att starting pitchern går ca 5 innings, sedan tar bullpen vid och eftersom jag räknar in oavsett error med mera i den andra variabeln så får jag med de extra runs som inte syns annars. Perfekt? Knappast, men åtminstonde mer trovärdigt än att endast använda Starting Pitcherns ERA. Låt oss kalla min ERA-variabel för modERA. Därmed har vi följande startvariabler för RUNS ALLOWED som är faktor två i Pythagorean Win %. För att slutligen få samma scope på siffrorna måste vi antingen multiplicera modERA med antalet spelade matcher, eller dividera Runs Scored med antalet matcher. Det spelar ingen roll vad man väljer, resultatet blir det samma, men man måste ändå tänka på scopet. Det ger oss följande variant av ovanstående formel: Win = (RunsScored^2) / ((RunsScored^2) + (modERA^2)) Detta skulle med andra ord vara lagets Win% om dagens starting pitcher startat varje match under året.. en slags styrkeindikator för laget med just denne killen på kullen.
__________________
"Alla kan inte som jag koppla bort känslorna och se siffrorna" - pilen - To view links or images in signatures your post count must be 10 or greater. You currently have 0 posts. Senast redigerad av dgothe den 2012-02-27 klockan 13:19. |
2012-02-27, 13:11 | #4 |
Reg.datum: mar 2010
Inlägg: 347
Sharp$: 1076Sabermetrics-Test MLB Stats: 236 - 128 - 4 ROI: 109.75% Vinstprocent: 65.00% |
LOG5 formula
Log5 är nyckeln till detta tankesätt, och det som verkligen tar fram procentchansen att lag1 slår lag2.. Grundtanken är att du har två styrkeindikatorer (en för varje lag) där den ena kan ha en viss edge på grund av hemmaplan och formeln tar fram procentchanserna för vinst för båda lagen. Formeln i sitt grundutförande ser ut så här: W% = (A - (A*B)) / (A + B - 2 * A * B) A = Lag 1 styrka och B = Lag 2 styrka, i vårt fall alltså lagens Pythagorean Win % som vi räknat ut enligt formeln i föregående inlägg. Men vi ska också tänka på hemmafördel. Här finns olika varianter på hur vi bäst hittar siffran som indikerar hemmafördel. Antingen tar man varje lags hemmafördel individuellt genom att helt sonika ta vinstprocenten hemma för laget och ta minus 50%.. detta ger en edge som sedan adderar eller reducerar vinstchansen för ena laget. Det andra sättet är precis som första varianten, fast man tar hemmafördelen för hela ligan. Säg att genomsnittet för hemmalagens vinstprocent är .542, då är hemmafördelen alltså 4.2%, vilket ska appliceras på vinstchansen som vi räknade ut med log5. För att hemmafördelen korrekt ska kunna användas kan vi inte bara öka hemmalagets vinstchans med 4.2 och reducera bortalagets med 4.2, utan vi måste tänka att den TOTALA fördeln ska vara 4.2.. skulle vi göra som i meningen innan skulle ju vinstchansen för hemmalag vara dubbelt så hög som den borde; alltså måste vi dividera 4.2 med 2 och sedan addera 2.1 (hälften av 4.2) till hemmalaget, och reducera 2.1 från bortalagets vinstchans. Simsalabim så har vi två procentsatser, en för sannolikheten att hemmalaget vinner samt en för att bortalaget vinner. Dessa procentsatser kan vi sedan räkna om till decimalodds utan problem för att se hur nära vi hamnar spelbolagens odds. Glöm inte viggen bara.
__________________
"Alla kan inte som jag koppla bort känslorna och se siffrorna" - pilen - To view links or images in signatures your post count must be 10 or greater. You currently have 0 posts. Senast redigerad av dgothe den 2012-02-27 klockan 13:32. |
2012-02-27, 13:12 | #5 |
Reg.datum: mar 2010
Inlägg: 347
Sharp$: 1076Sabermetrics-Test MLB Stats: 236 - 128 - 4 ROI: 109.75% Vinstprocent: 65.00% |
EXEMPEL
Den 19e oktober 2011 spelades första matchen i den 107e World Series mellan Texas Rangers och St. Louis Cardinals. Jag tänkte använda denna match för att göra ett exempel baserat på de formler jag berättat om hittills. Texas Rangers vs St. Louis Cardinals Game #1, World Series Texas Starting Pitcher: C.J. Wilson, ERA 2.94 St. Louis Starting Pitcher: Chris Carpenter, ERA 3.45 Texas W/L: 96/66 St. Louis W/L: 90/72 Texas RS/RA: 855/677 St. Louis RS/RA: 762/692 Texas modERA = ((2.94/9) * 5) + (((677/162)/9)*4) = 1.63 + 1.86 = 3.49 St. Louis modERA = ((3.45/9) * 5) + (((692/162)/9)*4) = 1.92 + 1.90 = 3.82 Runs Allowed Texas w/ CJ Wilson = 3.49 * 162 = ca 562 Runs Allowed St. Louis w/ Chris Carpenter = 3.82 * 162 = ca 618 Texas Pyth Win% = (855^2) / (855^2 + 562^2) = 731025 / (731025+315844) = 0.70 St. Louis modERA = (762^2) / (762^2 + 618^2) = 580644 / (580644+381924) = 0.60 Här har vi alltså Texas med en Pythagorean vinstprocent på 70% och St. Louis med 60%. Detta kan jämföra med Texas riktiga vinstprocent på 60% och St. Louis med 55%. Eftersom båda lagen startade med sina bästa pitchers i första matchen i World Series är det här inte alls orimliga skillnader. Steg 2 är alltså att jämföra lagens styrkeindikatorer mot varandra för att lista ut hur stor sannolikheten är för Texas att vinna mot St. Louis (eller tvärtom). Log5 ser som sagt ut på det här viset: W% = (A - (A*B)) / (A + B - 2 * A * B) Vi ersätter nu A med Texas siffror och B med St. Louis siffror och får följande: W% = (0.70 - (0.70 * 0.60)) / (0.70 + 0.60 - 2 * 0.70 * 0.60) W% = 0.28 / 0.46 = 0.61 Lag A, Texas, har alltså i grunduträkningen 61% vinstchans mot St. Louis i den här matchen. 1-0.61 = 0.39, så St. Louis har alltså i sin tur 39% chans till vinst. Nu inledde dock St. Louis hemma, så vi måste ge laget en liten fördel i form av 2.1% (tar schablonsiffran vi använde tidigare) och även sänka Texas med 2.1%. Det ger oss följande siffror: Vinstchans Texas: 58.9% - odds ca 1.70 Vinstchans St. Louis: 41.1% - odds ca 2.43 För att ta hänsyn till bolagens vig (vigorish, se http://en.wikipedia.org/wiki/Vigorish) brukar jag lägga på 10-15% för att hitta värdet, så i det här fallet hade jag ansett att allt över 1.87 på Texas hade varit spelvärt och 2.67 för St. Louis. Oddssättarna tyckte tvärtom. Enligt oddsportal var St. Louis favoriter till 1.78 och Texas fick 2.09. Hur gick det egentligen då? Jo, St. Louis vann med 3-2.. så här gick det inte hem alls. Så långt in på säsongen är det oerhört många fler faktorer som spelar in än bara Runs Scored och Runs Allowed för laget, så jag ursäktar mig lite grann här. Viktiga faktorer som jag inte har med i dessa exempel är bland annat lagets form, eventuella saknade spelare samt nytillkomna spelare. Topplagen förstärker ju oftast i samband med trade deadline och då är det inte rätt att uteslutande ta hela säsongens siffror. Det är flera sådana varians-variabler som jag vidareutvecklat själv, men denna genomgång är för själva grunderna i mina formler. Jag har liknande varianter för resultaten senaste 30 dagarna samt senaste 15 dagarna och snittar sedan dessa tre procentsatser (totala säsongen, 30 dagar och 15 dagar) för att få en mer representabel siffra. Vad man dessutom borde göra är att gradvis vikta siffrorna så att ju längre säsongen går, desto mer är det 30/15 dagars som betyder något än hela säsongens siffror.
__________________
"Alla kan inte som jag koppla bort känslorna och se siffrorna" - pilen - To view links or images in signatures your post count must be 10 or greater. You currently have 0 posts. Följande användare gav Sharp$ för den här posten:
JSQ (+20) Senast redigerad av dgothe den 2012-02-27 klockan 14:48. |
2012-02-27, 13:47 | #6 |
Banned
Reg.datum: jan 2010
Inlägg: 1 975
Sharp$: 2021Allsvenskan 2012 Stats: 2 - 1 - 0 ROI: 146.67% Vinstprocent: 66.67% |
Lycka till iår, jag kommer när vädret har blivit varmare och variansen minskar
Gillade du Moneyball? |
2012-02-27, 13:57 | #7 |
Reg.datum: jan 2010
Ort: Blue Berry Hill
Inlägg: 1 045
Sharp$: 987NHL Grind 14-15 Stats: 19 - 31 - 3 ROI: 93.74% Vinstprocent: 38.00% |
Grymt denna skall följas med samma intresse som dom förra.
BOL! |
2012-02-27, 14:47 | #8 |
Reg.datum: mar 2010
Inlägg: 347
Sharp$: 1076Sabermetrics-Test MLB Stats: 236 - 128 - 4 ROI: 109.75% Vinstprocent: 65.00% |
Lemmy, jag tyckte faktiskt att Moneyball var bra.. över förväntan.. som film då .. men den tar inte upp alla detaljer kring statistiken som är med i boken, så vill man verkligen förstå vad dom gjorde bör man läsa boken istället.
__________________
"Alla kan inte som jag koppla bort känslorna och se siffrorna" - pilen - To view links or images in signatures your post count must be 10 or greater. You currently have 0 posts. |
2012-02-27, 15:26 | #9 |
Schysta tankar!
Synd att det som vanligt e lite klurigt att backtesta sina idéer bara... |
|
2012-02-27, 18:33 | #10 |
Moderator
Reg.datum: jan 2010
Inlägg: 7 444
Sharp$: 5408Fotboll 2013 Stats: 306 - 184 - 57 ROI: 104.46% Vinstprocent: 62.45% |
Off Topic månne, men tror du dessa formler är applicerbara på andra lagsporter?
Jag menar, runs scored oct runs allowed kan ju lika gärna vara Mål och Insläppta mål? Samma sak gäller med Hemma/Borta i fotboll, bara andra siffror. |
2012-02-27, 18:43 | #11 |
Det ser ut som om han har gett det ett försök med NHL. Kolla hans spread
|
|
2012-02-27, 18:54 | #12 |
Reg.datum: mar 2010
Inlägg: 347
Sharp$: 1076Sabermetrics-Test MLB Stats: 236 - 128 - 4 ROI: 109.75% Vinstprocent: 65.00% |
Robin, det borde gå hyfsat tycker jag, men man ska komma ihåg att det ger endast ML-odds eftersom vi talar om vinstprocent när lag A möter lag B. Därmed är det inte rakt applicerbart på sporter med 1x2 eller sporter med spread (typ amerikansk fotboll eller basket) utan att göra modifikationer.
Sen har ^2 faktorn diskuterats tidigare och en annan faktor kanske ska användas för andra sporter. I basket snackas det till exempel om att göra om PythWin till att se ut så här: E(W%) = points scored^11.5 / (points scored^11.5+points allowed^11.5). Jag har testat med hockey och där har det gått sådär.. gick skitbra en period i början på förra året men har gått mycket sämre i år.
__________________
"Alla kan inte som jag koppla bort känslorna och se siffrorna" - pilen - To view links or images in signatures your post count must be 10 or greater. You currently have 0 posts. Följande användare gav Sharp$ för den här posten:
RobinD (+5) Senast redigerad av dgothe den 2012-02-27 klockan 18:55. |
2012-02-27, 18:59 | #13 |
För fotboll finns det bland annat http://www.soccermetricsblog.com/ & http://www.soccermetrics.net (samma sida bara gamla och ny adress) där det skrivs en del om detta inom fotboll.
Följande användare gav Sharp$ för den här posten:
RobinD (+5) |
|
2012-02-27, 22:37 | #14 | |
dgothe - tack för det intressanta example inlägget!
Citat:
Billy Beane jobbade ju till exempel för San Jose i MLS med syftet att utveckla en motsvarighet till Saber. I dagsläget använder väl alla professionella lag liknande statistik i åtminstone fotboll. Minns för något år sedan en konsultfirma som AIK tog in för att göra utvärderingar med hjälp av dataloggers (GPS) etc. Tråkigt att det dröjer innan sådant blir tillgängligt för oss bara, skulle öppna upp en helt ny värld för oss statistiknördar! |
||
2012-02-27, 22:44 | #15 | |
Citat:
|
||
2012-02-27, 23:09 | #16 |
Reg.datum: mar 2010
Inlägg: 347
Sharp$: 1076Sabermetrics-Test MLB Stats: 236 - 128 - 4 ROI: 109.75% Vinstprocent: 65.00% |
Hittade förresten den här länken förut.. använder samma grundteori fast för basket och har gjort ett försök att räkna ut spreaden..
http://www.rockytoptalk.com/2008/2/27/165520/578 Frågan är dock hur han hittar värde i spreaden..
__________________
"Alla kan inte som jag koppla bort känslorna och se siffrorna" - pilen - To view links or images in signatures your post count must be 10 or greater. You currently have 0 posts. |
2012-03-02, 18:27 | #17 |
Intressant, mycket intressant. Sjukt bra genomgång och ska bli oerhört spännande att följa.
Har två frågor som jag gissar att du tänkt på och säkert avfärdat. 1. Har du funderat på att använda någon annan statistisk variabel för SP än ERA med tanke på hur subjektiv och missledande ERA ändå är? FIP? ERA+? 2. Har du funderat på att använda någon form av statistik för lagens samlade statistik från deras bullpen? Möjligtvis med utgångspunkt i hur långt dagens SP i snitt jobbar. Inte sällan behåller ju Lincecum bollen lite längre än Barry Zito, om man säger så. |
|
2012-03-02, 18:37 | #18 |
Reg.datum: mar 2010
Inlägg: 347
Sharp$: 1076Sabermetrics-Test MLB Stats: 236 - 128 - 4 ROI: 109.75% Vinstprocent: 65.00% |
1. jag använde xFIP parallellt med ERA under förra säsongen. Saken med ERA i det här sammanhanget är dock att jag egentligen inte BARA är ute efter pitcherns styrka, utan jag försöker ju simulera hur många runs som kommer ges upp i matchen av hela laget. Därför är inte ERA helt åt helvete då resten av laget faktiskt påverkar runs allowed också.
2. Jag har haft funderingar kring det, och statistiken finns för nedladdning (jag har alltså skrivit program som hämtar all data varje dag och göra alla uträkningar med mera), men det har aldrig blivit av. Men återigen vill jag peka på vad jag säger i punkten ovan; det är inte BARA pitchern som påverkar lagets totala runs allowed, det är resten av laget också.
__________________
"Alla kan inte som jag koppla bort känslorna och se siffrorna" - pilen - To view links or images in signatures your post count must be 10 or greater. You currently have 0 posts. |
2012-03-03, 10:35 | #19 |
Självklart förstår jag att pitchern inte är avgörande för Runs allowed. Men vad jag antar blir problemet (om det nu är ett problem, över tid kanske det bara blir meningslöst att leta så små skillnader) är att errors ju inte är objektiva utan beror på vad Game scorern anser vara ett error.
Oavsett, väldigt intressant projekt. Ser fram emot att följa det. |
|
|
LinkBacks (?)
LinkBack to this Thread: https://www.sharps.se/forums/baseball/11126-mlb-betting-och-sabermetrics/
|
||||
Postat av | For | Type | Datum | |
Baseboll - Diskussionsforum - Visa tr | This thread | Refback | 2012-03-03 18:54 |