|
LinkBack | Ämnesverktyg |
2014-01-02, 10:47 | #1 |
Hur validerar ni era statistiska modeller?
Denna frågan riktar sig specifikt till er som bygger feta matematik modeller
Jag gissar att ni också helt plötsligt sitter där med lite olika alternativ och försöker plocka fram den bästa modellen att implementera. Jag är nyfiken på vilka kriterier ni andra utvärderar era modeller efter (utöver statistisk signifikans etc)? Själv så har jag listat en del saker som jag håller som viktiga när jag utvärderar modellerna på simuleringsdata: - logisk edge, dvs kräver jag högre edge så ska också den förväntade avkastningen vara högre. - när jag analyserar simulerad portföljtillväxt så vill jag minimera variansen, alltså en så "rak" och fin tillväxt som möjligt - När jag bryter ROI per argument (t ex matchminut) så vill jag att modellen är lönsam i samtliga argument. Min fråga som jag gärna vill diskutera här, finns det några fler egenskaper i modellen som ni tycker är viktiga när ni utvärderar? |
|
2014-01-02, 17:24 | #2 |
Blir nog dåligt gensvar här, tror antalet Sharps som gör egna modeller är rätt litet.
Punkt 1: Förstår ej vad du menar. Punkt 2: Förstår inte poängen. Om du har en viss ROI så är väl variansen endast beroende av oddset, eller? Punkt 3: Varför? |
|
2014-01-03, 01:26 | #3 |
i hate bunnies
Reg.datum: jan 2010
Ort: Akihabara
Inlägg: 1 452
Sharp$: 1188mackapär ver.0.8.1 Stats: 2879 - 3456 - 618 ROI: 100.19% Vinstprocent: 45.45% |
/me också konfunderad...
Om man nu tex ska studera sin nya modell för slantsingling så vill man ju antagligen veta hur många gånger ett visst utfall inträffar i en viss mängd data och mäta hur mycket modellens % skiljer sig från verkligheten. Varken roi, odds, insats eller annat påverkar ju modellens tillförlitlighet.
__________________
active: To view links or images in signatures your post count must be 10 or greater. You currently have 0 posts. old: To view links or images in signatures your post count must be 10 or greater. You currently have 0 posts. | To view links or images in signatures your post count must be 10 or greater. You currently have 0 posts. | To view links or images in signatures your post count must be 10 or greater. You currently have 0 posts. | To view links or images in signatures your post count must be 10 or greater. You currently have 0 posts. "…a soccer match is equivalent to two teams throwing a dice. The number 6 means goal and the number of attempts of both teams is fixed already at the beginning of the match, reflecting their respective fitness in that season."
|
2014-01-03, 10:54 | #4 |
Alla är förvirrade, jag är med andra ord otydlig och opedagogisk precis som jag brukar vara
Min fråga handlar egentligen om hur man hanterar den modellfloran man har EFTER det att man använt alla de gängse utvärderingskriterierna såsom Signifikans, Liftkurvor etc. Min erfarenhet är att en modell som är tekniskt bäst inte tvunget ger den bästa prissättningen då det finns en del fallgropar som man inte fångar i de vanliga ramarna. Jag försöker förklara igen: 1. edge - Jag gör en modell, estimerar egna odds mha modellen på simuleringsdata. Jag jämför mina odds mot marknadens och får en edge uppskattning som givetvis varierar. Sen plottar jag edge mot ROI på simulerad data. Jag menar att ett vikigt kriterie för mig är att den kurvan blir strikt växande, högre edge ska ge högre ROI. Inte helt uppenbart att det gör så nämligen, många gånger jag fått hack i kurvan, bulor på fel ställen som gör modellen ologisk och därmed minskad tillförlitlighet. 2. Portföljtillväxt - Här menar jag egentligen att modellen ska vara konsistent över tid för att ha hanterat säsongsvariationer etc på ett korrekt sätt. Jag vill alltså inte ha en modell som predikterade 2012 skitbra men 2013 skitdåligt (men som på totalen kan se ok ut). 3. Lönsam per argument - exempelvis om jag bygger en modell som estimerar odds i intervallet 1-10 så vill jag också att den gör det bra i hela det intervallet och inte bara i 1-3 eller nåt. Återigen handlar det om att modellen ska vara logisk och konsistent. Min förhoppning var att det fanns någon modellbyggare som kände igen sig i problematiken och kanske hade någon annan utvärderingsfaktor som den värderade högt. |
|
2014-01-03, 17:09 | #5 |
i hate bunnies
Reg.datum: jan 2010
Ort: Akihabara
Inlägg: 1 452
Sharp$: 1188mackapär ver.0.8.1 Stats: 2879 - 3456 - 618 ROI: 100.19% Vinstprocent: 45.45% |
Tjaa, en modell för mig är nåt som räknar ut % på ett utfall.
Det enda som betyder nåt är vad modellen säger och vad utfallet blir i verkligheten. Edge, roi osv kan ju inte inverka på modellens tillförlitlighet för dessa uppstår ju endast från odds man erbjuds. Hur kan ett bolag(s odds) påverka modellens kvalitet? Edit: Känns att de är onödigt komplicerat med att ta in saker som inte kan påverka hur bra en modell är. Betting och värde kommer ju liksom av sig självt om man har en bra modell.
__________________
active: To view links or images in signatures your post count must be 10 or greater. You currently have 0 posts. old: To view links or images in signatures your post count must be 10 or greater. You currently have 0 posts. | To view links or images in signatures your post count must be 10 or greater. You currently have 0 posts. | To view links or images in signatures your post count must be 10 or greater. You currently have 0 posts. | To view links or images in signatures your post count must be 10 or greater. You currently have 0 posts. "…a soccer match is equivalent to two teams throwing a dice. The number 6 means goal and the number of attempts of both teams is fixed already at the beginning of the match, reflecting their respective fitness in that season."
Senast redigerad av boored den 2014-01-03 klockan 20:25. |
2014-01-03, 20:41 | #6 |
Min fråga är då hur du utvärderar huruvida din modell är bra eller inte? Enbart prediktion vs utfall?
I mitt fall har jag relativt sett komplexa modeller där jag kanske träffar bättre i ett visst område med en modell, korrigerar och får lite bättre träff där men på bekostnad av sämre träff i annat område. Ju mer jag bryter ner modellen desto mindre data får jag i varje delsegment, och då står man där med frågan vad som är slump och inte Jag kan helt enkelt inte överblicka mina modeller på det sättet, och det är därför som jag måste jämföra dem på fler sätt än "prediktion/utfall per delsegment". Jag är dock tacksam för att ni ifrågasätter vad fan jag svamlar om för det blir lätt att man sitter oemotsagd på sin kammare och hittar på saker |
|
2014-01-03, 21:50 | #7 |
i hate bunnies
Reg.datum: jan 2010
Ort: Akihabara
Inlägg: 1 452
Sharp$: 1188mackapär ver.0.8.1 Stats: 2879 - 3456 - 618 ROI: 100.19% Vinstprocent: 45.45% |
Så skulle jag iaf göra, vad annat finns det liksom som betyg för modellen?
Simpla eller komplexa modeller ska ju inte spela nån roll? tex för bandy, säg att en modell spottar ut: Broberg/Söderhamn-Edsbyns 45% - 15% - 40% Att man sedan hittar Broberg till 3,00(EV 1,35) eller 2,40(EV 1,10) ändrar ju inte på hur bra modellens bedömning på hemmaseger 45% är?. Kan ju omöjligtvis ändra beroende på vilket bolag man väljer att spela hos? Vi kan ju även fundera på hur bra modellen bedömer X fast vi aldrig spelar det. Är vi tvungna att leta fram ett odds för att få ett EV värde bara för att undersöka hur bra modellen är? Ser inte alls poängen med att blanda in såna saker när man ska bedöma tillförlitligheten i sin modell.
__________________
active: To view links or images in signatures your post count must be 10 or greater. You currently have 0 posts. old: To view links or images in signatures your post count must be 10 or greater. You currently have 0 posts. | To view links or images in signatures your post count must be 10 or greater. You currently have 0 posts. | To view links or images in signatures your post count must be 10 or greater. You currently have 0 posts. | To view links or images in signatures your post count must be 10 or greater. You currently have 0 posts. "…a soccer match is equivalent to two teams throwing a dice. The number 6 means goal and the number of attempts of both teams is fixed already at the beginning of the match, reflecting their respective fitness in that season."
Senast redigerad av boored den 2014-01-03 klockan 21:57. |
2014-01-06, 15:39 | #8 | |
Citat:
Vi har tre typer av validation till vårt förfogande, som sedan kan brytas ned i flera subkategorier. Du behöver dock alltid någon slags data att jämföra din modells output med. (1) Den uppenbara är att man validerar mot samma data (X) som man utvecklade modellen med. (2) Du kan även validera mot annan data från den population som data X togs ifrån (så kallad intern validering, görs främst genom någon slags bootstrap, typ MC). Rent krasst är intern validering "leave-one-out". (3) Du kan validera mot data från en extern population, om än snarlik. I ett praktiskt, mycket enkelt fall där du har utvecklat en modell baserad på data från Serie A så hade (1) validerat modellen på samma matcher, (2) validerat mot Serie A matcher som inte använts för att utveckla modellen, och (3) validerat mot Serie B matcher. Jag misstänker att det jag skrivit kan vara mycket dravvel men jag hoppas det ger viss hjälp. Personligen anser jag att komplexa modeller inte kommer vara till hjälp i sportsbetting (för att hitta värde iallafall) p.g.a. de stora felmarginalerna men.. Det finns en uppsjö av gratis information från amerikanska universitetskurser ute på nätet som lär kunna ge dig bättre information än speltorskarna på detta forumet.
__________________
"Jag behöver en jävla iPhone 4. Fyfan. Kom igen nu alla fucking spel. Bara gå in." |
||
2014-01-07, 10:41 | #9 |
Reg.datum: jul 2011
Inlägg: 568
Sharp$: 4875Hockey-VM 2013 Stats: 11 - 8 - 6 ROI: 113.31% Vinstprocent: 57.89% |
Det är viktigt att skilja på:
i) Explanatory modeling (förklaringsmodell), och ii) Predictive modeling (prediktiv modell). I akademiska sammanhang är det oftast i) som lärs ut och används, men i sports betting är det ii) som är viktig. Skillnaden mellan de två är att en förklaringsmodell försöker förklara sambanden i din data så bra som möjligt. En prediktiv modell tar dock endast sitt avstamp från en förklaringsmodell, för att sedan testas på ett nytt dataset (som INTE använts för att bygga förklaringsmodellen, s.k. cross-validation). Exempelvis skulle jag kunna bygga en prediktiv modell genom att använda SHL-data fram till och med 2011/2012 och sedan testa på 2012/2013 års säsong. Det är ett GRAVT fel att inkludera data från 2012/2013 för att sedan även testa på 2012/2013, lite fuskigt att använda facit, eller hur? När det gäller sports betting så är vi inte intresserade av att ha en så bra förklaringsmodell som möjligt. Syftet är alltså INTE att maximera R^2 (förklaringsgraden), det leder oftast till overfitting att kasta in för många variabler i syfte att öka R^2. Det som är av vikt är att ha en bättre modell än alla andra; därför bör man testa sin prediktiva modell mot en bookmakers öppnings- eller stängningsodds för att få en känsla för (jag säger känsla, för ingenting är säkert när allting ständigt förändras) om ens modell är en vinnande modell. ADD: Men naturligtvis är statistiska mått som tex R^2 en bra första indikation på att man är på rätt väg, men det är inte nödvändigtvis tillräckligt. En modell med sämre R^2 kan ge högre ROI i betting för att bookmakern kan ha missat en viss variabel, man behöver mao inte bygga en supermodell utan det gäller att hitta sin niche.
__________________
"Different mission, different school, I only have one rule: stay cool, like a swimming pool" Följande användare gav Sharp$ för den här posten:
Sandy (+1), boored (+10), Bramhed (+10), packit (+10), NiLu (+10) Senast redigerad av Juret den 2014-01-07 klockan 10:53. |
2014-01-07, 12:46 | #10 |
Tack Juret, väl skrivet. Precis som du skriver så handlar den prediktiva modelleringen mycket om att back testa på omodellerad data och få en känsla för modellen. Det var egentligen det min ursprungliga fråga handlade om, vilka metoder använder ni där ute för att säkerställa att er prediktiva modell verkligen är så grym som ni hoppas?
Jag använder mig främst av prediktionen mot verkligt odds (dvs logisk edge), utveckling över kalendertid och utveckling över "oddsbeskrivande argument". Nåja, nu har jag jag kört igång modellen (som för övrigt är en egenutvecklad Betfair Bot som härjar på fotbollsmarknaderna pregame och inplay), ska bli intressant att se om jag får till det. Den borde uppskattningsvis generera cirka 1500 unika bets per månad så kvaliten borde ge sig rätt snabbt. |
|
2014-01-07, 14:27 | #11 | |
Reg.datum: jul 2011
Inlägg: 568
Sharp$: 4875Hockey-VM 2013 Stats: 11 - 8 - 6 ROI: 113.31% Vinstprocent: 57.89% |
Citat:
__________________
"Different mission, different school, I only have one rule: stay cool, like a swimming pool" |
|
2014-01-08, 14:48 | #12 |
ok!
Jag hoppas också kunna dra några bra slutsatser genom betting historiken, när jag har dragit igenom några tusen vad så gissar jag att där finns några findings som man kan justera modellen efter. För även om jag följt skolboken när det gäller val av modelleringsdata vs simuleringsdata etc så blir verkligheten ändå något helt annat Jag jobbar själv till vardags som analytiker inom försäkring där vi ju predikterar skadekostnad dagligen. Oftast mycket viktiga slutsatser och justeringar i modellen kommer till först när vi kört modellen "live" ett tag... |
|
|