|
LinkBack | Ämnesverktyg |
2012-02-15, 02:22 | #31 |
Fantastiskt bra idé
|
|
2012-02-15, 09:37 | #32 |
Reg.datum: jul 2011
Inlägg: 568
Sharp$: 4875Hockey-VM 2013 Stats: 11 - 8 - 6 ROI: 113.31% Vinstprocent: 57.89% |
Mycket bra initiativ! Det som är allra viktigast för statistisk modellering är matchspecifik data. Varje match måste ha ett ID i databasen eller hur det nu funkar (som ni märker får jag hjälp med databaser) liksom varje lag och spelare. Oavsett sport behövs all tänkbar statistik som skulle kunna förklara resultatet. Jag är gärna med och tar informationen från datastadiet till en modell för prediktion. Det är där min styrka ligger.
Tänkbar data för fotboll: Mål Måltidpunkter (väldigt viktigt) Mål tillvägagångssätt (hörna, frispark, spelmål osv) Passnings% Bollinnehav Skott på mål Skottkvalitet (var kom skottet ifrån?) Hörnor Varningar + tidpunkt Utvisningar + tidpunkt Speltid (spelarspecifikt) Specifik målvaktsdata Plus allt annat som jag har glömt som är av vikt för lags och spelares prestationer. I hockey finns det betydligt mer statistik och jag tänker inte göra någon lista, men det ska vara betydligt enklare att modellera än fotboll. Varför? Främsta problemet med fotboll som jag ser det är att det går att byta offensiv mot defensiv och man gör det både under matcher som mellan matcher. När ett mål faller i fotboll förändras matchbilden betydligt mer än i hockey. Faktum är att när ett mål görs i fotboll går sannolikheten upp för att det ska bli ett mål till jämfört med innan. Dessutom spelar Teneriffa väldigt olika jämfört med om de möter Barcelona (backar hem) eller Sociedad (mer offensivt), ni förstår min poäng. Men, absolut inte sagt att det inte går att modellera. Jag har bara spånat lite på vad som kommer vara viktiga saker att se till när man sätter klorna i datan. Trevlig onsdag! |
2012-02-15, 11:24 | #33 | |
Citat:
Det är också möjligt att databasen måste avgränsas. Allt för detaljerad matchinformation blir svår att få tag på bakåt i tiden. Var hittar man t.ex. uppgifter om "fouls committed" och laguppställningar för superettan-matcher från förra året? (Nu kanske just detta existerar, men information som inte alls existerar blir förstås omöjlig att få tag på - men med det inte sagt att den inte går att modellera för och implementera i framtiden. I viss utsträckning går det utmärkt att ändra på databasen (addera kolumner, tabeller etc.) i efterhand. Det är också bra om vi delar upp listorna beroende på relation (en relation i databasen är en tabell). Spelarens statistik står inte i samma tabell som lagets statistik. Tabellförslagen (egentligen entitetstyperna för att snacka ER-modellering) nedan är långt ifrån definitiva. De lär behöva delas upp. Om jag använder Jurets förslag blir det kanske såhär: Spelare ID Förnamn + efternamn Vilket lag spelar han i? Har han spelat i flera lag (och kanske under samma säsong)? Framträdanden (appearances) - vilka matcher deltar spelaren i? Spelade han från start eller blev han inbytt? Eller satt han kvar på bänken ('unused substitute')? Position i varje match, eller räcker det med övergripande positionsindelning (vissa spelare är backar, andra är mittfältare, o.s.v.)? Kan man ha både en övergripande indelning och en indelning för varje enskild match? Spelarens roll i laget? (Om man hämtar data bakåt i tiden går det att avgöra om spelaren haft roll som 'lagkapten', 'lagets bäste målgörare' ('top scorer'), annan typ av nyckelspelare (kanske enbart ett värde som 'nyckelspelare', d.v.s. ingår i startelvan)? Antal gula kort? Antal röda kort? Tidpunkter för dessa kort i enskilda matcher? Antal fouls suffered? Antal fouls committed? Antal räddningar? Räddningsprocent? (målvakt) Hur gjordes målet? ('straff', 'spelmål', 'fast situation (som annan spelare slagit)', 'direktfrispark (som han slår direkt i mål)') Målens tidpunkter? Match ID Datum + Säsong Matchtyp (FA-cup, Premier League, Allsvenskan) Hemmalag + Hemmalagets antal mål Bortalag + Bortalagets antal mål Resultat (1-X-2) Resultat (över-under - 1,5? 2,5? 3,5?) Respektive lags skott på mål, hörnor, offsider, bollinnehav, gula, röda, räddningar Vilka satt på avbytarbänken? Vilka blev inbytta? I vilken minut skedde byten? Lagens startuppställning? (I termer av '4-4-2' och '5-4-1' eller i termer av 'offensiv', 'defensiv' - vore detta subjektivt? vad är subjektivt?) Domare? Lag Nationstillhörighet? Grundat år? Arena? Kapacitet? Transfers (in- och ut beroende på säsong)? Kostnader? Tränare (nuvarande + tidigare)? Tidsperiod (f.o.m. xx-xx-2001 t.o.m. xx-xx-2010)? Spelare (nuvarande + tidigare)? Tidsperioder? Ingår i turneringar/matchtyper ('allsvenskan', 'svenska cupen', 'carling cup'). Statistik från varje enskild match (lagen kopplas till matcherna som hemmalag eller bortalag). Tränare (om intressant?): Nuvarande lag? Sedan datum? Tidigare lag? Tidsperiod? Antal 1X2 för respektive lag? Antal gjorda/insläppta för respektive lag? Favoriserar vilken laguppställning ('4-4-2')? I det ovanstående har jag egentligen listat mer än den information vi kommer att plocka in i databasen i form av siffror och bokstäver. Mycket av den statistik vi vill ha reda på kommer att vara så kallade "härledda attribut" i databasen. Det innebär att om man t.ex. vill ta reda på målvaktens räddningsprocent under en viss säsong, eller kanske bara under en viss månad, så utgår man givetvis från det totala antalet räddningar, det totala antalet skott på mål som målvakten fått på sig, samt förstås dennes totala antal insläppta mål. Räddningsprocenten kommer alltså inte att skrivas som ett nummer i någon tabell, eftersom den går att härleda ur andra värden. Alla fenomen som man kan tänkas vilja undersöka statistiskt kommer alltså att vara härledda saker (manipulering av data). Man kanske funderar på följande: hur många minuter tar det i genomsnitt innan det andra laget kvitterar, i matcher där resultatet gått från 1-0/0-1 till 1-1? För att svara på frågan kommer man då att sortera ut (välja, select) data från databasen, som sedan förstås kan matas in i Excel eller dylikt. Detsamma gäller självklart "Resultat Över/Under", vilket inte kommer att skrivas in i databasen. Det härleds. På samma sätt kommer inte lagens totala spelarstatistik (vilka spelare som gjort flest mål eller startat i flest matcher) att skrivas ut i någon tabell, eftersom denna härleds ur de enskilda spelarnas värden. Det är dock viktigt att även ange härledda attribut i själva modelleringen av databasen. Det är dessa attribut som mer än andra ligger i kontaktytan mellan den statistiska modelleringen (att söka data och plocka fram sannolikheter, fördelningskurvor etc.) och modelleringen av databasen. Den som vill ha en bra introduktion till databaser kan dra igenom följande webbkurs: http://www.databasteknik.se/webbkursen/ - Inom en vecka har du förhoppningsvis någorlunda god förståelse för de olika typerna av attribut som kommer att finnas med och hur dessa kopplas till varandra. (Du lär dig att förstå vikten av att dela upp dina attribut på olika sätt.) Vi måste alltså börja med att komma fram till vad som är rimliga uppgifter att plocka med i databasen. Vad kommer att vara härlett, och vad kommer att behöva skrivas in som egna attribut? Ett gränsfall som jag inte är säker på är säsong. Dels borde man kunna härleda säsong ur den inbyggda kalendern (matchernas datumangivelser), men i vissa fall möts ju lag från olika länder, där t.ex. ena laget spelar höst-vår och det andra vår-höst. Jag reserverar mig därför för att säsong eventuellt borde vara ett vanligt attribut. För engelska lag anges då säsong med värdet '2011/2012' och för svenska lag med '2011' eller '2012'. När jag skriver med enkla cittattecken tänker jag i värden som kan tänkas skrivas in i tabellcellerna (värden helt enkelt). Senast redigerad av Asprilla den 2012-02-15 klockan 11:34. |
||
2012-02-15, 12:18 | #34 |
Söker man på Soccermetrics, d.v.s. motvarigheten till Sabermetrics, så träffar man följande hemsida: http://www.soccermetrics.net
De har bl.a. en FTP-server med ett fåtal Excel-filer. Något i den stilen tänker jag mig att vi kommer att få. Nu vet jag inte hur mycket av deras prylar som ligger ute för allmänheten, men de skriver åtminstone följande: "Soccermetrics Research & Consulting aims to help develop and support the growing open-source soccer analytics community by initiating and contributing to relevant software projects. We initiated the Football Match Result Database (FMRD) to collect soccer match result data in a format that would facilitate analysis, and we are proud to release it as an open source project." Jag inser att de helt enkelt verkar ha gjort det grundjobb jag föreslagit. Det finns rent av en databas färdig att ladda ner: http://hhamilton-src.github.com/fmrd-desktop/ Dock blir jag förlorad när ordet Python kommer in i bilden. Någon som är haj på det där kan säkert jämföra deras databas med mina förslag. Hur mycket överensstämmer? Går deras databas att modifiera? Är den heltäckande? Går den att överföra till en MySQL-databas? Jag kommer att försöka lära mig vad deras prylar innebär och hur jag får in detta i datorn. Om någon med större kunskaper hinner före med en utvärdering (exakt vad erbjuder Soccermetrics FMRD?) vore jag tacksam. Det vore perfekt om denna databas mer eller mindre gick att applicera direkt på våra förslag. Då skulle vi nästan kunna gå direkt på datainsamlingen. |
|
2012-02-15, 13:20 | #35 |
Det som Sharps skulle kunna va grunden för är själva databasen. Modeller och så vidare lär ju var och en få fortsätta att snickra hemma i valfri mjukvara.
Brist på öppna databaser råder det ju i så gott som varje sport/liga, framförallt databaser som följer en specifik mall. I dagsläget blir det ju väldigt mycket hämtande från olika databaser som alla har sina egna mallar... Så en sorts knytpunkt ser jag absolut ett stort behov utav. Den måste givetvis sköta sig manuellt, då det annars skulle bli en på tok för stor arbetsbörda - men det borde ju inte vara några större klurigheter att fixa. De flesta ligor/förbund har väl sin egna statistik bas där den mesta informationen borde gå att plocka (ex. stats.swehockey.se/ ) och sedan anpassa efter "sharp-mallen". Skulle utan vidare betala en månatlig slant för att få tillgång till denna databas om den huserade statistik för många sporter och ligor. Vilka siffror som är intressanta är ju ganska uppenbart - det mesta som är tillgängligt. Väder, plublik osv. är väl kanske något som missats i diskussionen (?). Obearbetat så klart, det är ju det främsta problemet med existerande sidor - de bearbetar och väljer ut va de tycker är intressant och låser in resten. |
|
2012-02-15, 15:07 | #36 |
Reg.datum: jul 2011
Inlägg: 568
Sharp$: 4875Hockey-VM 2013 Stats: 11 - 8 - 6 ROI: 113.31% Vinstprocent: 57.89% |
det sätt åtminstone jag vill ha data presenterad på är säsongsbaserad data som uppdateras för varje match. för prediktion av en match i omgång 7 i Premier League använder jag således de första 6 omgångarna för att få mina inputs i modellen. jag skapar ett average för varje statistik och varje lag för varje match i databasen. simpelt uppställt:
Hemmalag: 2.47 Goals For, 1.53 Goals Against osv Bortalag: 1.45 Goals For, 1.78 Goals Against osv sedan använder jag mig av tidigare säsongers data för att komma fram till hur en match med ovanstående lags styrkor (i form av GF och GA eller vilken statistik som nu är signifikant i modellen) borde sluta i genomsnitt (antingen som antal mål eller som sannolikheter). så snittdata för matcher spelade upp det till det datumet, den säsongen, är ett måste för bra modellering. sen tror jag det bästa är att börja smått och se att det fungerar. som sagt, det viktigaste är prestationsdata. |
2012-02-15, 15:33 | #37 | |
Reg.datum: jan 2010
Inlägg: 247
Sharp$: 1540greedys betting Stats: 141 - 122 - 17 ROI: 107.69% Vinstprocent: 53.61% |
Citat:
|
|
2012-02-15, 15:55 | #38 |
Reg.datum: jul 2011
Inlägg: 568
Sharp$: 4875Hockey-VM 2013 Stats: 11 - 8 - 6 ROI: 113.31% Vinstprocent: 57.89% |
Aha, tror det blir super
|
2012-02-15, 16:04 | #39 | |
Citat:
Att kolla upp ex. GF/GA snittet per lag och säsong är hur enkelt som helst i alla ligor (genom ex. betradar). Desto svårare blir det när man vill åt GF/GA hemma/borta, i enskilda perioder eller minuter etc. En databas med så mycket data som möjligt från respektive sport/liga - Ja! Obearbetad, själva statistiken får man räkna ut själv i Excel. Annars kommer det bara bli som en av de hundratals statistiksidor som redan finns, om än anpassat för några av Sharps medlemmars intressen. |
||
2012-02-15, 16:43 | #40 | |
Citat:
Även jag är villig att betala åtminstone min del av serverkostnaderna om en stor mängd data i form av Excel-filer (om nu dessa tar förhållandevis stor plats) eller vad det nu blir kommer att ligga på era servrar. Det får inte vara något hinder. Men självklart måste det vara open source. Att det sen alltid kommer att finnas snyltare är väl lika självskrivet som att jorden är rund (även om den inte har någon perfekt klotform!). Precis! Obearbetad data är det stora målet. Och precis som ni konstaterar bör så mycket som möjligt vara härlett, utan att det inkräktar på mängden information. Senast redigerad av Asprilla den 2012-02-15 klockan 16:44. |
||
2012-02-15, 17:34 | #41 | |
Citat:
Tanken med att inte ha en helt öppen databas syftade lite på att Sharps redan har en betaltjänst och att ett utökande utav vinstdrivande tjänster leder till fortsatt utveckling och underhåll utav Sharps. Då tänker jag självklart att användarna själva inte ska bidra till databasen utan att detta görs automatiskt. En användargenererad databas skulle bli oregelbunden men så klart öppen för allmänheten (åtminstone reggade Sharpisar) Och tro mig, snyltare kommer det finnas gott om ändå Slår vad om att några snart, om inte så redan sker, kommer gruppköpa Sharps gruppköp utav speltjänster |
||
2012-02-15, 17:58 | #42 | |
Citat:
Om databasen ska uppdateras automatiskt och suga upp all relevant information krävs nog en hel del jobb från crew här. Kunde jag fixa en sådan skulle jag förmodligen inte propagera här, även om jag kan vara duktig på att skriva ett par meningar för mycket... Jag föreställde mig snarare en filsamling med relevant historik. Att allting uppdateras på stört under pågående säsong är jag mindre intresserad av. Det låter som en omöjlig uppgift om användare ska kunna bidra. Någon som har i uppgift att bevaka en liga får annat för sig och så vidare. Nä, min tanke var en kraftsamling för att suga historik. En automatisk databas blir nog svår. Den måste väl ha regelbunden kontakt med extremt många servrar o.s.v. Jag tror snarare att risken för systematiska bortfall av data blir större om den ska sköta sig själv. En vacker dag byter franska fotbollsförbundets databas adress och allting strular. Jag kanske tänker fel, men det finns en poäng med att användarna hjälps åt att samla data enligt en bestämd mall. Betaltjänster ökar dessutom oftast i priser med tiden och något sådant var inte min grundtanke. |
||
2012-02-15, 18:13 | #43 |
LL Cool J is hard as hell.
|
Det stämmer att det är jag, mars och KP som står bakom Sharps just nu.
Eftersom det bara är mars som besitter programmeringskunskaper av oss tre samtidigt som tid är en bristvara för honom i nuläget så kan vi inte bidra med något rent programmeringsmässigt, men däremot kan vi stötta projektet så gott det går. Är ni intresserade skulle vi kunna skapa ett underforum här dit bara ni har tillgång, en subdomän typ databasen.sharps.se och ge er tillgång till FTP-kontot dit så ni kan utveckla det där till en början och sen eventuellt integreras med Sharps (eller hållas separat om ni nu önskar det). Obs. Detta säger jag utan att ha kollat med mars eller KP så inget skrivet i sten.
__________________
"Kan bara titta på mig själv. Hur spännande skulle det vara att läsa mina drag om jag som alla andra börjar reka Barcelona, Real Madrid, Chelsea, United mfl mfl...helt ointressant. Vem fan vill läsa sånt? Jag ligger strax under 100% i roi UTAN att aldrig ha rekat dessa lag, skulle jag däremot jaga bra stat (som vissa eftersträvar) så skulle jag ju enbart reka dessa gäng. Men då tappar jag hela min nish." - To view links or images in signatures your post count must be 10 or greater. You currently have 0 posts. "We expect this account to be uneconomical based on your type of business."
|
2012-02-15, 18:17 | #44 |
Reg.datum: jan 2010
Inlägg: 247
Sharp$: 1540greedys betting Stats: 141 - 122 - 17 ROI: 107.69% Vinstprocent: 53.61% |
Ett underforum hade nog varit ett bra förstasteg, men då måste någon eller några ta ledarrollen i det forumet. Vad säger ni?
|
|