Citat:
Ursprungligen postat av Juret
Mycket bra initiativ! Det som är allra viktigast för statistisk modellering är matchspecifik data. Varje match måste ha ett ID i databasen eller hur det nu funkar (som ni märker får jag hjälp med databaser) liksom varje lag och spelare. Oavsett sport behövs all tänkbar statistik som skulle kunna förklara resultatet. Jag är gärna med och tar informationen från datastadiet till en modell för prediktion. Det är där min styrka ligger.
Tänkbar data för fotboll:
Mål
Måltidpunkter (väldigt viktigt)
Mål tillvägagångssätt (hörna, frispark, spelmål osv)
Passnings%
Bollinnehav
Skott på mål
Skottkvalitet (var kom skottet ifrån?)
Hörnor
Varningar + tidpunkt
Utvisningar + tidpunkt
Speltid (spelarspecifikt)
Specifik målvaktsdata
Plus allt annat som jag har glömt som är av vikt för lags och spelares prestationer.
I hockey finns det betydligt mer statistik och jag tänker inte göra någon lista, men det ska vara betydligt enklare att modellera än fotboll. Varför? Främsta problemet med fotboll som jag ser det är att det går att byta offensiv mot defensiv och man gör det både under matcher som mellan matcher. När ett mål faller i fotboll förändras matchbilden betydligt mer än i hockey. Faktum är att när ett mål görs i fotboll går sannolikheten upp för att det ska bli ett mål till jämfört med innan. Dessutom spelar Teneriffa väldigt olika jämfört med om de möter Barcelona (backar hem) eller Sociedad (mer offensivt), ni förstår min poäng. Men, absolut inte sagt att det inte går att modellera. Jag har bara spånat lite på vad som kommer vara viktiga saker att se till när man sätter klorna i datan.
Trevlig onsdag!
|
Huruvida sannolikheten för att ett mål till ska falla ändras om ett mål redan fallit handlar förstås om den statistiska modelleringen, snarare än databasmodelleringen. Vi bör nog dela upp diskussionen i dessa två huvudområden för att den ska vara lätt att följa. Att bolla med siffrorna kan vi göra först när datainsamlingen är färdig. Samtidigt har du rätt i att dessa områden i högsta grad går in i varandra. Vad vi vill undersöka avgör som sagt hur databasen ska se ut.
Det är också möjligt att databasen måste avgränsas. Allt för detaljerad matchinformation blir svår att få tag på bakåt i tiden. Var hittar man t.ex. uppgifter om "fouls committed" och laguppställningar för superettan-matcher från förra året? (Nu kanske just detta existerar, men information som inte alls existerar blir förstås omöjlig att få tag på - men med det inte sagt att den inte går att modellera för och implementera i framtiden. I viss utsträckning går det utmärkt att ändra på databasen (addera kolumner, tabeller etc.) i efterhand.
Det är också bra om vi delar upp listorna beroende på relation (en relation i databasen är en tabell). Spelarens statistik står inte i samma tabell som lagets statistik. Tabellförslagen (egentligen entitetstyperna för att snacka ER-modellering) nedan är långt ifrån definitiva. De lär behöva delas upp. Om jag använder Jurets förslag blir det kanske såhär:
Spelare
ID
Förnamn + efternamn
Vilket lag spelar han i? Har han spelat i flera lag (och kanske under samma säsong)?
Framträdanden (appearances) - vilka matcher deltar spelaren i? Spelade han från start eller blev han inbytt? Eller satt han kvar på bänken ('unused substitute')?
Position i varje match, eller räcker det med övergripande positionsindelning (vissa spelare är backar, andra är mittfältare, o.s.v.)? Kan man ha både en övergripande indelning och en indelning för varje enskild match?
Spelarens roll i laget? (Om man hämtar data bakåt i tiden går det att avgöra om spelaren haft roll som 'lagkapten', 'lagets bäste målgörare' ('top scorer'), annan typ av nyckelspelare (kanske enbart ett värde som 'nyckelspelare', d.v.s. ingår i startelvan)?
Antal gula kort? Antal röda kort? Tidpunkter för dessa kort i enskilda matcher?
Antal fouls suffered? Antal fouls committed?
Antal räddningar? Räddningsprocent? (målvakt)
Hur gjordes målet? ('straff', 'spelmål', 'fast situation (som annan spelare slagit)', 'direktfrispark (som han slår direkt i mål)')
Målens tidpunkter?
Match
ID
Datum + Säsong
Matchtyp (FA-cup, Premier League, Allsvenskan)
Hemmalag + Hemmalagets antal mål
Bortalag + Bortalagets antal mål
Resultat (1-X-2)
Resultat (över-under - 1,5? 2,5? 3,5?)
Respektive lags skott på mål, hörnor, offsider, bollinnehav, gula, röda, räddningar
Vilka satt på avbytarbänken? Vilka blev inbytta? I vilken minut skedde byten?
Lagens startuppställning? (I termer av '4-4-2' och '5-4-1' eller i termer av 'offensiv', 'defensiv' - vore detta subjektivt? vad är subjektivt?)
Domare?
Lag
Nationstillhörighet?
Grundat år?
Arena? Kapacitet?
Transfers (in- och ut beroende på säsong)? Kostnader?
Tränare (nuvarande + tidigare)? Tidsperiod (f.o.m. xx-xx-2001 t.o.m. xx-xx-2010)?
Spelare (nuvarande + tidigare)? Tidsperioder?
Ingår i turneringar/matchtyper ('allsvenskan', 'svenska cupen', 'carling cup').
Statistik från varje enskild match (lagen kopplas till matcherna som hemmalag eller bortalag).
Tränare (om intressant?):
Nuvarande lag? Sedan datum?
Tidigare lag? Tidsperiod?
Antal 1X2 för respektive lag?
Antal gjorda/insläppta för respektive lag?
Favoriserar vilken laguppställning ('4-4-2')?
I det ovanstående har jag egentligen listat mer än den information vi kommer att plocka in i databasen i form av siffror och bokstäver. Mycket av den statistik vi vill ha reda på kommer att vara så kallade "härledda attribut" i databasen. Det innebär att om man t.ex. vill ta reda på målvaktens räddningsprocent under en viss säsong, eller kanske bara under en viss månad, så utgår man givetvis från det totala antalet räddningar, det totala antalet skott på mål som målvakten fått på sig, samt förstås dennes totala antal insläppta mål. Räddningsprocenten kommer alltså inte att skrivas som ett nummer i någon tabell, eftersom den går att härleda ur andra värden. Alla fenomen som man kan tänkas vilja undersöka statistiskt kommer alltså att vara härledda saker (manipulering av data). Man kanske funderar på följande: hur många minuter tar det i genomsnitt innan det andra laget kvitterar, i matcher där resultatet gått från 1-0/0-1 till 1-1? För att svara på frågan kommer man då att sortera ut (välja, select) data från databasen, som sedan förstås kan matas in i Excel eller dylikt. Detsamma gäller självklart "Resultat Över/Under", vilket inte kommer att skrivas in i databasen. Det härleds.
På samma sätt kommer inte lagens totala spelarstatistik (vilka spelare som gjort flest mål eller startat i flest matcher) att skrivas ut i någon tabell, eftersom denna härleds ur de enskilda spelarnas värden. Det är dock viktigt att även ange härledda attribut i själva modelleringen av databasen. Det är dessa attribut som mer än andra ligger i kontaktytan mellan den statistiska modelleringen (att söka data och plocka fram sannolikheter, fördelningskurvor etc.) och modelleringen av databasen. Den som vill ha en bra introduktion till databaser kan dra igenom följande webbkurs:
http://www.databasteknik.se/webbkursen/ - Inom en vecka har du förhoppningsvis någorlunda god förståelse för de olika typerna av attribut som kommer att finnas med och hur dessa kopplas till varandra. (Du lär dig att förstå vikten av att dela upp dina attribut på olika sätt.)
Vi måste alltså börja med att komma fram till vad som är rimliga uppgifter att plocka med i databasen. Vad kommer att vara härlett, och vad kommer att behöva skrivas in som egna attribut? Ett gränsfall som jag inte är säker på är
säsong. Dels borde man kunna härleda säsong ur den inbyggda kalendern (matchernas datumangivelser), men i vissa fall möts ju lag från olika länder, där t.ex. ena laget spelar höst-vår och det andra vår-höst. Jag reserverar mig därför för att säsong eventuellt borde vara ett vanligt attribut. För engelska lag anges då säsong med värdet '2011/2012' och för svenska lag med '2011' eller '2012'.
När jag skriver med enkla cittattecken tänker jag i värden som kan tänkas skrivas in i tabellcellerna (värden helt enkelt).