Spoiler:
Citat:
Ursprungligen postat av dgothe
Har du en statistisk modell som du vill testa så går det ju i teorin att testa manuellt. Antingen på papper eller i Excel (alternativt Google Docs, min personliga favorit).
Jag kan försöka svara på dina frågor ur personlig erfarenhetssynpunkt.
1) Ja och nej. Jag har ingen statistisk bakgrund alls, men jobbar som systemutvecklare. För mig var det mer ett programmeringsprojekt och lite bollande med låtsasformler tills jag stötte på Sabermetrics (baseball-analys), vilket jag sedan började använda mer och mer och skruvade lite på existerande formler. Andra kan komma från andra hållet, dvs har statistisk bakgrund men aldrig programmerat.
2) Högskolestatistik är överkurs. Du blir inte sämre av det, men det finns redan färdiga statistiska modeller och om man sätter sig in i dem och förstår det så kan man vidareutveckla själv (om man har lite bakom pannbenet).
3) Jag använder mig av databaser, för det är min bakgrund. Jag har även nyttjat Excel vilket gör det relativt enkelt att hämta in data från websidor och göra slagningar i den. Men om datan skulle vara av varierad layout och komma från flera olika ställen, ja då kan det bli problem. I mitt baseballprojekt använder jag mySQL och har skrivit all kod för analys och formeluträkning i php. I hockeyn använder jag Google Docs Spreadsheet och har skrivit alla formler där.. hugget som stucket..
4) Som sagt, du måste hämta datan någonstans ifrån om du vill automatisera saker och ting. I Google Docs och Excel kan du "importera" HTML-tabeller från en URL, men om du programmerar en egen lösning får du ladda ner data och parsa den själv (finns bibliotek för sådant i de flesta språk).
|
Självklart går det att göra manuellt, men det kan effektiviseras rejält om man behärskar den tekniska biten. Ett exempel på det är en utredning jag företog mig. Jag ville veta hur antalet vilodagar påverkade utgången av engelska seriematcher (Premier League, Championship). Dels behövde jag jämföra lagens antal vilodagar sedan senaste match, samtidigt som jag noterar vilken matchtyp (seriematch eller cupmatch) som spelades i föregående match (eftersom somliga lag ställer över spelare i vissa matcher). Jag gjorde undersökningen på följande sida:
http://soccernet.espn.go.com/fixture...=eng.2&cc=5739
Det tog ungefär en veckas heltidsarbete att göra manuellt för de tillgängliga säsongerna (2001-2012). På senare år blev dataunderlaget knapphändigt eftersom lagen allt oftare kom att ha samma antal vilodagar. Jag lyckades dock skönja tendenser. Om jag kunnat dra hem den rätta datan med ett script och rada upp i Excel eller dylikt så hade arbetet tagit ett par dagar på sin höjd. Jag hade då velat ha ett Excel-ark med följande data:
Kolumn 1: Hemmalag (t.ex. Brighton)
Kolumn 2: Bortalag (Plymouth)
Kolumn 3: Matchresultat (0-2)
Kolumn 4: Hemmalagets antal vilodagar sedan senaste match (2 st : 8+9 Augusti)
Kolumn 5: Bortalagets antal vilodagar sedan senaste match (2 st : 8+9 Augusti)
Kolumn 6: Vilken typ av tävlingsmatch hemmalaget spelade i föregående match (samma match som i kolumn 4) - Dessa kan vara Premier League, Championship, Carling Cup, FA Cup
Kolumn 7: Vilken typ av tävlingsmatch bortalaget spelade i föregående match (samma match som i kolumn 5) - Dessa kan vara Premier League, Championship, Carling Cup, FA Cup.
Hade det varit möjligt att hämta denna exakta data med hjälp av ett script? Hur pass invecklat hade det varit? Hade Excel klarat det med funktionen du nämner? Det känns som att jag behöver en hel del programmering för ändamålet...
2) Du nämner färdiga statistiska modeller. Sabermetrics? Är detta dataprogram som går att ladda ned? Jag fann wiki-sidan och förstår upplägget, men jag hittar inget program. När jag ser en modell framför mig ser jag ett program där jag matar in siffror och den spottar ur sig procentsiffror. Det går att utföra manuellt, men det tar evigheter när matchantalet ökar.
Spoiler:
Citat:
Ursprungligen postat av Juret
det var väldigt mycket frågor på en gång, men det är förståerligt. när man modellerar dyker det alltid upp nya problem, nya frågor att besvara. men det är också det som är oerhört kul.
jag skulle läsa Conquering Risk som handlar om hur man kan modellera sport, finns på Amazon.com, och en grundkurs i statistik om du inte stött på statistik tidigare. annars är www.khanacademy.org superbra för självstudier i bland annat statistik och sannolikhet. komplettera med wikipedia eller annat på Internet.
|
Conquering Risk ska jag kolla närmare på. KhanAcademy verkade väl också bra. Han snackade jävligt snabbt bara, men det kommer man förstås in i (eller ja, klumpigt av mig att hoppa på Poisson-videon med en gång).
Spoiler:
Citat:
Ursprungligen postat av boored
De är ju mycket upp till vad du tycker är viktigt som bestämmer hur komplicerat det blir för att komma åt datan.
Jag tex anser inbördes möten inte är av nån vikt pga den lilla matchmängd sinsemellan under tex 10år, kan lika gärna vara varians så följaktligen behöver jag inte ha några resultat längre bak än pågående säsong.
Gamla säsonger buntar jag ihop en gång om året med klass indelning i excel där dom inte tar mer plats en ett par hundra rader per liga för 15 år. Inte precis nåt databas behov.
Alla har olika åsikter vad som är viktigt, tex vissa kan hjälpas åt att ladda upp saker som inte lätt går suga från sidor. En person läser Bundesliga rapporter med lite mer ingående stats och fyller i hörnor, offisides, ball possession, skott och whtever som kan tänkas ha betydelse på ett visst vis i ett online kalkylark, en annan gör en annan liga osv.
Var och en kan sedan suga in datan i sina egna program och använda den som de själva önskar. Datan är objektiv, användandet av datan är dock subjektivt.
|
Jag håller nog med dig om att inbördes möten genom åren är en högst tvivelaktig faktor. Dock tror jag att returmöten kan ha en viss inverkan, där något lag förlorat senaste mötet (under samma säsong) och därför är extra taggade. Men att räkna med resultat från 2005 gör jag aldrig.
Tack till er alla för bra respons och överseende med många frågor!
Spelbolagen har förstås relativt perfekta kalkyler redan, där antalet vilodagar t.ex. redan lär vara en obligatorisk variabel. Dock är jag osäker på hur jag får fram spelbolagets procent för en match. Visst blir 100/2.00 = 50 %, men om oddset är 2.00 på hemmaseger så har väl spelbolaget dragit bort en del från den egentliga uträkningen, där oddset kanske landade på 2.10 (100/47.6). Alltså kan jag inte utgå från spelbolagens odds eftersom jag inte vet hur mycket eller litet ett specifikt spelbolag manipulerat sin beräkning i det synliga oddset. Därmed är det väl ganska svårt att jämföra sin modell med spelbolagens?