Sono un grande fan del calcio (calcio) e anche interessato al Machine Learning. Come progetto per il mio corso ML sto provando a costruire un modello che preveda la possibilità di vincere per la squadra di casa, dati i nomi della squadra di casa e di trasferta. (Esigo il mio set di dati e di conseguenza creo punti basati su corrispondenze precedenti tra quelle 2 squadre)Prevedere i vincitori delle partite di calcio in base solo ai dati precedenti della stessa partita
Ho dati per diverse stagioni per tutte le squadre, ma ho i seguenti problemi che vorrei un consiglio con .. L'EPL (English Premier League) ha 20teams che si giocano a casa e fuori (380 partite totali in una stagione). Pertanto, in ogni stagione, le 2 squadre si giocano l'una con l'altra solo due volte.
Ho dati per gli ultimi 10+ anni, con conseguente 2 * 10 = 20 datapoint per le due squadre. Tuttavia, non voglio passare oltre 3 anni poiché ritengo che i team cambino abbastanza nel tempo (ManCity, Liverpool) e questo introdurrebbe solo più errori nel sistema.
Quindi questo si traduce in circa 6-8 punti di dati per ogni coppia di team. Tuttavia, ho diverse funzionalità (fino a 20+) per ogni punto di dati come obiettivi a tempo pieno, obiettivi a metà tempo, passaggi, tiri, gialli, rossi, ecc. Per entrambe le squadre, quindi posso includere caratteristiche come la forma recente, la casa recente forma, via di recente, ecc.
Tuttavia, l'idea di avere solo 6-8 punti di dati da addestrare sembra non essere corretta. Qualche idea su come potrei contrastare questo problema? (Se questo è un problema in primo luogo, ad es.)
Grazie!
MODIFICA: FWIW, ecco un collegamento al mio rapporto che ho compilato al completamento del mio progetto. https://www.dropbox.com/s/ec4a66ytfkbsncz/report.pdf. Non è una roba "fantastica", ma penso che alcune delle osservazioni che sono riuscito a suscitare siano state piuttosto interessanti (come la mia previsione ha funzionato molto bene per la Bundesliga perché il Bayern ha vinto il campionato tutto il tempo).
Molto interessante. I tuoi set di dati sono pubblici in modo che anche altri possano sperimentarli? – schreon
Sto usando questi http://www.football-data.co.uk/data.php – keithxm23
@ keithxm23 quali strumenti hai usato? WEKA o minatore rapido? – user2137186