Molte cose interessanti, provo a rispondere a tutti
scooter ha scritto:
Multivac ha scritto:Possiamo modellare il numero di successi di un giocatore con una certa % di vittoria a priori con una distribuzione binomiale di probabilità p.
Amo questi argomenti, anche se vanno un po' (tanto) oltre le mie competenze quindi non so se sto per scrivere in modo diverso quello che hai detto tu, se sto per fare un'obiezione geniale o aggiungendo solo un ulteriore spunto di riflessione. Lascio a te valutare se sto andando OT (e magari finiamo in privato) o se sia utile per la discussione.
Dunque, per quanto ne so la distribuzione binomiale può dirmi (posto che sia nota, o presunta, la % di probabilità di vittoria) quanto è probabile che Tizio vinca almeno
n incontri su
m (
m>=
n, ovviamente). Ma se io già conosco (oppure ho stimato) la % di vittoria teorica di Tizio, non mi basta farne la media con la % di sconfitta teorica di Caio per fare un (ragionevole) pronostico sul match?
E mi pare che neanche servirebbe in ottica fantatorneo, perché se voglio sapere quanto è probabile che Tizio vinca vuol dire che deve vincerle tutte, quindi
n=
m e quindi se moltiplico fra di loro le % di vittorie lungo i vari turni del torneo ottengo lo stesso risultato (con un calcol anche più semplice).
Naturalmente, come dicevo, è possibile che non abbia capito una sillaba di quello che hai scritto (ma pure di quello che ho scritto io stesso
)
Sull'OT non saprei, magari varrebbe la pena aprire un thread separato, lascio valutare a tutti se questa discussione interessa qui o meno.
Tutto quello che dici è corretto, nel caso semplice di due giocatori soli. Ma, come ama dire ludega, il tennis è fatto di tornei con decine o centinaia di giocatori. Per avere la corretta probabilità di vittoria di un torneo dovrei:
- Calcolare tutte le permutazioni possibili di tabellone
- Calcolare le possibili combinazioni di vincitori pesati per la probabilità del loro successo
- Ripetere per tutti i turni del tabellone
Per quanto in teoria si possa fare "carta e penna", in pratica è un'impresa titanica, che si può semplificare moltissimo con un approcio a simulazione:
- Genero tabellone random
- Genero outcome dei match a random
- Ripeto il processo un numero molto elevato di volte e misuro le vittorie del singolo sulle simulazioni totali
scooter ha scritto:
Multivac ha scritto:il problema principale dell'ELO è la mancanza di un feeback "backward"
Provo ad avventurarmi nuovamente su terreni impervi...
Come che si affronti questa faccenda del GOAT, dei confronti diretti, degli h2h teorici su giocatori separati da decenni prima o poi (anche indipendentemente dall'ELO) escono problemi che riassumerò sotto l'etichetta di "autoreferenzialità". Il mio amico Bertarnd Russell risolse brillantemente il problrma a livello linguistico, ma se non erro quando ci sono di mezzo i numeri dovrebbe essere (almeno in linea di principio) possibile impostare dei calcoli ricorsivi in attesa che i vari output si stabilizzino su valori (o rapporti di valori) che succesive iterazioni dell'algoritmo non potrebbero più modificare (almeno in modo sostanziale).
Ora, ammesso che abbia capito il problema da te segnalato e che non abbia preso (io) una cantonata sull'iterazione dei calcoli: c'è qualcosa di intrinseco nell'ELO che impedirebbe questo approccio ricorsivo?
Anche qui tutto giusto, il principio della ricorsività (e successiva stabilizzazione) è proprio quello delle reti neurali. Non c'è nessun motivo per cui l'ELO non possa essere trattato alla stessa maniera, anzi, essendo una misura Bayesiana, è perfettamente tagliata per questo lavoro. L'unica limitazione, come dicevo, è che aumenta enormemente la difficoltà dell'opera (sia in termini di stesura dell'algoritmo, che in termini di calcolo macchina). A vedere ciò che segnalano Fantasio e Nickognito, qualcuno ci ha provato (sono poi riuscito a leggere l'articolo di Fantasio, ci torno sopra più avanti).
scooter ha scritto:
Multivac ha scritto:Connors dalla sua ha una mole di piccole vittorie enorme, mi verrebbe da dire che in quelche modo si è pesata molto quella....
Come ti direbbe qualunque tifoso di Federer, quel che conta è il numero delle vittorie.
Scherzi a parte, Connors chiaramente (se ci fermiamo ai numeri) non ha un palmares all'altezza di altri giocatori. Però 8 slam non sono pochi in generale. E parliamo di finali vinte contro Lendl, Borg, McEnroe e Rosewall (e Dent, vabbè). E finali perse contro Borg e McEnore soprattutto, ma insomma anche Newcombe, Ashe, Orantes e Vilas non sono proprio da buttare via. Aggiungi una valanga di trofei minori e una longevità più o meno senza eguali... dai, anche il povero Jimbo qualche considerazione la merita e insomma non mi sorprende che qualche algoritmo lo possa anche vedere davanti a tutti.
Sulle reti neurali non ci provo neanche!
Allora, leggendo l'articolo di Fantasio (per ora solo in maniera veloce) credo di aver trovato "l'inghippo". Nella loro rete, un giocatore è un punto, ed un punto solo. In pratica si vuole dare un valore univoco a tutta la carriera di un giocatore, e questo valore grosso modo equivale alla forza del giocatore moltiplicata per il periodo in cui questa forza si è mantenuta (super semplificazione anche qui, eh!). Lo accennano loro stessi nelle conclusioni:
Among all top players in the history of tennis,
Jimmy Connors
has been undoubtedly the one with the longest and most regular
trend, being in the top 10 of the ATP year-end ranking for 16
consecutive years (1973–998). Prestige score is strongly correlated
with the number of victories,[...]
In general, players still in activity are penalized with respect to
those who have ended their careers. Prestige score is in fact
strongly correlated with the number of victories [see panel a of
Figure 4] and still active players did not yet played all matches of
their career. [...] *editato qui, avevo copiato e incolalto il pezzo sbagliato
In pratica ci guadagna non per forza chi è stato a livello altissimo, ma chi è stato a livello molto alto per molto tempo, e direi che l'esempio principe di questo è proprio Connors (e oggi anche Federer, ci mettessero gli ultimi 7 anni di dati scomemtto sarebbe molto più in alto di così).
L'ideale sarebbe avere un punto
per ogni partita per ogni giocatore, che è quello che immaginavo io (ovvero, lo stesso che abbiamo per l'ELO, solo messo nella famosa rete). Verosimilmente questo farebbe esplodere più o meno qualunque computer su cui uno cercasse di farlo girare.
Nickognito ha scritto:Multivac ha scritto: Si tratta quindi di trade off tra precisione e maneggevolezza.
si', ma a che prezzo!
Capisco che e' un prezzo che valesse la pena pagare se avessimo una ottima capacita' predittiva (la migliore possibile), o anche solo per incontri con differenze minime. Ma non succede!
Se hai tempo, ti consiglio questo articolo di 5 anni fa
https://www.nature.com/articles/srep00904
Se hai piu' tempo e ti interessa piu' il discorso pronostici,
http://www.doc.ic.ac.uk/teaching/distin ... .sipko.pdf.
Certo e' che il tennis e' sport complesso, con molti tornei, ognuno con la sua importanza, con stagioni diverse, superfici diverse, vittorie che possono essere in 5 lunghi set o 3 set a 0, giocatori inferiori che pero' possono essere favoriti in match equilibrati al quinto, giocatori peggiori che possono essere favoriti al tiebreak, e cosi' via.
Personalmente penso che un sistema semplice difficilmente sara' adeguato.
Se invece parliamo di sport dove l' Elo funziona (scacchi), questo articolo e' molto interessante per l' approccio di un rating storico, con l' idea di considerare gli stessi giocatori come persone diverse in anni diversi. Idea per me interessante e che potrebbe essere estesa al tennis (ma anche giocatori considerati diversi in ogni torneo dello slam, a mio parere)
http://www.edochess.ca/Edo.explanation.html
Intanto grazie del materiale, dovrà aspettare il weekend, ma prometto di leggerlo! Sul costo del trade off attendo di giocare un pochino con i numeri di Fantasio, poi ne riparliamo. In generale è vero che un modello semplice non può essere esatto, di sicuro non può esserlo uno che si basa solo sui risultati precedenti. Possiamo però tendere ad avere un ottimo modello probabilistico, che è poi il modo in cui trattiamo tutti i sistemi complessi (previsioni del tempo, mercati finanziari, diffusione del contagio delle malattie...). Ecco, ad esempio questo:
Nickognito ha scritto:be, no, direi che ogni giocatore ha un punteggio in un dato momento, e chi ha il punteggio maggiore vince.
non credo sia un obiettivo raggiungibile. Ma sarebbe un risultato eccellente avere un modello che prevede correttamente la probabilità di vittoria.
Mettiamo che io trovi che per 1000 incontri con differenza 72 punti (diciamo anche 70-75), il miglior giocatore ne vince 595: il modello si dimostrerebbe eccezionalmente buono in questo range.
A questo aspetto non avevo pensato. Considerando che la differenza media è di circa 150 punti, pensi che la percentuale del 71% sia eccellente? Ovviamente bisognerà fare i calcoli per fascia, ma intanto ho ricavato questo dato per un paio di tornei.[/quote]
Potrebbe essere, dipende poi dalla distribuzione a fasce (potrebbe essere ad esempio molto preciso per giocatori divisi da 150 punti, ma molto impreciso per quelli divisi da 10 o 500. Ma presto avremo la risposta!
Infine, un generico commento sulla capacità predittiva e sul perchè la vogliamo. Non è un discorso specifico del tennis, ma più generale del metodo scientifico. Noi immaginiamo un modello della realtà basato su alcune osservazioni. Come facciamo a sapere se è corretto? Vediamo se si applica correttamente ad osservazioni nuove. Prima che un evento avvenga (molti eventi poi in realtà), facciamo lavorare il nostro modello e vediamo che ci dice, poi misuriamo la realtà. Sono in accordo? Siamo un po' più convinti che il modello sia corretto. Sono in disaccordo? Il modello ha qualcosa che non va. Una volta che siamo fiduciosi del modello a questo punto, possiamo credere che gli assunti di base siano giusti, portare questi assunti in regimi ingoti, e vedere che ci dicono.