Federer: Il Migliore di Sempre a parte Djokovic

Multivac · Messaggio da **Multivac** » gio apr 20, 2017 5:07 pm

scooter ha scritto:
Multivac ha scritto:mentre è interessante capire se una probabilità del 60% di vittoria è affidabile
Difficile a dirsi, in generale, nel senso che verificare una "probabilità del 60%" significa avere a disposizione una LUNGA serie di incontri fra Tizio e Caio (dove Tizio sta al 60%) e verificare che in effetti Tizio vinca il 60% di questi incontri. Per inciso, mentre Tizio deve essere sempre lo stesso credo che al posto di Caio ci possano essere anche tanti Semprionio1, Semprionio2, Sempronion tutti quotati al 40% contro Tizio.
Qualche giorno fa Fantasio parlava di una capacità predittiva del 75%, ma credo intendesse dire che in generale il favorito vince il 75% degli incontri (indipendentemente dalla % prevista per ogni singola partita) e questo è certamente un ottimo risultato, ma sul piano matematico non credo sia equivalente al "senso" della probabilità come espresso sopra.

L'assunto del modello ELO è che, ad esempio, una differenza di 100 punti implica una probabilità di vittoria del favorito del 64%. Questo è (sempre per assunto del modello) indipendente dai due avversari (e dal punteggio assoluto, peraltro). Incontri con differenze di 100 punti ce ne saranno a centinaia, e potrebbero darci una misura accurata dell'affidabilità del modello, e ci danno fiducia sulla sua predittività nei futuri incontri anche tra giocatori che mai hanno giocato tra loro. Lo stesso si può fare per differenze di 200, 300 punti e così via (anche se, più si sale con la differenza, meno saranno gli incontri). La tabella di punti/probabilità per l'ELO va così:

Probabilità Differenza punti
0.99 +677
0.9 +366
0.8 +240
0.7 +149
0.6 +72
0.5 0

Mettiamo che io trovi che per 1000 incontri con differenza 72 punti (diciamo anche 70-75), il miglior giocatore ne vince 595: il modello si dimostrerebbe eccezionalmente buono in questo range. Potrei però scoprire che su 1000 incontri con differenza di più di 700 punti il favorito ne vince solo 950: vorrebbe dire che per grandi differenze il modello è pessimo. Questo ci aiuterebbe a dare una misura di quanto possiamo affidarci all'ELO per valutare confronti ipotetici. Poniamo che Sampras a Wimbledon 99 avesse un ELO di 2300, e Becker 86 un ELO di 2200, potremmo dire che Sampras vincerebbe due volte su tre. Sarebbe il sistema perfetto per simulare supertornei, inserendo in tabellone le migliori versioni dei vari giocatori e lanciando una simulazione (che era un po' la mia idea, se recupero la base dati).

@Nickognito: direi che la risposta alla (o conferma della) tua obiezione sta nel punto di cui sopra, va testata la calibrazione del modello. Il 71% in senso assoluto non misura niente in realtà, perchè non sappiamo com'è distribuito il campione di differenze ELO sottostanti (per assurdo: se il campione fosse di incontri tra giocatori distanziati tutti di 140 punti , ci direbbe che il modello in realtà è precisissimo!).

scooter · Messaggio da **scooter** » gio apr 20, 2017 5:21 pm

Do per scontato che un assunto non funzionante a un certo punto venga scartato/migliorato/sostituito (e poco importa se il punto di partenza fosse l'ipotesi che 100 pt = 64% o se questo nasca dall'osservazione empirica di un campione ritenuto rilevante).
Ne segue che se oltre una certa quota c'è uno scostamento fra % teorica e % reale puoi sempre costruire una nuova tabella in sostituzione di quella che mi hai proposto.
In effetti (e lasciando un attimo da parte il tema di fondo e cioè se il metodo ELO sia certamente replicabile anche in ambiti diversi dagli scacchi), in linea di principio non è detto che debba esserci un andamento lineare del crescere/decrescere delle % rispetto alle fasce di punti e se restiamo nel tennis non è neanche così difficile trovare delle spiegazioni quantomeno sensate di un fenomeno del genere.
E per altro, quando dici che "vorrebbe dire che per grandi differenze il modello è pessimo" magari c'è un'altra possibile interpretazione e cioè che (ammesso che ci sia una base razionale per attendersi % diverse) un campione di 1000 risultati non è sufficientemente esteso, ovviamente a prescindere dalla fascia di punteggio che stai analizzando.

Fantasio · Messaggio da **Fantasio** » gio apr 20, 2017 5:38 pm

Multivac ha scritto:Per esempio, mi interessa poco se la vera probabilità di Federer 2007 di battere Quinzi 2017 è il 99% ma l'ELO mi dice che è il 97% (per quanto un errore in proporzione enorme), mentre è interessante capire se una probabilità del 60% di vittoria è affidabile (entro certi margini, 3-4%).

Certamente, ma non potendo far giocare fra loro il Federer 2007 e il Quinzi 2017, come verificare l'attendibilità della probabilità?

Se sai dirmi dove recuperare delle serie ELO e risultati corrispondenti, è un'analisi che si fa presto.

Te le devo fornire io. Ho una variante del programma che genera la classifica ELO di tutti i giocatori in attività (o presunta tale) subito prima di un major, e la si può confrontare coi risultati effettivi. Dimmi quali vuoi (dal 2006 in poi) e te le passo.

Qui torna il problema della "memoria". 4 tornei l'anno sono pochi per mostrare mutamenti significativi, per avere una velocità di reazione migliore mi verrebbe da dire si possono considerare più tornei (Master 1000, Masters di fine anno) o calcolare un "rolling ELO" su una finestra più ristretta (3/5 anni).

Ho considerato il Masters sinché vi si sono giocati incontri al meglio dei 5 set, e tuttora considero la finale di Davis. Il discorso sui 1000 è complicatissimo perché se ne è discusso molte volte, e c'è accordo sul fatto che il loro valore non può essere tale da mettere in discussione i punteggi che si ottengono con i major. Ma a questo punto tanto vale considerare solo i major, per non parlare delle notevoli difficoltà di stabilire quali tornei siano da considerare dei simil-1000, specialmente prima dell'era Open e nel circuito pro, e delle difficoltà crescenti nel trovarne i tabelloni a mano a mano che si va indietro nel tempo. E altri problemi sarebbero da risolvere...

scooter · Messaggio da **scooter** » gio apr 20, 2017 5:47 pm

Fantasio ha scritto:Ho considerato il Masters sinché vi si sono giocati incontri al meglio dei 5 set, e tuttora considero la finale di Davis. Il discorso sui 1000 è complicatissimo perché se ne è discusso molte volte, e c'è accordo sul fatto che il loro valore non può essere tale da mettere in discussione i punteggi che si ottengono con i major. Ma a questo punto tanto vale considerare solo i major, per non parlare delle notevoli difficoltà di stabilire quali tornei siano da considerare dei simil-1000, specialmente prima dell'era Open e nel circuito pro, e delle difficoltà crescenti nel trovarne i tabelloni a mano a mano che si va indietro nel tempo. E altri problemi sarebbero da risolvere...

Al di là della mole di dati (che comunque sarà sempre bassa e quindi non priva di un margine di incertezza) mi chiedo se in ottica topicone valga davvero la pena di scervellarsi sui tornei realmente giocati.
Provo a spiegarmi con un esempio basato su un mondo ipotetico in cui esistono solo Federer, Nadal, Djokovic, Murray, Berdych e Kyrgios.
E' un mondo in cui ci sono 3 palesi candidati GOAT, un quarto che può mettere occasionalmente in difficoltà i primi (al punto da vincere major) e due onesti comprimari di cui sappiamo che il più vecchio ha avuto una carriera a oggi migliore di quella del più giovane (che per contro ha ottimi h2h con i possibili GOAT, mentre il vecchio le ha sempre buscate). Ora, indipendentemente da dove siano maturati i risultati reali di questi giocatori, noi intendiamo costruire un modello che ci consenta di prevedere gli incontri delle versioni idealizzate di questi giocatori. E se è chiaro che i risultati reali dipendono anche da come sono andate le cose quando Federer ha incontrato Berdych e Kyrgios, quando poi passiamo ai fantatornei gli ultimi due non li prendiamo ovviamente in considerazione.
E vengo al dunque. Potrebbe avere senso realizzare un ELO che tenga conto solo degli scontri diretti fra big (dove nel nostro esempio la categoria include Murray ed esclude Berdych/Kyrgios)? Avremmo a disposizione meno dati, ma il maggior margine di errore derivante da questa diminuzione del campione potrebbe essere compensata su una focalizzazione maggiore sull'ambito che ci interessa realmente.

Fantasio · Messaggio da **Fantasio** » gio apr 20, 2017 5:56 pm

Multivac ha scritto:Poniamo che Sampras a Wimbledon 99 avesse un ELO di 2300, e Becker 86 un ELO di 2200, potremmo dire che Sampras vincerebbe due volte su tre. Sarebbe il sistema perfetto per simulare supertornei, inserendo in tabellone le migliori versioni dei vari giocatori e lanciando una simulazione (che era un po' la mia idea, se recupero la base dati).

Questo è fattibilissmo, ma rimane l'obiezione di fondo, non eliminabile, e cioé che nulla ci dice che le "entry level" del 1999 e del 1986 abbiano davvero lo stesso valore; anzi, è probabile che così non sia. Meno che mai potremmo azzardarci a comparare Tilden con Federer - ad esempio - perché i giocatori del 1925 erano così pochi che nulla esclude che Tilden fosse, in realtà, un giocatore della forza di un Seppi o di un Volandri (e questo a prescindere dal progresso tecnico), e che ci sembra fortissimo solo perché i suoi avversari, a loro volta, valevano quanto un Pavlasek o un Pospisil odierni.
Sampras 1999 e Agassi 1999, a Wimbledon, li puoi comparare: hanno effettivamente giocato tra di loro. Ma già Sampras 1999, Wimbledon, e Agassi 1999, US Open, sono comparabili?

Fantasio · Messaggio da **Fantasio** » gio apr 20, 2017 5:59 pm

scooter ha scritto:E vengo al dunque. Potrebbe avere senso realizzare un ELO che tenga conto solo degli scontri diretti fra big (dove nel nostro esempio la categoria include Murray ed esclude Berdych/Kyrgios)? Avremmo a disposizione meno dati, ma il maggior margine di errore derivante da questa diminuzione del campione potrebbe essere compensata su una focalizzazione maggiore sull'ambito che ci interessa realmente.

A che pro? Con soli 4 giocatori bastano i dati sugli scontri diretti, e avresti già il modello pronto. L'ELO ha senso se gli scontri diretti sono pochi o inesistenti.

Multivac · Messaggio da **Multivac** » gio apr 20, 2017 6:04 pm

scooter ha scritto:Do per scontato che un assunto non funzionante a un certo punto venga scartato/migliorato/sostituito (e poco importa se il punto di partenza fosse l'ipotesi che 100 pt = 64% o se questo nasca dall'osservazione empirica di un campione ritenuto rilevante).
Ne segue che se oltre una certa quota c'è uno scostamento fra % teorica e % reale puoi sempre costruire una nuova tabella in sostituzione di quella che mi hai proposto.

La prima fase ovviamente è corretta, è la base del metodo scientifico. Attenzione però che qui non abbiamo una tabella di valori, ma un modello vero e proprio (per quanto semplificato) che funziona con i seguenti assunti:

- La forza di ogni giocatore è esprimibile da un singolo numero
- Dati i valori di forza di due giocatori è possibile predire la probabilità di vittoria di uno dei due tramite una certa formula
- Il modello è Bayesiano, e il valore di forza viene aggiornato dopo ogni confronto secondo un certo criterio

Ora, questi assunti possono essere più o meno vicini alla realtà (sicuramente non catturano tutto!). Se fossero abbastanza vicinim potremmo accontentarci per i nostri scopi (così come in generale usiamo la legge di gravità di Newton invece della relatività generale nella vita di tutti i giorni). Oppure possono essere molto imprecisi, e possiamo pensare a modelli migliori che tengano in conto di più variabili o valutino diversamente la probabilità di vittoria.

scooter ha scritto:In effetti (e lasciando un attimo da parte il tema di fondo e cioè se il metodo ELO sia certamente replicabile anche in ambiti diversi dagli scacchi), in linea di principio non è detto che debba esserci un andamento lineare del crescere/decrescere delle % rispetto alle fasce di punti e se restiamo nel tennis non è neanche così difficile trovare delle spiegazioni quantomeno sensate di un fenomeno del genere.

Occhio che non è lineare

Ti allego un'immagine di come va a seconda della differenza di punti.

scooter ha scritto: E per altro, quando dici che "vorrebbe dire che per grandi differenze il modello è pessimo" magari c'è un'altra possibile interpretazione e cioè che (ammesso che ci sia una base razionale per attendersi % diverse) un campione di 1000 risultati non è sufficientemente esteso, ovviamente a prescindere dalla fascia di punteggio che stai analizzando.

Questo si può facilmente quantificare. Possiamo modellare il numero di successi di un giocatore con una certa % di vittoria a priori con una distribuzione binomiale di probabilità p. Di questa sappiamo calcolare la varianza attesa, possiamo poi vedere se il numero che troviamo sta dentro a un certo intervallo di varianza (o meglio, della sua radice). Ad esempio, la varianza per un campione di 1000 dati e probabilità di vittoria è di circa 10, la deviazione standard quindi di circa 3. Questo vuol dire che io mi aspetto di avere circa 990 successi, con un incertezza in più o in meno attorno a 3 (è più preciso di così, ma poi finisco a scrivere un trattato di statistica). Pertanto, se ne trovassi 992 o 987 potrei dire ce l'imprecisione risultante è dovuta al mio campione, se ne trovassi 950 sarei praticamente certo che c'è qualcosa che non va.

Multivac · Messaggio da **Multivac** » gio apr 20, 2017 6:14 pm

Fantasio ha scritto:
Multivac ha scritto:Poniamo che Sampras a Wimbledon 99 avesse un ELO di 2300, e Becker 86 un ELO di 2200, potremmo dire che Sampras vincerebbe due volte su tre. Sarebbe il sistema perfetto per simulare supertornei, inserendo in tabellone le migliori versioni dei vari giocatori e lanciando una simulazione (che era un po' la mia idea, se recupero la base dati).
Questo è fattibilissmo, ma rimane l'obiezione di fondo, non eliminabile, e cioé che nulla ci dice che le "entry level" del 1999 e del 1986 abbiano davvero lo stesso valore; anzi, è probabile che così non sia. Meno che mai potremmo azzardarci a comparare Tilden con Federer - ad esempio - perché i giocatori del 1925 erano così pochi che nulla esclude che Tilden fosse, in realtà, un giocatore della forza di un Seppi o di un Volandri (e questo a prescindere dal progresso tecnico), e che ci sembra fortissimo solo perché i suoi avversari, a loro volta, valevano quanto un Pavlasek o un Pospisil odierni.
Sampras 1999 e Agassi 1999, a Wimbledon, li puoi comparare: hanno effettivamente giocato tra di loro. Ma già Sampras 1999, Wimbledon, e Agassi 1999, US Open, sono comparabili?

Sampras a W99 e Agassi a US99 (differenza di superficie a parte) credo siano comparabili sì, la differenza temporale è sufficientemente piccola che i fattori di perturbazione siano verosimilmente trascurabili. Per intervalli temporali più lunghi il problema principale dell'ELO è la mancanza di un feeback "backward". Mi spiego: il Giocatore A ha un rating di 2000, guadagnato contro dei contemporanei di rating medio 1500. Poi lui si ritira poco prima che arrivi una nuova generazione di giocatori. Giocando contro la nuova generazione, la vecchia passa da 1500 a 1300. Di conseguenza dovremmo aggiustare anche il rating di A, ribasandolo su incontri con avversari di rating 1300 (e poi, a feedback, riaggiustare quelli dei contemporanei, e quindi quelli dei nuovi arrivati...). In pratica ci vorrebbe una mole di dati sterminata, una rete neurale, e un centro di calcolo di Google

Sarebbe sicuramente più preciso e consentirebbe maggiore coerenza nelle misure... ma davvero è utopia pura.

Fantasio ha scritto: Se sai dirmi dove recuperare delle serie ELO e risultati corrispondenti, è un'analisi che si fa presto.

Te le devo fornire io. Ho una variante del programma che genera la classifica ELO di tutti i giocatori in attività (o presunta tale) subito prima di un major, e la si può confrontare coi risultati effettivi. Dimmi quali vuoi (dal 2006 in poi) e te le passo.

Ti contatto in pvt allora

Fantasio · Messaggio da **Fantasio** » gio apr 20, 2017 6:40 pm

Multivac ha scritto:Per intervalli temporali più lunghi il problema principale dell'ELO è la mancanza di un feeback "backward". Mi spiego: il Giocatore A ha un rating di 2000, guadagnato contro dei contemporanei di rating medio 1500. Poi lui si ritira poco prima che arrivi una nuova generazione di giocatori. Giocando contro la nuova generazione, la vecchia passa da 1500 a 1300. Di conseguenza dovremmo aggiustare anche il rating di A, ribasandolo su incontri con avversari di rating 1300 (e poi, a feedback, riaggiustare quelli dei contemporanei, e quindi quelli dei nuovi arrivati...). In pratica ci vorrebbe una mole di dati sterminata, una rete neurale, e un centro di calcolo di Google
Sarebbe sicuramente più preciso e consentirebbe maggiore coerenza nelle misure... ma davvero è utopia pura.

Mi commuovo (davvero!). Sei il primo che ha afferrato pienamente il problema.

Che succederebbe, nel tuo esempio? Il primo giocatore avrebbe un rating di 2000, i suoi avversari circa 1500. Poi verrebbero un nuovo giocatore, e dei nuovi avversari. Se io mantengo il punteggio di "entry level" a 1500, e il secondo giocatore raggiunge i 2000, noi avremo l'impressione di due giocatori di pari forza. Ma potrebbe essere, come tu ipotizzi, che la nuova generazione di avversari sia più forte della prima (la prima scende a 1300 giocando contro la seconda): questo implicherebbe che il secondo giocatore sia più forte del primo, e non di pari livello, come ci sembra per aver postulato erroneamente uno stesso "entry level".
Rete neurale, dici? Il bello è che qualcuno dice di averlo fatto. Il GOAT è risultato... Connors.

Nickognito · Messaggio da **Nickognito** » gio apr 20, 2017 6:44 pm

Multivac ha scritto: Mettiamo che io trovi che per 1000 incontri con differenza 72 punti (diciamo anche 70-75), il miglior giocatore ne vince 595: il modello si dimostrerebbe eccezionalmente buono in questo range. Potrei però scoprire che su 1000 incontri con differenza di più di 700 punti il favorito ne vince solo 950: vorrebbe dire che per grandi differenze il modello è pessimo. Questo ci aiuterebbe a dare una misura di quanto possiamo affidarci all'ELO per valutare confronti ipotetici. Poniamo che Sampras a Wimbledon 99 avesse un ELO di 2300, e Becker 86 un ELO di 2200, potremmo dire che Sampras vincerebbe due volte su tre. Sarebbe il sistema perfetto per simulare supertornei, inserendo in tabellone le migliori versioni dei vari giocatori e lanciando una simulazione (che era un po' la mia idea, se recupero la base dati).

@Nickognito: direi che la risposta alla (o conferma della) tua obiezione sta nel punto di cui sopra, va testata la calibrazione del modello. Il 71% in senso assoluto non misura niente in realtà, perchè non sappiamo com'è distribuito il campione di differenze ELO sottostanti (per assurdo: se il campione fosse di incontri tra giocatori distanziati tutti di 140 punti , ci direbbe che il modello in realtà è precisissimo!).

Beh, se in totale e' 71% di certo restringendo il campione come dici tu non rimarrebbe del 71%, direi

C'e' anche un altro problema, che l' Elo (quello tradizionale, quello di cui si sta parlando), considera solo i risultati del passato. Il che e' buono se si cerca di far soldi con le scommesse, ma e' totalmente inspiegabile se si vuole stabilire un valore nel passato, a mio parere. Un momento presente x e' come casuailita' dipende dal passato e non dal futuro, ma come valore direi che si vede sia da passato che da futuro.

Facciamo un esempio: Federer di Wimbledon 2003. Se faccio una classifica Elo basata sul passato, Federer 2003 a Wimbledon avra' un valore molto relativo. Vittorie di prestigio relativo, punteggio di partenza molto basso. Ne risulta un valore al momento piuttosto scarso. Se invece considere i risultati futuri, si capisce che Federer potesse essere piu' forte anche nel 2003.
Altro esempio: il grande slam di Laver. Se uso un approccio con Elo tradizionale, non c'e' il minimo dubbio. Il Laver degli Us Open vale piu' di quello di Wimbledon, il quale vale piu' di quello di Parigi, che vale piu' di quello di Melbourne. Questo avviene in tutti i casi analoghi. Ad esempio, qualunque giocatore vinca Wimbledon e gli Us Open in fila, risulta che sia piu' forte agli Us Open. E' evidente che questo sia falso. Infatti il massimo punteggio arriva sempre nel momento sbagliato della carriera.
Altra ovvia obiezione: secondo il metodo Elo, Kuerten sara' quasi sempre molto piu' forte al primo turno di Wimbledon rispetto a quello di Parigi. Questo non invalida nulla nel nostro caso (si parla solo di tornei finiti), ma vale ad esempio sempre nel caso di Borg, 5 anni piu' forte a Wimbledon che a Parigi. O di Nadal 2008.
Perche' approfondire quindi un metodo palesemente inadeguato, con molti calcoli? Magari aggiustando qualcosa per 'farlo tornare?'

Multivac · Messaggio da **Multivac** » gio apr 20, 2017 7:09 pm

Fantasio ha scritto:rebbe che il secondo giocatore sia più forte del primo, e non di pari livello, come ci sembra per aver postulato erroneamente uno stesso "entry level".
Rete neurale, dici? Il bello è che qualcuno dice di averlo fatto. Il GOAT è risultato... Connors.

Oddio... Connors?

Mi piacerebbe capire che han fatto, Connors dalla sua ha una mole di piccole vittorie enorme, mi verrebbe da dire che in quelche modo si è pesata molto quella....

Nickognito ha scritto:
Multivac ha scritto: Mettiamo che io trovi che per 1000 incontri con differenza 72 punti (diciamo anche 70-75), il miglior giocatore ne vince 595: il modello si dimostrerebbe eccezionalmente buono in questo range. Potrei però scoprire che su 1000 incontri con differenza di più di 700 punti il favorito ne vince solo 950: vorrebbe dire che per grandi differenze il modello è pessimo. Questo ci aiuterebbe a dare una misura di quanto possiamo affidarci all'ELO per valutare confronti ipotetici. Poniamo che Sampras a Wimbledon 99 avesse un ELO di 2300, e Becker 86 un ELO di 2200, potremmo dire che Sampras vincerebbe due volte su tre. Sarebbe il sistema perfetto per simulare supertornei, inserendo in tabellone le migliori versioni dei vari giocatori e lanciando una simulazione (che era un po' la mia idea, se recupero la base dati).

@Nickognito: direi che la risposta alla (o conferma della) tua obiezione sta nel punto di cui sopra, va testata la calibrazione del modello. Il 71% in senso assoluto non misura niente in realtà, perchè non sappiamo com'è distribuito il campione di differenze ELO sottostanti (per assurdo: se il campione fosse di incontri tra giocatori distanziati tutti di 140 punti , ci direbbe che il modello in realtà è precisissimo!).
Beh, se in totale e' 71% di certo restringendo il campione come dici tu non rimarrebbe del 71%, direi

Mmmhhh non è quello che intendo ( o non capisco quello che intendi tu ), mi sa che non mi riesco a spiegare su questo

Nickognito ha scritto: C'e' anche un altro problema, che l' Elo (quello tradizionale, quello di cui si sta parlando), considera solo i risultati del passato. Il che e' buono se si cerca di far soldi con le scommesse, ma e' totalmente inspiegabile se si vuole stabilire un valore nel passato, a mio parere. Un momento presente x e' come casuailita' dipende dal passato e non dal futuro, ma come valore direi che si vede sia da passato che da futuro.

Facciamo un esempio: Federer di Wimbledon 2003. Se faccio una classifica Elo basata sul passato, Federer 2003 a Wimbledon avra' un valore molto relativo. Vittorie di prestigio relativo, punteggio di partenza molto basso. Ne risulta un valore al momento piuttosto scarso. Se invece considere i risultati futuri, si capisce che Federer potesse essere piu' forte anche nel 2003.
Altro esempio: il grande slam di Laver. Se uso un approccio con Elo tradizionale, non c'e' il minimo dubbio. Il Laver degli Us Open vale piu' di quello di Wimbledon, il quale vale piu' di quello di Parigi, che vale piu' di quello di Melbourne. Questo avviene in tutti i casi analoghi. Ad esempio, qualunque giocatore vinca Wimbledon e gli Us Open in fila, risulta che sia piu' forte agli Us Open. E' evidente che questo sia falso. Infatti il massimo punteggio arriva sempre nel momento sbagliato della carriera.
Altra ovvia obiezione: secondo il metodo Elo, Kuerten sara' quasi sempre molto piu' forte al primo turno di Wimbledon rispetto a quello di Parigi. Questo non invalida nulla nel nostro caso (si parla solo di tornei finiti), ma vale ad esempio sempre nel caso di Borg, 5 anni piu' forte a Wimbledon che a Parigi. O di Nadal 2008.
Perche' approfondire quindi un metodo palesemente inadeguato, con molti calcoli? Magari aggiustando qualcosa per 'farlo tornare?'

Ecco, questo per l'appunto verrebbe "curato" con un approcio a rete neurale, in cui avremmo appunto reotropropagazione. Il vantaggio dell'ELO è che... è immensamente più semplice (è la semplificazione forward only e ad uno step solo della famosa rete). Si tratta quindi di trade off tra precisione e maneggevolezza.

Fantasio · Messaggio da **Fantasio** » gio apr 20, 2017 7:17 pm

Multivac ha scritto:
Fantasio ha scritto:rebbe che il secondo giocatore sia più forte del primo, e non di pari livello, come ci sembra per aver postulato erroneamente uno stesso "entry level".
Rete neurale, dici? Il bello è che qualcuno dice di averlo fatto. Il GOAT è risultato... Connors.
Oddio... Connors? Mi piacerebbe capire che han fatto, Connors dalla sua ha una mole di piccole vittorie enorme, mi verrebbe da dire che in quelche modo si è pesata molto quella....

Ne parlammo anche qui, ma forse non è proprio una rete neurale:
http://journals.plos.org/plosone/articl ... ne.0017249

Multivac · Messaggio da **Multivac** » gio apr 20, 2017 7:18 pm

Fantasio ha scritto:
Multivac ha scritto:
Fantasio ha scritto:rebbe che il secondo giocatore sia più forte del primo, e non di pari livello, come ci sembra per aver postulato erroneamente uno stesso "entry level".
Rete neurale, dici? Il bello è che qualcuno dice di averlo fatto. Il GOAT è risultato... Connors.
Oddio... Connors? Mi piacerebbe capire che han fatto, Connors dalla sua ha una mole di piccole vittorie enorme, mi verrebbe da dire che in quelche modo si è pesata molto quella....
Ne parlammo anche qui, ma forse non è proprio una rete neurale:
http://journals.plos.org/plosone/articl ... ne.0017249

Grazie! Appena possibile gli provo a dare una lettura.

scooter · Messaggio da **scooter** » gio apr 20, 2017 8:00 pm

Fantasio ha scritto:
scooter ha scritto:E vengo al dunque. Potrebbe avere senso realizzare un ELO che tenga conto solo degli scontri diretti fra big (dove nel nostro esempio la categoria include Murray ed esclude Berdych/Kyrgios)? Avremmo a disposizione meno dati, ma il maggior margine di errore derivante da questa diminuzione del campione potrebbe essere compensata su una focalizzazione maggiore sull'ambito che ci interessa realmente.
A che pro? Con soli 4 giocatori bastano i dati sugli scontri diretti, e avresti già il modello pronto. L'ELO ha senso se gli scontri diretti sono pochi o inesistenti.

I 4 giocatori era per (tentare di) semplificare la mia argomentazione. Ci ritorno su domani con dei dati che ho sul computer dell'ufficio (sperando di riuscire a ritagliarmi lo spazio che serve), che magari riuscirò a essere più chiaro.

scooter · Messaggio da **scooter** » gio apr 20, 2017 8:21 pm

Multivac ha scritto: Occhio che non è lineare Ti allego un'immagine di come va a seconda della differenza di punti.

Confesso di averlo scritto senza aver analizzato per bene la tabellina, fidandomi del tuo argomento sulla maggiore o minore fallacia dei pronostici in base alle fasce di punti

Multivac ha scritto:Possiamo modellare il numero di successi di un giocatore con una certa % di vittoria a priori con una distribuzione binomiale di probabilità p.

Amo questi argomenti, anche se vanno un po' (tanto) oltre le mie competenze quindi non so se sto per scrivere in modo diverso quello che hai detto tu, se sto per fare un'obiezione geniale o aggiungendo solo un ulteriore spunto di riflessione. Lascio a te valutare se sto andando OT (e magari finiamo in privato) o se sia utile per la discussione.
Dunque, per quanto ne so la distribuzione binomiale può dirmi (posto che sia nota, o presunta, la % di probabilità di vittoria) quanto è probabile che Tizio vinca almeno n incontri su m (m>=n, ovviamente). Ma se io già conosco (oppure ho stimato) la % di vittoria teorica di Tizio, non mi basta farne la media con la % di sconfitta teorica di Caio per fare un (ragionevole) pronostico sul match?
E mi pare che neanche servirebbe in ottica fantatorneo, perché se voglio sapere quanto è probabile che Tizio vinca vuol dire che deve vincerle tutte, quindi n=m e quindi se moltiplico fra di loro le % di vittorie lungo i vari turni del torneo ottengo lo stesso risultato (con un calcol anche più semplice).
Naturalmente, come dicevo, è possibile che non abbia capito una sillaba di quello che hai scritto (ma pure di quello che ho scritto io stesso

)

Multivac ha scritto:il problema principale dell'ELO è la mancanza di un feeback "backward"

Provo ad avventurarmi nuovamente su terreni impervi...
Come che si affronti questa faccenda del GOAT, dei confronti diretti, degli h2h teorici su giocatori separati da decenni prima o poi (anche indipendentemente dall'ELO) escono problemi che riassumerò sotto l'etichetta di "autoreferenzialità". Il mio amico Bertarnd Russell risolse brillantemente il problrma a livello linguistico, ma se non erro quando ci sono di mezzo i numeri dovrebbe essere (almeno in linea di principio) possibile impostare dei calcoli ricorsivi in attesa che i vari output si stabilizzino su valori (o rapporti di valori) che succesive iterazioni dell'algoritmo non potrebbero più modificare (almeno in modo sostanziale).
Ora, ammesso che abbia capito il problema da te segnalato e che non abbia preso (io) una cantonata sull'iterazione dei calcoli: c'è qualcosa di intrinseco nell'ELO che impedirebbe questo approccio ricorsivo?

Multivac ha scritto:Connors dalla sua ha una mole di piccole vittorie enorme, mi verrebbe da dire che in quelche modo si è pesata molto quella....

Come ti direbbe qualunque tifoso di Federer, quel che conta è il numero delle vittorie.
Scherzi a parte, Connors chiaramente (se ci fermiamo ai numeri) non ha un palmares all'altezza di altri giocatori. Però 8 slam non sono pochi in generale. E parliamo di finali vinte contro Lendl, Borg, McEnroe e Rosewall (e Dent, vabbè). E finali perse contro Borg e McEnore soprattutto, ma insomma anche Newcombe, Ashe, Orantes e Vilas non sono proprio da buttare via. Aggiungi una valanga di trofei minori e una longevità più o meno senza eguali... dai, anche il povero Jimbo qualche considerazione la merita e insomma non mi sorprende che qualche algoritmo lo possa anche vedere davanti a tutti.

Sulle reti neurali non ci provo neanche!

Nickognito · Messaggio da **Nickognito** » gio apr 20, 2017 8:25 pm

Multivac ha scritto: Si tratta quindi di trade off tra precisione e maneggevolezza.

si', ma a che prezzo!
Capisco che e' un prezzo che valesse la pena pagare se avessimo una ottima capacita' predittiva (la migliore possibile), o anche solo per incontri con differenze minime. Ma non succede!

Se hai tempo, ti consiglio questo articolo di 5 anni fa

https://www.nature.com/articles/srep00904

Se hai piu' tempo e ti interessa piu' il discorso pronostici, http://www.doc.ic.ac.uk/teaching/distin ... .sipko.pdf.

Certo e' che il tennis e' sport complesso, con molti tornei, ognuno con la sua importanza, con stagioni diverse, superfici diverse, vittorie che possono essere in 5 lunghi set o 3 set a 0, giocatori inferiori che pero' possono essere favoriti in match equilibrati al quinto, giocatori peggiori che possono essere favoriti al tiebreak, e cosi' via.
Personalmente penso che un sistema semplice difficilmente sara' adeguato.

Se invece parliamo di sport dove l' Elo funziona (scacchi), questo articolo e' molto interessante per l' approccio di un rating storico, con l' idea di considerare gli stessi giocatori come persone diverse in anni diversi. Idea per me interessante e che potrebbe essere estesa al tennis (ma anche giocatori considerati diversi in ogni torneo dello slam, a mio parere)

http://www.edochess.ca/Edo.explanation.html

scooter · Messaggio da **scooter** » gio apr 20, 2017 8:28 pm

Nickognito ha scritto:se avessimo una ottima capacita' predittiva

So che è uno dei tuoi cavalli di battaglia, ma devo confessare che in tanti anni non ho capito cosa intendi di preciso...

Nickognito · Messaggio da **Nickognito** » gio apr 20, 2017 8:34 pm

scooter ha scritto:
Nickognito ha scritto:se avessimo una ottima capacita' predittiva
So che è uno dei tuoi cavalli di battaglia, ma devo confessare che in tanti anni non ho capito cosa intendi di preciso...

be, quello di cui stavamo parlando, prevedere il risultato di un incontro.

scooter · Messaggio da **scooter** » gio apr 20, 2017 9:31 pm

Nickognito ha scritto:
scooter ha scritto:
Nickognito ha scritto:se avessimo una ottima capacita' predittiva
So che è uno dei tuoi cavalli di battaglia, ma devo confessare che in tanti anni non ho capito cosa intendi di preciso...
be, quello di cui stavamo parlando, prevedere il risultato di un incontro.

Sì, chiaro. Ma diciamo che si tratti di pronosticare:
1) Nadal-Soderling a Parigi 2009
2) McEnroe-Lewis a Wimbledon 1984
3) Federer-Nickognito dove e quando ti pare

Da un ipotetico sistema a capacità predittiva perfetta quali pronostici ti aspetti? Diciamo almeno nei primi due casi su cui possiamo ragionare a posteriori, se sul terzo non sei in grado di fare previsioni

Nickognito · Messaggio da **Nickognito** » gio apr 20, 2017 9:35 pm

be, no, direi che ogni giocatore ha un punteggio in un dato momento, e chi ha il punteggio maggiore vince. Poi nel caso di Soderling nessun sistema ci prendera'

Poi a me interessa la capacita' predittiva ad altissimi livelli (indipendentemente dalla differenza di valore fra i due)

Fantasio · Messaggio da **Fantasio** » gio apr 20, 2017 11:11 pm

Multivac ha scritto:La tabella di punti/probabilità per l'ELO va così:

Probabilità Differenza punti
0.99 +677
0.9 +366
0.8 +240
0.7 +149
0.6 +72
0.5 0

Per essere precisi, la tabella è un'approssimazione della formula 1/(1+10^(differenza/400)). Io uso la formula esatta, più semplice da implementare in un programma.

Mettiamo che io trovi che per 1000 incontri con differenza 72 punti (diciamo anche 70-75), il miglior giocatore ne vince 595: il modello si dimostrerebbe eccezionalmente buono in questo range.

A questo aspetto non avevo pensato. Considerando che la differenza media è di circa 150 punti, pensi che la percentuale del 71% sia eccellente? Ovviamente bisognerà fare i calcoli per fascia, ma intanto ho ricavato questo dato per un paio di tornei.

Johnny Rex · Messaggio da **Johnny Rex** » ven apr 21, 2017 7:44 am

Ancora con l'Ottima capacità predittiva.

va da sé che una capacità predittiva può tenere conto solo del già avvenuto, e non può tenere conto di quel che sarà,s e la applcihiamo alle classifiche topiconiane dobbiamo tenere conto del valore di certe vittorie quando sono avvenute (Ashe vs Borg a Wimbledon 1975 vittoria relativa, Borg visto come ancora inferiore ad Ashe su erba) e non a posteriori per quanto avvenuto dopo (vittoria di grande peso di Ashe perché poi per 6 anni Borg vince sempre)

F.F.

scooter · Messaggio da **scooter** » ven apr 21, 2017 9:00 am

Johnny Rex ha scritto:Ancora con l'Ottima capacità predittiva.

va da sé che una capacità predittiva può tenere conto solo del già avvenuto, e non può tenere conto di quel che sarà,s e la applcihiamo alle classifiche topiconiane dobbiamo tenere conto del valore di certe vittorie quando sono avvenute (Ashe vs Borg a Wimbledon 1975 vittoria relativa, Borg visto come ancora inferiore ad Ashe su erba) e non a posteriori per quanto avvenuto dopo (vittoria di grande peso di Ashe perché poi per 6 anni Borg vince sempre)

F.F.

Johnny, non sono del tutto d'accordo.
E' vero che battere Borg a Wimbledon nel 75 non sia un'impresa epica. Ma quello che viene subito dopo (e non a secoli di distanza) non può essere del tutto ignorato. E' chiaro che comunque, anche con il senno di poi, Borg75 a Londra non vale (per banali ragioni di maturazione) quello degli anni successivi così come è pur vero che la vittoria di Ashe è un fatto isolato e quindi tutto sommato le due prospettive storiche, in un caso come questo, finiscono più o meno per annullarsi.
Se vogliamo, stesso discorso per un Soderling che elimina il miglior Nadal a Parigi: un'impresa ai limiti del sovrumano, ma tutto quel che viene dopo (altri anni di dominio incontrastato di Rafa su rosso e nessun risultato di rilievo per Robin) ci dice che quella partita è, in ottica all time, una piccola anomalia statistica che di fatto nulla toglie allo spagnolo e nulla dà allo svedese.
Ma in fin dei conti questa è la differenza fra cronaca e storia: voglio dire, la Repubblica di Weimar la racconti in un modo se devi scrivere in tempo reale il quotidiano del mattino ma sui libri di storia non puoi ignorarne il rapporto con la successiva salita al potere di Hitler.

Multivac · Messaggio da **Multivac** » ven apr 21, 2017 11:35 am

Molte cose interessanti, provo a rispondere a tutti

scooter ha scritto:
Multivac ha scritto:Possiamo modellare il numero di successi di un giocatore con una certa % di vittoria a priori con una distribuzione binomiale di probabilità p.
Amo questi argomenti, anche se vanno un po' (tanto) oltre le mie competenze quindi non so se sto per scrivere in modo diverso quello che hai detto tu, se sto per fare un'obiezione geniale o aggiungendo solo un ulteriore spunto di riflessione. Lascio a te valutare se sto andando OT (e magari finiamo in privato) o se sia utile per la discussione.
Dunque, per quanto ne so la distribuzione binomiale può dirmi (posto che sia nota, o presunta, la % di probabilità di vittoria) quanto è probabile che Tizio vinca almeno n incontri su m (m>=n, ovviamente). Ma se io già conosco (oppure ho stimato) la % di vittoria teorica di Tizio, non mi basta farne la media con la % di sconfitta teorica di Caio per fare un (ragionevole) pronostico sul match?
E mi pare che neanche servirebbe in ottica fantatorneo, perché se voglio sapere quanto è probabile che Tizio vinca vuol dire che deve vincerle tutte, quindi n=m e quindi se moltiplico fra di loro le % di vittorie lungo i vari turni del torneo ottengo lo stesso risultato (con un calcol anche più semplice).
Naturalmente, come dicevo, è possibile che non abbia capito una sillaba di quello che hai scritto (ma pure di quello che ho scritto io stesso )

Sull'OT non saprei, magari varrebbe la pena aprire un thread separato, lascio valutare a tutti se questa discussione interessa qui o meno.

Tutto quello che dici è corretto, nel caso semplice di due giocatori soli. Ma, come ama dire ludega, il tennis è fatto di tornei con decine o centinaia di giocatori. Per avere la corretta probabilità di vittoria di un torneo dovrei:

Calcolare tutte le permutazioni possibili di tabellone
Calcolare le possibili combinazioni di vincitori pesati per la probabilità del loro successo
Ripetere per tutti i turni del tabellone

Per quanto in teoria si possa fare "carta e penna", in pratica è un'impresa titanica, che si può semplificare moltissimo con un approcio a simulazione:

Genero tabellone random
Genero outcome dei match a random
Ripeto il processo un numero molto elevato di volte e misuro le vittorie del singolo sulle simulazioni totali

scooter ha scritto:
Multivac ha scritto:il problema principale dell'ELO è la mancanza di un feeback "backward"
Provo ad avventurarmi nuovamente su terreni impervi...
Come che si affronti questa faccenda del GOAT, dei confronti diretti, degli h2h teorici su giocatori separati da decenni prima o poi (anche indipendentemente dall'ELO) escono problemi che riassumerò sotto l'etichetta di "autoreferenzialità". Il mio amico Bertarnd Russell risolse brillantemente il problrma a livello linguistico, ma se non erro quando ci sono di mezzo i numeri dovrebbe essere (almeno in linea di principio) possibile impostare dei calcoli ricorsivi in attesa che i vari output si stabilizzino su valori (o rapporti di valori) che succesive iterazioni dell'algoritmo non potrebbero più modificare (almeno in modo sostanziale).
Ora, ammesso che abbia capito il problema da te segnalato e che non abbia preso (io) una cantonata sull'iterazione dei calcoli: c'è qualcosa di intrinseco nell'ELO che impedirebbe questo approccio ricorsivo?

Anche qui tutto giusto, il principio della ricorsività (e successiva stabilizzazione) è proprio quello delle reti neurali. Non c'è nessun motivo per cui l'ELO non possa essere trattato alla stessa maniera, anzi, essendo una misura Bayesiana, è perfettamente tagliata per questo lavoro. L'unica limitazione, come dicevo, è che aumenta enormemente la difficoltà dell'opera (sia in termini di stesura dell'algoritmo, che in termini di calcolo macchina). A vedere ciò che segnalano Fantasio e Nickognito, qualcuno ci ha provato (sono poi riuscito a leggere l'articolo di Fantasio, ci torno sopra più avanti).

scooter ha scritto:
Multivac ha scritto:Connors dalla sua ha una mole di piccole vittorie enorme, mi verrebbe da dire che in quelche modo si è pesata molto quella....
Come ti direbbe qualunque tifoso di Federer, quel che conta è il numero delle vittorie.
Scherzi a parte, Connors chiaramente (se ci fermiamo ai numeri) non ha un palmares all'altezza di altri giocatori. Però 8 slam non sono pochi in generale. E parliamo di finali vinte contro Lendl, Borg, McEnroe e Rosewall (e Dent, vabbè). E finali perse contro Borg e McEnore soprattutto, ma insomma anche Newcombe, Ashe, Orantes e Vilas non sono proprio da buttare via. Aggiungi una valanga di trofei minori e una longevità più o meno senza eguali... dai, anche il povero Jimbo qualche considerazione la merita e insomma non mi sorprende che qualche algoritmo lo possa anche vedere davanti a tutti.
Sulle reti neurali non ci provo neanche!

Allora, leggendo l'articolo di Fantasio (per ora solo in maniera veloce) credo di aver trovato "l'inghippo". Nella loro rete, un giocatore è un punto, ed un punto solo. In pratica si vuole dare un valore univoco a tutta la carriera di un giocatore, e questo valore grosso modo equivale alla forza del giocatore moltiplicata per il periodo in cui questa forza si è mantenuta (super semplificazione anche qui, eh!). Lo accennano loro stessi nelle conclusioni:

Among all top players in the history of tennis,
Jimmy Connors
has been undoubtedly the one with the longest and most regular
trend, being in the top 10 of the ATP year-end ranking for 16
consecutive years (1973–998). Prestige score is strongly correlated
with the number of victories,[...]

In general, players still in activity are penalized with respect to
those who have ended their careers. Prestige score is in fact
strongly correlated with the number of victories [see panel a of
Figure 4] and still active players did not yet played all matches of
their career. [...] *editato qui, avevo copiato e incolalto il pezzo sbagliato

In pratica ci guadagna non per forza chi è stato a livello altissimo, ma chi è stato a livello molto alto per molto tempo, e direi che l'esempio principe di questo è proprio Connors (e oggi anche Federer, ci mettessero gli ultimi 7 anni di dati scomemtto sarebbe molto più in alto di così).
L'ideale sarebbe avere un punto per ogni partita per ogni giocatore, che è quello che immaginavo io (ovvero, lo stesso che abbiamo per l'ELO, solo messo nella famosa rete). Verosimilmente questo farebbe esplodere più o meno qualunque computer su cui uno cercasse di farlo girare.

Nickognito ha scritto:
Multivac ha scritto: Si tratta quindi di trade off tra precisione e maneggevolezza.
si', ma a che prezzo!
Capisco che e' un prezzo che valesse la pena pagare se avessimo una ottima capacita' predittiva (la migliore possibile), o anche solo per incontri con differenze minime. Ma non succede!

Se hai tempo, ti consiglio questo articolo di 5 anni fa

https://www.nature.com/articles/srep00904

Se hai piu' tempo e ti interessa piu' il discorso pronostici, http://www.doc.ic.ac.uk/teaching/distin ... .sipko.pdf.

Certo e' che il tennis e' sport complesso, con molti tornei, ognuno con la sua importanza, con stagioni diverse, superfici diverse, vittorie che possono essere in 5 lunghi set o 3 set a 0, giocatori inferiori che pero' possono essere favoriti in match equilibrati al quinto, giocatori peggiori che possono essere favoriti al tiebreak, e cosi' via.
Personalmente penso che un sistema semplice difficilmente sara' adeguato.

Se invece parliamo di sport dove l' Elo funziona (scacchi), questo articolo e' molto interessante per l' approccio di un rating storico, con l' idea di considerare gli stessi giocatori come persone diverse in anni diversi. Idea per me interessante e che potrebbe essere estesa al tennis (ma anche giocatori considerati diversi in ogni torneo dello slam, a mio parere)

http://www.edochess.ca/Edo.explanation.html

Intanto grazie del materiale, dovrà aspettare il weekend, ma prometto di leggerlo! Sul costo del trade off attendo di giocare un pochino con i numeri di Fantasio, poi ne riparliamo. In generale è vero che un modello semplice non può essere esatto, di sicuro non può esserlo uno che si basa solo sui risultati precedenti. Possiamo però tendere ad avere un ottimo modello probabilistico, che è poi il modo in cui trattiamo tutti i sistemi complessi (previsioni del tempo, mercati finanziari, diffusione del contagio delle malattie...). Ecco, ad esempio questo:

Nickognito ha scritto:be, no, direi che ogni giocatore ha un punteggio in un dato momento, e chi ha il punteggio maggiore vince.

non credo sia un obiettivo raggiungibile. Ma sarebbe un risultato eccellente avere un modello che prevede correttamente la probabilità di vittoria.

Mettiamo che io trovi che per 1000 incontri con differenza 72 punti (diciamo anche 70-75), il miglior giocatore ne vince 595: il modello si dimostrerebbe eccezionalmente buono in questo range.

A questo aspetto non avevo pensato. Considerando che la differenza media è di circa 150 punti, pensi che la percentuale del 71% sia eccellente? Ovviamente bisognerà fare i calcoli per fascia, ma intanto ho ricavato questo dato per un paio di tornei.[/quote]

Potrebbe essere, dipende poi dalla distribuzione a fasce (potrebbe essere ad esempio molto preciso per giocatori divisi da 150 punti, ma molto impreciso per quelli divisi da 10 o 500. Ma presto avremo la risposta!

Infine, un generico commento sulla capacità predittiva e sul perchè la vogliamo. Non è un discorso specifico del tennis, ma più generale del metodo scientifico. Noi immaginiamo un modello della realtà basato su alcune osservazioni. Come facciamo a sapere se è corretto? Vediamo se si applica correttamente ad osservazioni nuove. Prima che un evento avvenga (molti eventi poi in realtà), facciamo lavorare il nostro modello e vediamo che ci dice, poi misuriamo la realtà. Sono in accordo? Siamo un po' più convinti che il modello sia corretto. Sono in disaccordo? Il modello ha qualcosa che non va. Una volta che siamo fiduciosi del modello a questo punto, possiamo credere che gli assunti di base siano giusti, portare questi assunti in regimi ingoti, e vedere che ci dicono.

s&v · Messaggio da **s&v** » ven apr 21, 2017 11:44 am

scooter ha scritto:
Johnny Rex ha scritto:Ancora con l'Ottima capacità predittiva.

va da sé che una capacità predittiva può tenere conto solo del già avvenuto, e non può tenere conto di quel che sarà,s e la applcihiamo alle classifiche topiconiane dobbiamo tenere conto del valore di certe vittorie quando sono avvenute (Ashe vs Borg a Wimbledon 1975 vittoria relativa, Borg visto come ancora inferiore ad Ashe su erba) e non a posteriori per quanto avvenuto dopo (vittoria di grande peso di Ashe perché poi per 6 anni Borg vince sempre)

F.F.
Johnny, non sono del tutto d'accordo.
E' vero che battere Borg a Wimbledon nel 75 non sia un'impresa epica. Ma quello che viene subito dopo (e non a secoli di distanza) non può essere del tutto ignorato. E' chiaro che comunque, anche con il senno di poi, Borg75 a Londra non vale (per banali ragioni di maturazione) quello degli anni successivi così come è pur vero che la vittoria di Ashe è un fatto isolato e quindi tutto sommato le due prospettive storiche, in un caso come questo, finiscono più o meno per annullarsi.
Se vogliamo, stesso discorso per un Soderling che elimina il miglior Nadal a Parigi: un'impresa ai limiti del sovrumano, ma tutto quel che viene dopo (altri anni di dominio incontrastato di Rafa su rosso e nessun risultato di rilievo per Robin) ci dice che quella partita è, in ottica all time, una piccola anomalia statistica che di fatto nulla toglie allo spagnolo e nulla dà allo svedese.
Ma in fin dei conti questa è la differenza fra cronaca e storia: voglio dire, la Repubblica di Weimar la racconti in un modo se devi scrivere in tempo reale il quotidiano del mattino ma sui libri di storia non puoi ignorarne il rapporto con la successiva salita al potere di Hitler.

Io invece sono del tutto d'accordo con Johnny e ravviso, mi pare, un po' di narrative fallacy nelle tue parole: la storia (history) resa coerente a posteriori da chi la racconta come se fosse una storia (story)

Nickognito · Messaggio da **Nickognito** » ven apr 21, 2017 11:50 am

Multivac ha scritto:
Allora, leggendo l'articolo di Fantasio (per ora solo in maniera veloce) credo di aver trovato "l'inghippo". Nella loro rete, un giocatore è un punto, ed un punto solo. In pratica si vuole dare un valore univoco a tutta la carriera di un giocatore, e questo valore grosso modo equivale alla forza del giocatore moltiplicata per il periodo in cui questa forza si è mantenuta (super semplificazione anche qui, eh!). Lo accennano loro stessi nelle conclusioni:
, whose career length was shorter than average[...][/i]

L'ideale sarebbe avere un punto per ogni partita per ogni giocatore, che è quello che immaginavo io (ovvero, lo stesso che abbiamo per l'ELO, solo messo nella famosa rete). Ver
osimilmente questo farebbe esplodere più o meno qualunque computer su cui uno cercasse di farlo girare.

quoto tutto, ma direi anche che quella classifica ha il difetto di considerare troppi risultati inutili di tornei minori.

Sul punto per ogni partita, si, e' la soluzione ideale. Per ogni anno, gia' meglio. Per ogni torneo, per me non solo accettabile, ma anche preferibile, perche' l;' unico praticabile per decidere chi vincerebbe un supertorneo, per me.

Nickognito · Messaggio da **Nickognito** » ven apr 21, 2017 12:11 pm

s&v ha scritto:
Io invece sono del tutto d'accordo con Johnny e ravviso, mi pare, un po' di narrative fallacy nelle tue parole: la storia (history) resa coerente a posteriori da chi la racconta come se fosse una storia (story)

lasciamo stare Weimar e la narrativa.

Pensiamo invece al signor Cash. Pat, ottimo giocatore e 7 del mondo, incontra un avversario con zero finali in carriera, e una sconfitta 63 62 61 alle spalle al secondo turno di Parigi. Fuori dai primi 20. Cash ci perde in due set e il suo Elo scende decisamente, perdendo da un avversario chiaramente inferiore.

Il suo avversario, poi, vince il torneo, poi vince anche Wimbledon, che poi sara' definito il giardino di casa sua.

La questione e': e' giusto che il suo Elo scenda cosi' tanto, oppure il valore di becker e' maggiore per via del mese successivo, piu' importante per la definizione del suo valore del suo mese o anno passato?

scooter · Messaggio da **scooter** » ven apr 21, 2017 12:40 pm

scooter ha scritto:
Fantasio ha scritto:
scooter ha scritto:E vengo al dunque. Potrebbe avere senso realizzare un ELO che tenga conto solo degli scontri diretti fra big (dove nel nostro esempio la categoria include Murray ed esclude Berdych/Kyrgios)? Avremmo a disposizione meno dati, ma il maggior margine di errore derivante da questa diminuzione del campione potrebbe essere compensata su una focalizzazione maggiore sull'ambito che ci interessa realmente.
A che pro? Con soli 4 giocatori bastano i dati sugli scontri diretti, e avresti già il modello pronto. L'ELO ha senso se gli scontri diretti sono pochi o inesistenti.
I 4 giocatori era per (tentare di) semplificare la mia argomentazione. Ci ritorno su domani con dei dati che ho sul computer dell'ufficio (sperando di riuscire a ritagliarmi lo spazio che serve), che magari riuscirò a essere più chiaro.

Torno sull’argomento, che per altro mi rendo conto di aver approcciato in modo non del tutto coerente con quanto (al di là della chiarezza espositiva) intendevo dire.
Parto con una premessa. Quella che segue NON E’ la descrizione di un fantatorneo per una serie di ragioni, legate al fatto che i numeri che seguono sono stati raccolti piuttosto in fretta con l’unico scopo di “vedere a grandi linee dove si va a parare”. Pertanto ho intenzionalmente ignorato possibili (e talvolta solidissime) obiezioni sui partecipanti all’esperimento e sulle % di successo di ciascun giocatore in ogni singolo match possibile (ma ai fini del presente discorso basta sostituire mentalmente “Federer”, “Safin” o “McEnroe” con “giocatore1”, “giocatore2”, “giocatore3”) per non dire del calcolo che porta alla “classifica” finale (% “giocatore1” vs % media dei giocatori2-16 al posto dello sviluppo reale di tutti i tabelloni possibili, benché test su sviluppi completi di tabelloni da soli 4 giocatori garantiscono che i risultati si assomigliano molto).
Dunque, quando ieri dicevo che la selezione dei tornei a cui applicare l’ELO (o qualsiasi altro algoritmo che alla fine ci dia, secondo me assolutamente espresso in % ma magari ci torniamo un’altra volta) potrebbe essere un falso problema è che a noi non interessa tanto costruire una classifica con dei punti, ma avere anche una chiave di lettura chiara del suo significato. Naturalmente non scordo la spiegazione di Multivac “a tot differenza di punti ci si aspetta una corrispondente % di successo”, che è esattamente quello di cui sto parlando ma a cui voglio aggiungere una cosa in più. Per spiegarmi meglio, anticipo (ricordando che qui i nomi dei giocatori sono fondamentalmente delle etichette) un risultato del mio giochino. Nell’esempio che seguirà fra poco, so che Wilander ha il 50,25% di battere uno degli altri top15 dell’era ATP su cemento e questo lo pone (in una classifica provvisoria) all’11° posto su 16; ed è chiaro che questa sarà anche la sua posizione nella classifica finale. Quello che non mi pare affatto ovvio (forse per difetto di competenze matematiche) è cosa possa voler dire in un contesto di eccellenza assoluta giocarsela (mediamente) alla pari con tutti gli altri. E questo perché l’avverbio “mediamente” in questo caso è una vera trappola semantica: mediamente in un fantatorneo non hai le medesime probabilità di incontrare Federer (60%) o Murray (43%) e dunque più spesso il 50% di Wilander se la vedrà (sfavorito) contro il 60% di Federer che non (da favorito) contro il 43% di Murray. In definitiva, vedremo alla fine che “avere il 50% di vincere un match” significa “avere il 5% circa di vincere il fantatorneo”.

Detto dell’obiettivo finale (una classifica degli esiti dei fantatornei, e non solo del valore dei giocatori in astratto) torno alla questione “tornei da selezionare”.
In generale, è ovvio che ci siano tornei più importanti e altri meno (poco importa se per tradizione e prestigio, per punti ATP, per montepremi, per bellezza delle raccattapalle). Ma stiamo parlando dell’eccellenza assoluta e dunque ritengo poco importante che un giocatore decida di saltare (o prendere sottogamba) un qualsiasi torneo (non voglio viaggiare fino all’Australia, mi preparo per Wimbledon, è solo un allenamento in vista del prossimo torneo) perché in linea di massima è abbastanza evidente che se poi, anche in un torneo minore, due big si trovano a incrociare le racchette difficilmente saranno disposti a concedere una facile vittoria all’avversario. Non è una regola assoluta, lo so bene, ma se devo ragionare per massimi sistemi in vista di una serie di fantatornei mi interessa il rendimento contro i fantaavversari.
E’ chiaro comunque che servano alcuni correttivi per evitare casi alla Safin: pochissime apparizioni di alto livello, che ti fanno sembrare (in termini %) ai livelli di Lendl a fronte di una realtà che sappiamo essere ben diversa (mi pare che la cosa si possa risolvere facilmente dando una spruzzata logaritmica al conteggio di vittorie e sconfitte, ma appunto è uno dei tanti approfondimenti che per ora mi sono risparmiato).

E veniamo dunque all’esperimento di ABBOZZO di fantatorneo.
Il campo dei partecipanti è costituito dai 16 migliori giocatori dell’era ATP su cemento outdoor (dove per migliori intendo quelli con più slam vinti e, a parità di slam più 1000 o equivalenti… e sì, sugli equivalenti andavo di fretta e ho fatto finta che fosse corretta l’equivalenza proposta dalla nota pagina di Wikipedia).
Di questi giocatori ho considerato (limitatamente ai tornei dello slam, perché di alcuni 1000 non ho trovato al volo i tabelloni) il rendimento negli h2h (pesato al 65%) e il rendimento generale dai quarti di finale compresi in poi (pesato al 35%, che può sembrare tanto ma in fondo ci sono dentro anche gli h2h che dunque hanno un peso complessivo superiore).
Allora ai nastri di partenza del fantatorneo su hard abbiamo (con la relativa % teorica di vincere un incontro contro gli altri):
Sampras 68%
Djokovic 67%
Federer 60%
Lendl 60%
Safin 60%
Nadal 57%
Rafter 57%
Edberg 52%
Agassi 52%
McEnroe 52%
Wilander 50%
Becker 47%
Courier 47%
Wawrinka 45%
Murray 43%
Connors 36%

A questo punto (se questa fosse la vera batteria dei partecipanti con vere % di successo) bisognerebbe costruire tutti i tabelloni possibili e per ciascuno sviluppare tutti i possibili andamenti con le loro brave % da moltiplicare o sommare fra loro. Ed è una cosa mostruosa, per lo meno fatta con Excel.
La versione ipersemplificata dice che il 68% di Sampras va incrociato con una % media degli altri 15 del 52% (più precisamente, con una % di sconfitta del 48%) e la media di questi valori è che contro questi fantaavversari Sampras vincerà il 57,8% degli incontri. Stiamo parlando di tornei a 16 giocatori, dunque 4 turni e allora devo elevare 57,8% alla quarta potenza e ottengo un provvisorio 11,16% di vincere il torneo.
Dico provvisorio perché (e ne ignoro le ragioni, ma forse il delta si spiega con il fatto che lavorare con le medie degli avversari non è solo più semplice ma proprio sbagliato) sommando le percentuali ottenute per tutti i giocatori mi ritrovo con una somma di 104,79% anziché il 100 che mi aspettavo.
Fretta per fretta, ho finto di avere per le mani le quote dei bookmaker (comprensive di aggio, che ho ulteriormente ipotizzato essere distribuito in modo uniforme su tutti i giocatori) e dunque la pseudoclassifica finale dice che su hard outdoor:
Sampras 10,65%
Djokovic 10,25%
Federer 7,88%
Lendl 7,86%
Safin 7,82%
Nadal 7,00%
Rafter 6,92%
Edberg 5,73%
Agassi 5,58%
McEnroe 5,54%
Wilander 5,23%
Becker 4,53%
Courier 4,51%
Wawrinka 4,03%
Murray 3,82%
Connors 2,66%

Come anticipato, Safin è troppo in alto (ammesso che debba proprio esserci) e anche Connors ultimo sembra decisamente fuori posto. Ma torno a ripetere che al momento questi nomi sono poco più che dei segnaposti teorici. E non parliamo dell’assenza di Borg, impossibilitato dall’assenza di vittorie a recitare almeno il ruolo di mina vagante e la cui presenza sarebbe ben più interessante di gente come Courier o Wawrinka che comunque in ottica alltime meritano giusto una nota a pie’ di pagina (indipendentemente dalla superficie).

scooter · Messaggio da **scooter** » ven apr 21, 2017 12:49 pm

Nickognito ha scritto:Pensiamo invece al signor Cash. Pat, ottimo giocatore e 7 del mondo, incontra un avversario con zero finali in carriera, e una sconfitta 63 62 61 alle spalle al secondo turno di Parigi. Fuori dai primi 20. Cash ci perde in due set e il suo Elo scende decisamente, perdendo da un avversario chiaramente inferiore.

Il suo avversario, poi, vince il torneo, poi vince anche Wimbledon, che poi sara' definito il giardino di casa sua.

La questione e': e' giusto che il suo Elo scenda cosi' tanto, oppure il valore di becker e' maggiore per via del mese successivo, piu' importante per la definizione del suo valore del suo mese o anno passato?

Per me la carriera in generale (poco) e gli sviluppi di lì ai mesi immediatamente successivi (tanto) fanno sì che la sconfitta di Cash sia da considerare, sostanzialmente, giustificata.
Sono invece in dubbio su un esempio opposto: Soderling fa l'impresa del secolo buttando fuori Nadal, la successiva vittoria di Federer va moltiplicata per un fattore che tenga conto dell'eccezionalità momentanea del suo avversario o (come dimostra tutto il resto della carriera di Soderling) si tratta di una vittoria "banale"? In questi casi i bookmaker optano senza esitazioni per la seconda ipotesi e sarei portato a dare loro ragione, ma questo mi pare in contraddizione con quanto ho detto a proposito di Cash.

Nickognito · Messaggio da **Nickognito** » ven apr 21, 2017 12:51 pm

Non capisco bene, immagino per incomprensione mia. Se io so il valore del torneo, non e' complesso o difficile vedere le probabilita' di fare vittoria o finale, o semifinale (e' quello che ogni bookmaker fa). Riguardo al valore, per me ha poco senso un valore complessivo (almeno per un approccio di supertornei), per ma ha senso dire che il Sampras di Wimbledon 99 gioca con il Laver di Wimbledon 69.
Riguardo al vedere Safin cosi' avanti a Connors, se non e' un esempio solo messo li' a caso, beh, il problema si risulverebbe avendo l' approccio di cui sopra. Se non volessi avere un approccio per tornei, ma per carriere, direi che questo sarebbe un possibile avendo un valore unico, ma ci vorrebbe un minimo e un massimo, per cui i massimo di Connors e Safin sono simili (o al limite Safin perfino avanti), ma il minimo o medio di Connors molto maggiori. Ma non vedo benefici di un approccio del genere.

Nickognito · Messaggio da **Nickognito** » ven apr 21, 2017 1:06 pm

scooter ha scritto: Sono invece in dubbio su un esempio opposto: Soderling fa l'impresa del secolo buttando fuori Nadal, la successiva vittoria di Federer va moltiplicata per un fattore che tenga conto dell'eccezionalità momentanea del suo avversario o (come dimostra tutto il resto della carriera di Soderling) si tratta di una vittoria "banale"? In questi casi i bookmaker optano senza esitazioni per la seconda ipotesi e sarei portato a dare loro ragione, ma questo mi pare in contraddizione con quanto ho detto a proposito di Cash.

si', per me esiste un minimo di paradosso. Soderling ovviamente ha fatto una grandissima impresa come match e, se avesse battuto Federer, si sarebbe parlato forse della vittoria di torneo piu'; di qualita' della storia del gioco. Ma, perdendo, si dice che Federer ha fatto solo lo standard battendo un giocatore medio/ Non e' risolvibile la cosa, conoscendo il gioco un giocatore medio che batte nei quarti un supercampione poi in finale e' un giocatore anche un po' sotto il par. Non e' il caso di Noah nel 1983 per dire, pero'. Per me i games contano parecchio. E pure gli avversari. Soderling fatico' con Gonzalez, ma demoli' nettamente Davydenko e batte' Ferrer. Il suo torneo fu del tutto di valore. Ci sarebbero mezzi per capire che la finale non fu di grandissimo valore, ma sarebbero mezzi troppo complessi da applicare su grande scala, e ci sta di sbagliare.

Discorso Noah. Non solo batte' Lendl e Wilander (entrambi molto nettamente), ma per il resto non perse un set e in due match (tra cui la semifinale!) perse solo tre giochi. Come valutare la sua vittoria, cosi' eccezionale? Quanto vale quel Noah?

Per me un discorso continuativo (vale considerando tutti gli anni precedenti, applicando l' Elo) e' del tutto assurdo. Ma considerare solo il torneo e' pure assurdo, visto che, come risultati nel tabellone, sarebbe credo il miglior giocatore di sempre a Parigi. Per me e' evidente che esiste una prestazione torneo (sospendo il discorso del perche ' torneo e non match, per adesso), inserita in una carriera.

Multivac · Messaggio da **Multivac** » ven apr 21, 2017 2:03 pm

scooter ha scritto:
scooter ha scritto:
Fantasio ha scritto: A che pro? Con soli 4 giocatori bastano i dati sugli scontri diretti, e avresti già il modello pronto. L'ELO ha senso se gli scontri diretti sono pochi o inesistenti.
I 4 giocatori era per (tentare di) semplificare la mia argomentazione. Ci ritorno su domani con dei dati che ho sul computer dell'ufficio (sperando di riuscire a ritagliarmi lo spazio che serve), che magari riuscirò a essere più chiaro.
Torno sull’argomento, che per altro mi rendo conto di aver approcciato in modo non del tutto coerente con quanto (al di là della chiarezza espositiva) intendevo dire.

[...]

Non ti quoto tutto perchè se no ne viene fuori un romanzo, ma la tua idea è esattamente quello che vorrei provare a fare io, diciamo intanto con l'ELO piuttosto che la percentuale di vittorie (ma si possono provare metriche diverese e vedere cosa ne esce, è proprio l'obiettivo!).

Excel non è lo strumento giusto per questo lavoro, io pensavo a Matlab o Python per poi appunto lanciare le diverse combinazioni di tabellone e simulazioni di torneo. Ma il tuo approcio è quello giusto direi, semplicemente sostituendo le tue medie approssimate con il calcolo esteso.

Idealmente, avendo i valori di ELO storici possiamo girare ad esempio:

Tutti i giocatori al picco massimo
Tutti i giocatori alla media dei loro migliori 3,5,7 anni
Tornei ad età fissata (tutti con il loro ELO a 25 anni)
etc.

scooter · Messaggio da **scooter** » ven apr 21, 2017 2:18 pm

Nickognito ha scritto:Se io so il valore del torneo, non e' complesso o difficile vedere le probabilita' di fare vittoria o finale, o semifinale (e' quello che ogni bookmaker fa).

Non ho capito perché il calcolo della probabilità dipenda dal conoscere il valore del torneo, a meno che il riferimento non sia al (presunto, ma poi all'atto pratico reale) maggior impegno che si mette negli slam piuttosto che nei 1000.
Ad ogni modo, certo che (al netto dell'aggio) stiamo parlando del lavoro dei bookmaker. Solo che è (relativamente) facile dire di giocatori reali alla vigilia di un torneo normale chi sia favorito e chi no, anzi tu stesso sottolinei spesso che da questo punto di vista la sola classifica ATP consente di formulare pronostici piuttosto attendibili. Il problema è che noi stiamo parlando di giocatori idealizzati, e questo è vero sia nel mio esempio (in cui si affrontano, se vuoi, le idee platoniche dei giocatori) sia nel tuo perché in effetti tu stai comunque modellizzando il rendimento di Sampras99 con quello di Laver69 ed è comunque una cosa diversa dal reale confronto fra i due.
Ora lo dico senza averci riflettuto troppo, ma penso che l'approccio "per edizioni" abbia fondamentalmente due problemi:
1) comune a tutte le modellizzazioni e cioè la difficoltà intrinseca della modellizzazione stessa, ulteriormente complicata dal fatto che un percorso relativamente semplice (che non dipende dal giocatore) lo renda poi perdente nel fantatorneo; invece un modello corretto deve dirci che quello specifico Noah avrebbe chance di vittoria nel fantatorneo su terra (se solo lo ammettessimo a corte, ma questo è un altro problema e ci torno dopo), ma queste secondo me devono essere inferiori a quelle del fantaMcEnroe83 in un fantaWimbledon: percorso tutto sommato ridicolo, ma non è colpa di John il quale (in virtù del suo complessivo valore sull'erba) deve essere favorito su erba più di qualsiasi Noah su terra. Quello che ho raccontato prima, così a occhio, NON garantisce questo risultato ma non a caso dico essere un "tanto per dare un'idea" e non la mia versione definitiva di supertorneo
2) ignoriamo per semplicità il problema di quante stagioni per giocatore e diciamo, in modo generico, che ciascuno partecipa con "le sue stagioni migliori" (qualsiasi cosa questo significhi). Ma poi devi fare comunque una scelta di campo: o accetti che chi ha più stagioni abbia ipso facto % maggiori (e allora puoi semplificarti la vita limitando lo scontro a Federer, Connors e Rosewall più un quarto a tua scelta); oppure imposti i calcoli perché diano più peso ai picchi personali (e allora se la vedono Laver, Mac84, Borg80, un qualche Federer da 3/4 slam e Djokovic15 e anche qui puoi ignorare tutto il resto o quasi)

Nickognito ha scritto:Per me i games contano parecchio

Sembra un buon criterio, ma non è affatto raro (anzi) che un giocatore arrivi persino a concedere un intero set all'avversario pur di rifiatare anziché correre il rischio di cominciare il terzo senza energie. In base al tuo approccio da antica Sparta al tema della condizione fisica mi aspetto una risposta del tipo "peggio per lui", ma ti anticipo che non sarei d'accordo e anzi penso che saper gestire il proprio fisico nel corso di un match sia (questo sì!) uno dei tratti distintivi del campione (il quale, soprattutto con l'avanzare dell'età è in fondo costretto ad amministrarsi alla media-lunga distanza).

scooter · Messaggio da **scooter** » ven apr 21, 2017 2:28 pm

Multivac ha scritto:Non ti quoto tutto perchè se no ne viene fuori un romanzo, ma la tua idea è esattamente quello che vorrei provare a fare io, diciamo intanto con l'ELO piuttosto che la percentuale di vittorie (ma si possono provare metriche diverese e vedere cosa ne esce, è proprio l'obiettivo!).

Excel non è lo strumento giusto per questo lavoro, io pensavo a Matlab o Python per poi appunto lanciare le diverse combinazioni di tabellone e simulazioni di torneo. Ma il tuo approcio è quello giusto direi, semplicemente sostituendo le tue medie approssimate con il calcolo esteso.

Idealmente, avendo i valori di ELO storici possiamo girare ad esempio:

Tutti i giocatori al picco massimo

Tutti i giocatori alla media dei loro migliori 3,5,7 anni

Tornei ad età fissata (tutti con il loro ELO a 25 anni)

etc.

A me la % interessa come punti di arrivo della prima fase (selezione dei candidati) e partenza della seconda (calcolo dei risultati nei fantatornei), perché mi pare lo strumento più agile da maneggiare per fare ipotesi sensate. Nulla toglie che si possa, in linea di principio, partire da una classifica ELO e poi convertirla in % (in fondo tu stesso ne parlavi ieri).
Più che altro mi pare che i nostri approcci differiscano nel considerare (tu e Fantasio) tutti i match giocati in un determinato insieme di tornei, mentre io mi sono basato quasi solo sugli h2h perché (lo ripeto) penso che a livello alltime le differenze di rendimento contro il volgo (che pure ci sono, e sono determinanti nelle carriere dei big) abbiano un'importanza modesta. Controprova (certo selezionata ad hoc...): il palmares a livello di slam di Sampras è ai livelli di Federer, ma il secondo ha record certamente molto migliori contro le seconde linee; solo che io sto confrontando plurivincitori a Londra e NY, fatico a interessarmi (e può essere un mio limite, eh) a quel che hanno combinato a Indian Wells, Umago o Cinisello Balsamo (poi vabbè, io arrivo a considerare sullo stesso piano Borg e Mac che hanno vinto la metà o meno di loro, ma posso concedere che sia una mia perversione).

Su Matlab o Python alzo le mani perché a mala pena so della loro esistenza.

Multivac · Messaggio da **Multivac** » ven apr 21, 2017 2:28 pm

scooter ha scritto: 2) ignoriamo per semplicità il problema di quante stagioni per giocatore e diciamo, in modo generico, che ciascuno partecipa con "le sue stagioni migliori" (qualsiasi cosa questo significhi). Ma poi devi fare comunque una scelta di campo: o accetti che chi ha più stagioni abbia ipso facto % maggiori (e allora puoi semplificarti la vita limitando lo scontro a Federer, Connors e Rosewall più un quarto a tua scelta); oppure imposti i calcoli perché diano più peso ai picchi personali (e allora se la vedono Laver, Mac84, Borg80, un qualche Federer da 3/4 slam e Djokovic15 e anche qui puoi ignorare tutto il resto o quasi)

Questo è il motivo per cui io preferisco un approcio a "carriera", che cerchi di pesare sia picco che durata. Questo vuol dire non un singolo fantatorneo, ma diversi, in cui partecipano le varie versioni dei migliori giocatori. C'è chi ne avrà poche di picco massimo (alta probabilità di vittoria in pochi tornei, Safin, Borg), chi molte a livello generalmente alto (singola probabilità di vittoria più bassa, più tornei a disposizione, Connors, Rosewall). Alla fine delle fantacarriere il migliore dovrebbe essere quello che ha vinto di più.

Nickognito · Messaggio da **Nickognito** » ven apr 21, 2017 2:30 pm

no, i games non sono una discriminante ovviamente, pero' puo' essere una complicata aggiunta in certi casi, ma davvero diventerebbe complicato.

Sulle stagioni, boh , per me contano solo i tornei, se uno a 40 anni perde sempre al primo turno e poi vince un major battendo i primi 2 del mondo consideriamo quel torneo.

Io continuo a pensare che l' approccio migliore sia dare un valore iniziale (in base ai risultati precedenti e successivi nei tornei, in proporzione rispetto a superficie e importanza del torneo) e poi modificare il valore nel torneo con un Elo (o similari). In sostanza, i match durante il torneo contano molto di piu' di tutti gli altri singoli match, ma il complesso precedente e successivo conta pure molto. Quanto diversamente pesare i due metodi non so dipende dalla predittivita'.

Sul considerare solo gli h2h , boh, mi sembra un approccio non corretto, poi ovviamente con un calcolo simil-Elo ci sarebbe comunque una grande differenza tragli h2h e gli altri.

Sul discorso carriera condivido l' approccio di multivac.

Multivac · Messaggio da **Multivac** » ven apr 21, 2017 2:34 pm

scooter ha scritto:
Multivac ha scritto:Non ti quoto tutto perchè se no ne viene fuori un romanzo, ma la tua idea è esattamente quello che vorrei provare a fare io, diciamo intanto con l'ELO piuttosto che la percentuale di vittorie (ma si possono provare metriche diverese e vedere cosa ne esce, è proprio l'obiettivo!).

Excel non è lo strumento giusto per questo lavoro, io pensavo a Matlab o Python per poi appunto lanciare le diverse combinazioni di tabellone e simulazioni di torneo. Ma il tuo approcio è quello giusto direi, semplicemente sostituendo le tue medie approssimate con il calcolo esteso.

Idealmente, avendo i valori di ELO storici possiamo girare ad esempio:

Tutti i giocatori al picco massimo

Tutti i giocatori alla media dei loro migliori 3,5,7 anni

Tornei ad età fissata (tutti con il loro ELO a 25 anni)

etc.

A me la % interessa come punti di arrivo della prima fase (selezione dei candidati) e partenza della seconda (calcolo dei risultati nei fantatornei), perché mi pare lo strumento più agile da maneggiare per fare ipotesi sensate. Nulla toglie che si possa, in linea di principio, partire da una classifica ELO e poi convertirla in % (in fondo tu stesso ne parlavi ieri).
Più che altro mi pare che i nostri approcci differiscano nel considerare (tu e Fantasio) tutti i match giocati in un determinato insieme di tornei, mentre io mi sono basato quasi solo sugli h2h perché (lo ripeto) penso che a livello alltime le differenze di rendimento contro il volgo (che pure ci sono, e sono determinanti nelle carriere dei big) abbiano un'importanza modesta. Controprova (certo selezionata ad hoc...): il palmares a livello di slam di Sampras è ai livelli di Federer, ma il secondo ha record certamente molto migliori contro le seconde linee; solo che io sto confrontando plurivincitori a Londra e NY, fatico a interessarmi (e può essere un mio limite, eh) a quel che hanno combinato a Indian Wells, Umago o Cinisello Balsamo (poi vabbè, io arrivo a considerare sullo stesso piano Borg e Mac che hanno vinto la metà o meno di loro, ma posso concedere che sia una mia perversione).

Su Matlab o Python alzo le mani perché a mala pena so della loro esistenza.

Tutto giusto sulla % (io parlo di ELO, ma poi ad ogni differenza di ELO corrisponde % in maniera biunivoca, quindi è lo stesso).

Sul secondo punto concordo che vi sia una divergenza, ma è, direi, una questione di gusto personale. A mio avviso il rendimento con giocatori di seconda fascia pesa, chiaramente meno di quello con i grandissimi, ma non è trascurabile. Altrimenti si rischia di ricadere in paradossi in cui Wawrinka (scontri con numeri 1 in finale Slam, il massimo livello possibile: 100%!) diventa improvvisamente un grandissimo. Quanto debbano pesare di preciso non lo so, l'ELO per dire mi piace perchè già naturalmente pesa meno le vittorie ottenute da favorito, poi si può valutare se sia sufficiente, se sia meglio escludere alcuni tipi di torneo, etc.

scooter · Messaggio da **scooter** » ven apr 21, 2017 2:36 pm

Nickognito ha scritto:Sul discorso carriera condivido l' approccio di multivac.

Anch'io, comincio a sospettare che stiamo dicendo più o meno la stessa cosa con parole diverse (o meglio, ipotizzando di ottenere il medesimo risultato pur se con metodi diversi)

scooter · Messaggio da **scooter** » ven apr 21, 2017 2:45 pm

Multivac ha scritto:Altrimenti si rischia di ricadere in paradossi in cui Wawrinka (scontri con numeri 1 in finale Slam, il massimo livello possibile: 100%!) diventa improvvisamente un grandissimo.

La questione Wawrinka (che nei miei post era la questione Safin e in quelli di Nickognito la questione Noah) si può risolvere in due modi (alternativi ma anche abbinati):
- questi giocatori non partecipano al fantatorneo; è brutale ma insomma alla lunga per quanto siano giocatori che potrebbero anche dire la loro sono comunque un po' fuori posto in mezzo ai Laver, Mac, Federer e via dicendo (più tutti i pre-Laver)
- diciamo che ogni vittoria valga 1 e ogni sconfitta 0; fai due partite e ne vinci una e dunque hai 1 punto (su due partite, quindi media 0,5 cioè ovviamente 50%). Ma adesso puoi modificare in due modi: il primo è che la vittoria vale 1,1 e così se stai al 50% con due soli match hai effettivamente 50% ma se l'hai ottenuto in 4 match sei al 55%; il secondo è moltiplicare 1 per una funzione logaritmica che (similmente) faccia crescere la % all'aumentare dei match giocati. Certo 1,1 è un po' drastico ma insomma è tanto per rendere l'idea.

Nickognito · Messaggio da **Nickognito** » ven apr 21, 2017 2:48 pm

Io vedo almeno 40 fantatornei di 128 prestazioni, anche un una classifica alltime i vari Noah e Wawrinka al meglio parteciperebbero sicuramente.