|
Erros
e Acertos que todos cometem
(Por Hindemburg Melão Jr.)
Ludopédia,
Meteorologia e
Estatísticas
Há
poucos minutos eu passei pela sala e minha tia estava assistindo
a um debate (briga) entre dois comentaristas de futebol. Era cerca
de 12:50h de 6 de novembro de 2003 e o programa era na TV Gazeta,
se não me engano. Um deles dizia que o Corinthians não pode “cair”
para a segunda divisão; o outro dizia que pode. Então o moderador
recebeu e-mails de dois matemáticos: um disse que pode cair, o outro
disse que não pode e, para impressionar o público leigo, enviou
as probabilidades de cada time cair, que variavam de 0% a 96%, sendo
que o Corinthians estava no grupo de 0%. O matemático do segundo
e-mail trabalha no site http://www.infobola.com.br/ e o pessoal
do programa disse que ele é uma das maiores autoridades do Brasil
em Estatística. Um dos comentaristas disse que concordava com os
dois matemáticos(!), mas isso não foi o pior. O problema realmente
grande foi no cálculo numérico das probabilidades para cada time,
porque isso é simplesmente impossível. A única maneira de calcular
numericamente as probabilidades seria se os times fossem rankeados
por um sistema semelhante ao usado no Xadrez, ou seja, um sistema
que, num confronto entre dois times, determinasse as chances que
de cada time. Mas o ranking do futebol não é calculado dessa maneira
(*) e, na ausência dessa informação, o cálculo precisa
se basear na hipótese falsa de que todos os times têm chances iguais
em cada confronto, e só pode ter sido isso que fez o sujeito dito
“uma autoridade em estatística”. Apesar desse erro crasso
nas probabilidades maiores que 0 e menores que 100%, os valores
de exatamente 0 e 100% estariam corretos do ponto de vista puramente
matemático. Contudo, no mundo real, todos os resultados numéricos
que ele citou estão errados, inclusive 0% e 100%, porque mesmo que
ele tivesse feito os cálculos corretos e mesmo que o sistema de
ranking fornecesse as informações necessárias sobre as chances de
cada um vencer, sempre haveria a possibilidade de mudanças, como
anulação de resultados de jogos anteriores, por exemplo, que embora
seja improvável, não é impossível, portanto nada poderia ser 0%
nem 100% e todos os dados estatísticos apresentados haviam sido
calculados incorretamente. Visitei o site para ver se encontrava
mais alguma coisa sobre o assunto, mas não achei nada relevante.
Achei apenas um comentário tipicamente sensacionalista e de certo
modo hilário que diz: “O Infobola é um site dedicado ao processamento inteligente
dos resultados do futebol. Utilizando ferramentas matemático-computacionais
de última geração e técnicas de inteligência artificial, o Infobola
oferece uma riqueza de informações sem precedentes no futebol brasileiro.
Durante os jogos, o Infobola é atualizado automaticamente.”
Tudo
isso me pareceu bastante alarmante, porque um matemático considerado
por “alguéns” (sei lá “quens” são esses
“alguéns”) um dos maiores estatísticos do Brasil, não
deveria cometer um erro primário como esse. Suponho que ele seja
considerado um grande estatístico entre os comentaristas esportivos,
mas não entre os colegas, e isso resolveria o problema.
Isso
me lembra à previsão do tempo feita para ontem, no site http://www.infotempo.com/
(talvez todos os sites que usem “info” no nome cometam
erros assim, inclusive sigmasociety_info). A previsão anunciada
era de que ontem havia 0% de probabilidade de chuva (chuva = qualquer
precipitação de água em estado líquido) em São Paulo, mas pelo menos
aqui, e num raio de alguns quilômetros, choveu durante a maior parte
do dia. Não seria necessário que chovesse para refutar a tal previsão.
Bastaria ter em mente que nenhuma previsão pode ser 100% confiável,
portanto mesmo que não houvesse nuvens, e até mesmo se não houvesse
atmosfera, ainda assim não poderiam ser descartadas possibilidades
como a passagem rasante de um cometa (entre outras coisas), que
faria incidir chuva de água líquida na região, e mesmo que nosso
planeta não tivesse atmosfera a probabilidade de chuva não seria
0. Descartando eventos que envolvem objetos exteriores ao nosso
planeta, mesmo assim as chances nunca poderiam chegar a 0 nem a
100%, devido às incertezas nas previsões de processos caóticos,
que são muito grandes, mas mesmo que essas incertezas fossem pequenas,
o fato é que existem e são diferentes de 0. A informação correta,
que os meteorologistas deveriam anunciar, seria algo do tipo: a
previsão para hoje é que não haja chuva, e essa previsão tem 90%
ou mais de certeza. Nunca 100%.
No
caso do rating de Xadrez, embora permita fazer boas previsões, o
cálculo é feito incorretamente desde 1971, e em 2000 o matemático
Jeff Sonas propôs outro método, mas sem corrigir o erro. :-) Esse
será tema para outro artigo.
Na
verdade, a idéia de Arpad Elo não está errada, porque ele a pensou
tendo em mente que a quantidade de partidas jogadas por pessoa num
intervalo de alguns meses não seria suficiente para causar distorções,
e estava certo. Determinou a constate k com base em grandes amostras
de dados e os valores se mostram muito pertinentes. Só depois de
20 anos e centenas de milhares de jogos é que o efeito inflacionário
do método se tornou sensível. Além disso, naquela época (1971) não
havia computadores caseiros, nem calculadoras de bolso, portanto
os cálculos eram trabalhosos e demorados, de modo que uma fórmula
baseada em somas e multiplicações com acurácia “x” era
preferível a uma fórmula complexa com acurácia melhor que “x”.
O mainframe usado pela NASA para controlar o pouso da Apollo 11
na Lua, em julho de 1969, tinha 42,7kHz, ou seja 114 vezes mais
lento que o primeiro PC caseiro, o XT 5MHz (4,77MHz) e 101.000 vezes
mais lento que um moderno Pentium IV 4.1GHz. Do ponto de vista operacional,
ele pensou numa fórmula que pudesse ser usada facilmente e rapidamente
com os recursos tecnológicos disponíveis.
Mas
a partir do momento o sistema também é usado em jogos postais, em
jogos rápidos e blitz (5 minutos), o número de partidas se multiplica
e o efeito inflacionário também. No postal, vários jogos são disputados
simultaneamente, chegando a várias centenas por pessoa, no intervalo
de um ano. Além da inflação global, também ocorrem as distorções
individuais num nível bastante preocupante. Portanto Elo fez o que
era possível, naquela época, mas desde então o método nunca foi
aprimorado para se ajustar aos recursos disponíveis e corrigir as
falhas constatadas.
____________________
(*)
Na verdade, existe um site que usa o sistema de rating de Arpad
Elo (mesmo usado no Xadrez) para calcular ratings de futebol, mas
como o responsável pelo "infobola" não faz nenhuma alusão ao método
de Elo, isso é um fortíssimo indício de que ele não está aplicando
esse método. Veja mais detalhes no próximo artigo.
|