Erros e acertos que todos cometem
Por Hindemburg Melão Jr.
 
 

Nessa nova seção discutiremos alguns erros típicos, que praticamente toda a humanidade está habituada a cometer, mas ninguém se preocupa em corrigir. Também discutiremos alguns acertos mal explicados, sobre algumas coisas que funcionam, mas não se sabe por quê elas funcionam, isto é, fenômenos que teoricamente não deveriam ocorrer da maneira como são observados.

Começaremos com um ensaio sobre o índice de massa corpórea (IMC). O IMC é usado internacionalmente para determinar se uma pessoa é obesa e, em caso afirmativo, o quão obesa ela é. O cálculo é feito por meio da seguinte fórmula: IMC=m/h^2, onde “m” é a massa em quilogramas e “h” é a altura em metros. Uma pessoa sadia tem IMC entre 20 e 25. Uma pessoa considerada “obesa mórbida” pelos padrões médicos tem IMC acima de 40. Jô Soares, por exemplo, com 1,72m e 120kg, tem IMC 40,6. No meu caso, com 1,80m e 63,7kg (hoje) meu IMC é 19,7. Bruce Lee, com 1,67m e 63kg, tinha IMC 22,6, que provavelmente é muito perto do ideal.

Isso é usado no mundo inteiro, mas, à primeira vista, parece estar completamente errado, porque evidentemente o corpo humano não é um objeto de 2 dimensões, então não faz sentido dividir a massa por h^2. Também sabemos que o corpo humano não é um objeto 3D, porque tem muitas cavidades internas, com tecidos e órgãos repletos de reentrâncias. Para estimar a dimensão correta, usei, para efeito de comparação, as seguintes estruturas:

  • A superfície de um diamante tem dimensão muito perto de 2;
  • Uma bola pequena de papel amassado tem dimensão em torno de 2,3 e uma bola grande de papel fino amassado pode chegar a 2,8;
  • Uma mitocôndria tem dimensão 2,53;
  • Uma esponja Menger tem dimensão 2,73 (mais precisamente ln20/ln3);
  • Argila tem dimensão 2,95;
  • Um diamante tem dimensão muito perto de 3.

Com base na aparência do interior do corpo humano, em comparação à estrutura de uma mitocôndria, julguei que o corpo humano deveria ter dimensão em torno de 2,5D, e ao calcular os IMCs para crianças sadias de 0 a 12 anos e adultos entre 57cm e 2,72cm, concluí que 2,5D é bem próximo do valor correto para a dimensão do corpo humano, então uma fórmula mais apropriada seria IMC=m/h^2,5, mas isso ainda não é tudo. Há mais um fator que precisa ser levado em conta, que é a resistência dos materiais. Um corpo pequeno não precisa de ossos tão espessos quanto um corpo grande. Os insetos, por exemplo, possuem membros mais delgados que os grandes dinossauros, e mesmo que ambos sejam colocados em mesma escala de tamanho, os membros dos insetos seriam mais finos. Também é por isso que uma pulga consegue saltar 200 vezes o seu próprio tamanho, enquanto um gafanhoto só consegue saltar algumas dezenas de vezes o próprio tamanho, um canguru não consegue saltar nem mesmo 5 vezes o próprio amanho e um elefante nem sequer consegue saltar. Uma formiga carrega nas costas um peso muito maior que o dela próprio, mas uma baleia nem sequer agüenta o próprio peso e morre esmagada se ficar fora da água. Os corpos maiores precisam ser mais robustos, por isso é que desmoronam as obras arquitetônicas construídas com o mesmo material e as mesmas proporções que maquetes pequenas, enquanto as maquetes permanecem firmes. Isso já era conhecido por Vitrúvio, na época de Jesus, e começou a ser estudado em detalhes por Galileu. Então um corpo sadio com 2m de altura precisa ser mais robusto que um corpo igualmente sadio de 1m de altura. Em que proporção isso acontece? Os experimentos de Galileu revelaram que a massa de um corpo aumenta na proporção direta do cubo de seu tamanho, mas a resistência aumenta na proporção direta do quadrado do tamanho. Na verdade, o que acontece não é exatamente isso. A massa cresce na proporção de h^D, onde h é o tamanho unidimensional da estrutura (altura) e D é a dimensão fractal do corpo. No caso do corpo humano, D é cerca de 2,5. Com relação à resistência, que varia com o quadrado, isso é determinado pela ação da gravidade e independe do corpo ser fractal ou euclidiano. Não importa qual seja o valor de D, o que importa é que a resistência vai diminuir na proporção de h^(D-2). Sendo assim, o IMC não será determinado por m/h^D, mas por m/h^[D+(D-2)], ou seja, aproximadamente IMC=m/h^3 (para D=2,5). Se usarmos exatamente o mesmo D para a mitocôndria, então teremos IMC=m/h^3,06. Como a incerteza é grande, podemos dizer que IMC=m/h^pi. Mas, por motivos práticos, pode ser mais conveniente usar IMC=m/h^3, porque além de permitir calcular o índice de massa corporal, também permite saber a aparência externa, ou seja, duas pessoas com alturas diferentes e mesmo IMC devem ter aparências semelhantes, desde que a massa esteja igualmente distribuída.

Portanto a fórmula para calcular IMC está errada e só funciona para um intervalo muito estreito. Para efeito de comparação, vejamos o IMC calculado com base nas fórmulas IMC=m/h^2 e IMC=m/h^3 para algumas pessoas e para crianças de diferentes faixas etárias:

O primeiro erro que salta à vista na fórmula usual é que o IMC de crianças recém-nascidas é menor que o de crianças mais velhas, o que naturalmente é absurdo, pois sabemos que crianças recém-nascidas tem aspecto semelhante ao de adultos obesos. Outro erro é que por essa fórmula todas as crianças menores de 12 anos teriam peso abaixo da média, o que é obviamente falso. Mais um erro é que Gul Muhammed, o menor anão da história, tinha a altura de uma criança normal de 2 meses, porém tinha peso 3 vezes maior, portanto deveria ser muitíssimo mais obeso que o nível de “obeso mórbido”, no entanto a fórmula o coloca como apenas um pouco mais obeso, enquanto Jon Brower Minnoch, o homem mais pesado da história, cuja aparência, mantidas as proporções, é semelhante à de Gul Muhammed, teria IMC 4 vezes maior. Também Robert Wadlow, o homem mais alto da história, que é um homem magro, conforme podemos ver nessas fotos <http://www.altonweb.com/history/wadlow>, teria IMC 30, ou seja, obeso! Todos esses erros notórios são corrigidos usando a fórmula IMC=1,67*m/h^3. O fator 1,67 é apenas para conservar os intervalos 20-25, 25-30, 30-35, 35-40 e acima de 40 inalterados. Mas também seria possível usar IMC=m/h^3 e ajustar os intervalos para 12-15, 15-18, 18-21, 21-24 e acima de 24.

Para encontrar o valor D com mais precisão e assim calcular o expoente a ser usado, basta imergir algumas dezenas de pessoas com pesos e alturas diferentes em algum líquido, de modo a determinar o volume externo 3D e em seguida verificar a variação da massa em função desse volume.

Outro fator a ser considerado é que as pessoas podem não ter (e provavelmente não têm) mesma dimensão fractal. Então isso também precisa ser levado em conta. Seria preciso calcular correlações entre peso e D, entre altura e D, entre IMC e D etc., para poder verificar de que maneira D varia em função de cada parâmetro. Mas tudo isso ainda seria insuficiente, porque uma determinação mais acurada deveria discriminar massa muscular de gordura, precisaria levar em conta que algumas pessoas têm ossatura leve, outras têm ossatura média, outras têm ossatura pesada, entre outras coisas.

Seja como for, o fato é que mantendo a fórmula simples IMC=m/h^k funciona muito melhor usando k=3 do que usando k=2.

____________________
Fonte sobre altura das crianças: http://www.gravidas.hpg.ig.com.br/pesoealtura.html
Fonte sobre Robert Wadlow, Gul Muhammed, Jon Minnoch, Lúcia Xarate: Guinness Book, ed. 1998, p. 32.

Ludopédia, meteorologia e estatísticas

Há poucos minutos eu passei pela sala e minha tia estava assistindo a um debate (briga) entre dois comentaristas de futebol. Era cerca de 12:50h de 6 de novembro de 2003 e o programa era na TV Gazeta, se não me engano. Um deles dizia que o Corinthians não pode “cair” para a segunda divisão; o outro dizia que pode. Então o moderador recebeu e-mails de dois matemáticos: um disse que pode cair, o outro disse que não pode e, para impressionar o público leigo, enviou as probabilidades de cada time cair, que variavam de 0% a 96%, sendo que o Corinthians estava no grupo de 0%. O matemático do segundo e-mail trabalha no site http://www.infobola.com.br/ e o pessoal do programa disse que ele é uma das maiores autoridades do Brasil em Estatística. Um dos comentaristas disse que concordava com os dois matemáticos(!), mas isso não foi o pior. O problema realmente grande foi no cálculo numérico das probabilidades para cada time, porque isso é simplesmente impossível. A única maneira de calcular numericamente as probabilidades seria se os times fossem rankeados por um sistema semelhante ao usado no Xadrez, ou seja, um sistema que, num confronto entre dois times, determinasse as chances que de cada time. Mas o ranking do futebol não é calculado dessa maneira (*) e, na ausência dessa informação, o cálculo precisa se basear na hipótese falsa de que todos os times têm chances iguais em cada confronto, e só pode ter sido isso que fez o sujeito dito “uma autoridade em estatística”. Apesar desse erro crasso nas probabilidades maiores que 0 e menores que 100%, os valores de exatamente 0 e 100% estariam corretos do ponto de vista puramente matemático. Contudo, no mundo real, todos os resultados numéricos que ele citou estão errados, inclusive 0% e 100%, porque mesmo que ele tivesse feito os cálculos corretos e mesmo que o sistema de ranking fornecesse as informações necessárias sobre as chances de cada um vencer, sempre haveria a possibilidade de mudanças, como anulação de resultados de jogos anteriores, por exemplo, que embora seja improvável, não é impossível, portanto nada poderia ser 0% nem 100% e todos os dados estatísticos apresentados haviam sido calculados incorretamente. Visitei o site para ver se encontrava mais alguma coisa sobre o assunto, mas não achei nada relevante. Achei apenas um comentário tipicamente sensacionalista e de certo modo hilário que diz: “O Infobola é um site dedicado ao processamento inteligente dos resultados do futebol. Utilizando ferramentas matemático-computacionais de última geração e técnicas de inteligência artificial, o Infobola oferece uma riqueza de informações sem precedentes no futebol brasileiro. Durante os jogos, o Infobola é atualizado automaticamente.”

Tudo isso me pareceu bastante alarmante, porque um matemático considerado por “alguéns” (sei lá “quens” são esses “alguéns”) um dos maiores estatísticos do Brasil, não deveria cometer um erro primário como esse. Suponho que ele seja considerado um grande estatístico entre os comentaristas esportivos, mas não entre os colegas, e isso resolveria o problema.

Isso me lembra à previsão do tempo feita para ontem, no site http://www.infotempo.com/ (talvez todos os sites que usem “info” no nome cometam erros assim, inclusive sigmasociety_info). A previsão anunciada era de que ontem havia 0% de probabilidade de chuva (chuva = qualquer precipitação de água em estado líquido) em São Paulo, mas pelo menos aqui, e num raio de alguns quilômetros, choveu durante a maior parte do dia. Não seria necessário que chovesse para refutar a tal previsão. Bastaria ter em mente que nenhuma previsão pode ser 100% confiável, portanto mesmo que não houvesse nuvens, e até mesmo se não houvesse atmosfera, ainda assim não poderiam ser descartadas possibilidades como a passagem rasante de um cometa (entre outras coisas), que faria incidir chuva de água líquida na região, e mesmo que nosso planeta não tivesse atmosfera a probabilidade de chuva não seria 0. Descartando eventos que envolvem objetos exteriores ao nosso planeta, mesmo assim as chances nunca poderiam chegar a 0 nem a 100%, devido às incertezas nas previsões de processos caóticos, que são muito grandes, mas mesmo que essas incertezas fossem pequenas, o fato é que existem e são diferentes de 0. A informação correta, que os meteorologistas deveriam anunciar, seria algo do tipo: a previsão para hoje é que não haja chuva, e essa previsão tem 90% ou mais de certeza. Nunca 100%.

No caso do rating de Xadrez, embora permita fazer boas previsões, o cálculo é feito incorretamente desde 1971, e em 2000 o matemático Jeff Sonas propôs outro método, mas sem corrigir o erro. :-) Esse será tema para outro artigo.

Na verdade, a idéia de Arpad Elo não está errada, porque ele a pensou tendo em mente que a quantidade de partidas jogadas por pessoa num intervalo de alguns meses não seria suficiente para causar distorções, e estava certo. Determinou a constate k com base em grandes amostras de dados e os valores se mostram muito pertinentes. Só depois de 20 anos e centenas de milhares de jogos é que o efeito inflacionário do método se tornou sensível. Além disso, naquela época (1971) não havia computadores caseiros, nem calculadoras de bolso, portanto os cálculos eram trabalhosos e demorados, de modo que uma fórmula baseada em somas e multiplicações com acurácia “x” era preferível a uma fórmula complexa com acurácia melhor que “x”. O mainframe usado pela NASA para controlar o pouso da Apollo 11 na Lua, em julho de 1969, tinha 42,7kHz, ou seja 114 vezes mais lento que o primeiro PC caseiro, o XT 5MHz (4,77MHz) e 101.000 vezes mais lento que um moderno Pentium IV 4.1GHz. Do ponto de vista operacional, ele pensou numa fórmula que pudesse ser usada facilmente e rapidamente com os recursos tecnológicos disponíveis.

Mas a partir do momento o sistema também é usado em jogos postais, em jogos rápidos e blitz (5 minutos), o número de partidas se multiplica e o efeito inflacionário também. No postal, vários jogos são disputados simultaneamente, chegando a várias centenas por pessoa, no intervalo de um ano. Além da inflação global, também ocorrem as distorções individuais num nível bastante preocupante. Portanto Elo fez o que era possível, naquela época, mas desde então o método nunca foi aprimorado para se ajustar aos recursos disponíveis e corrigir as falhas constatadas.

(*) Na verdade, existe um site que usa o sistema de rating de Arpad Elo (mesmo usado no Xadrez) para calcular ratings de futebol, mas como o responsável pelo "infobola" não faz nenhuma alusão ao método de Elo, isso é um fortíssimo indício de que ele não está aplicando esse método. Veja mais detalhes no próximo artigo.
Erro sistemático no rating de Xadrez


IMPORTANTE: Antes de tudo, é necessário conhecer as fórmulas usadas para cálculo de rating. Para tanto, sugerimos uma visita a este site: http://www.ajedrezchileno.cl/calculoELO.htm, que explica o processo detalhadamente e ilustra com vários exemplos. Também sugerimos uma visita ao site de Jeff Sonas <http://www.chessmetrics.com>, no qual o autor propõe mudar alguns detalhes no método criado por Arpad Elo, adotado oficialmente pela FIDE. Depois de conhecer esses métodos, então se pode compreender melhor o conteúdo desse artigo.

O sistema de rating usado atualmente pela FIDE é mais lógico e melhor fundamentado que o usado em qualquer outra modalidade esportiva, inclusive um estatístico chamado “Raoul da Silva Curiel”, que gosta de futebol e Xadrez, criou um site com rating de futebol calculado com base na fórmula usada no Xadrez: http://www.eloratings.net/. Nesse site também se pode encontrar uma explicação resumida sobre o método de cálculo: http://www.eloratings.net/system.html.

Embora o método da FIDE seja o melhor entre todos os esportes, ainda apresenta uma série de erros bastante graves (e até mesmo ridículos), que permitem a um jogador melhorar seu escore perdendo intencionalmente alguns jogos!! Por exemplo: dados dois jogadores, A e B, que inicialmente possuem ratings iguais e participam exatamente dos mesmos certames durante um ano, disputando 200 jogos contra oponentes com rating médio 2000 no primeiro semestre e outros 200 jogos contra oponentes com rating médio 2000 no segundo semestre. Se, nessas circunstâncias, no primeiro semestre, o jogador A perder todos os jogos e no segundo semestre ele vencer todos os jogos, enquanto o jogador B vencer 80% no primeiro semestre e 80% no segundo semestre, embora o jogador B tenha apresentado uma atuação evidentemente muito melhor, com 80% de aproveitamento contra exatamente os mesmos adversários, enquanto o A terá obtido apenas 50% de aproveitamento, quem ficará com maior rating será o jogador A! Essa falha está presente tanto na fórmula da FIDE como na fórmula de Sonas, na fórmula da USCF, na CBX, FPX, ICCF, ICC, SSDF e todas as federações e confederações de Xadrez do mundo. Para ilustrar mais detalhadamente o problema, transcreveremos o artigo que será publicado na próxima edição da Revista Brasileira de Xadrez Postal:

Estratégia para aumentar o rating
Por Hindemburg Melão Jr.

Por volta de 1995, lembro-me de ter lido uma crônica do GM Giovanni Vescovi sobre a participação dele em dois torneios de níveis ligeiramente diferentes. Um era menos forte, com rating médio em torno de 2500, enquanto o outro tinha rating médio em torno de 2550. O Giovanni estava com 2465, na época, e para fazer norma de GM precisava de algo como 6 em 9 no torneio com rating médio 2500 ou 5,5 em 9 no torneio com rating médio 2550. Ele comentou que inicialmente achava que seria mais fácil fazer a norma no torneio em que precisava de menos pontos, mas depois de terminados os dois certames, sua opinião se inverteu.

Um relato semelhante foi feito pelo número do CXEB (Clube de Xadrez Epistolar Brasileiro), Cléber Moreira de Holanda. Ele comentou que sempre precisava participar de alguns torneios mais fracos para manter o rating alto. O fato é que a grande maioria dos bons jogadores e com alguns anos de experiência em torneios têm pelo menos uma noção intuitiva de que para aumentar o rating convém jogar torneios de nível mais baixo.

Hoje, ao ver a lista da SSDF (rating de computadores), decidi conferir a validade dessa hipótese, usando os resultados de 94.354 jogos disputados por 253 jogadores eletrônicos, e constatei que realmente existe uma evidência muito forte de que quanto maior é a diferença positiva entre o rating de um jogador e o rating médio dos adversários, tanto maior é a performance que ele terá acima da performance esperada. A correlação encontrada foi 0,423 ±0,016, sendo que se o efeito não existisse, o valor esperado seria 0. Uma correlação de 0,1 já seria uma evidência muito forte, e no caso de 0,4 é praticamente uma prova, portanto a hipótese é correta e quem quiser aumentar o rating, basta manter o mesmo nível de jogo e participar de eventos nos quais o rating médio dos participantes seja mais baixo que o seu próprio. Quanto maior for essa diferença, tanto maiores serão suas chances de aumentar o seu rating.

Isso explica, entre outras coisas, por quê o rating dos computadores sofre um efeito inflacionário muito mais rápido que a inflação no rating de jogadores humanos (outro fator é que as listas são mais freqüentes). Isso acontece porque os novos jogadores humanos (sem rating) têm aproximadamente mesmo nível dos jogadores antigos, enquanto os novos softwares sempre são, em média, mais fortes que os antigos, portanto eles tendem a marcar mais pontos do que seria esperado e assim ficar com um rating desproporcionalmente mais alto e causar uma inflação mais acentuada.

Então se você deseja aumentar seu rating e você não é um organizador de eventos, basta você se inscrever em torneios cujo rating médio seja 100 ou 200 pontos mais baixo que o seu próprio rating. Do ponto de vista ético, é uma estratégia legítima e é amplamente usada. É particularmente útil para jogadores que possuem todas as normas necessárias para o título de MI ou GM, mas precisam chegar a um certo rating para que o título seja homologado (2400 para MI e 2500 para GM). Esteja atento, porém, para os casos de torneios com jogadores de rating novo (1000 no CXEB e 2200 ICCF), que podem ter força de jogo muito acima e isso obviamente produziria resultado diferente do esperado. Portanto é mais seguro jogar torneios em que todos os participantes tenham rating antigo.

Particularmente, só recomendo essa prática para quem está com normas e precisa de mais alguns poucos pontos de rating para obter o título, ou para quem lidera uma lista e precisa ou deseja conservar essa liderança. Em todos os outros casos, acho muito melhor que a pessoa se preocupe com a força de jogo do que com o rating, e nesse caso é preferível que participe de torneios em que os jogadores tenham rating mais alto que o seu próprio. Isso pode causar uma pequena perda de rating, mas certamente será um melhor exercício para se aprimorar no Xadrez. Outra estratégia que também permite aumentar o rating, mas só é recomendada em casos ainda mais especiais, consiste em deixar o rating cair, para depois jogar muitos torneios de uma só vez. Por exemplo: se um jogador tem rating 2000 e joga contra 10 adversários com rating médio 2000, marcando 55%, ele sobe para 2005. Se fosse a mesma situação, porém com 100 adversários, ele subiria para 2050. Se antes de jogar com os 100 adversários ele jogasse outro torneio e deixasse o próprio rating cair para 1900, seus pontos esperados passariam a ser 36, e ao fazer 55 ele subiria 190, portanto passaria a 2090. Então seria mais vantajoso ele deixar o rating cair para 1900 e depois marcar 55/100 contra oponentes com rating 2000 do que se ele marcasse diretamente 55% enquanto ele ainda estava com 2000. Em outras palavras, para ganhar mais rating ele deveria primeiro perder pontos, deixar a lista ser atualizada com essa perda, para em seguida ter uma ascensão maior na lista seguinte, e nesse caso deveria jogar o máximo de jogos que pudesse. Ele poderia ganhar mais rating marcando 55% contra 200 adversários com rating 2000 do que se marcasse 95% contra 10 adversários com rating 2000. Por minha parte, eu prefiro jogar poucos torneios e com jogadores de nível alto, para manter boa qualidade nos jogos e tentar aprender um pouco de Xadrez, mesmo que isso implique um rating mais baixo, e é esse o conselho que dou a todos que querem se aprimorar no Xadrez tanto postal quanto ao vivo.


Essa estratégia só é possível porque existem falhas no método de cálculo de rating. Seria mais apropriado que o rating novo fosse igual ao rating performance e calculado com base nas últimas 50 partidas ou últimas 30 partidas, desconsiderando todas as anteriores. E quando um jogador tivesse disputado mais que 50 seriam consideradas todas do período. Isso eliminaria essa falha e tornaria os ratings mais representativos da verdadeira força de jogo.

Uma maneira de resolver esse “problema” é usando uma fórmula baseada em performance (em lugar da fórmula de rating novo e rating antigo), levando em conta todos os jogos, desde o início da carreira, atribuindo peso maior aos jogos mais recentes, atribuindo pesos diferenciados para vitórias sobre jogadores com forças diferentes (peso maior para vitórias sobre jogadores mais fortes), atribuindo pesos diferentes para vitórias com Brancas ou Pretas (a diferenciação de Brancas e Pretas já foi sugerido e testado com sucesso por Jeff Sonas). Com essas mudanças simples, além de a capacidade de predição da fórmula melhorar muito, terá a virtude de eliminar os perigos de um jogador conquistar rating alto fazendo truques, como foi descrito no artigo da RBXP.

Um modelo de fórmula muito superior à usada pela FIDE ou por Sonas é o seguinte:

R = Somatório [Rpi x f(T-Ti)]

R = rating
Rpi = rating performance obtido contra cada jogador (incluindo todos os adversários que teve durante a vida), calculado individualmente e levando em conta as cores (Brancas têm chances de vitória cerca 54%, contra 46% das Pretas, em vez de 50% para cada, como no método da FIDE).
T = época em que o rating está sendo calculado.
Ti = época em que foi jogada cada partida

Voltar à página principal
sigma@ sigmasociety.com