Testes de QI inflacionados?
Por Hindemburg Melão Jr.
 
   
        Existe uma grande diferença entre o universo abstrato da Matemática e o nosso universo físico, porém, devido à imensa variedade de ambos, quando observamos na direção “certa” encontramos muitas “coincidências sugestivas”. Por exemplo: é uma coincidência admirável que a Teoria da Gravitação de Newton se aplique tão bem ao nosso universo. Mas sabemos que ela não representa a Realidade. Uma análise mais cuidadosa mostra que a Teoria da Relatividade está mais próxima, embora também não seja verdadeiramente representativa da Realidade. E o mesmo acontece com todas as outras teorias. Podemos desenvolver uma equação de um fractal extremamente semelhante a uma determinada árvore, ou a uma cordilheira, ou a um cristal de gelo, ou aos recortes litorâneos de um continente, mas não passará de uma “aproximação” da árvore verdadeira, da cordilheira, do cristal e dos recortes litorâneos. 
        Estamos diante de nosso universo físico e tentamos compreendê-lo. Para isso usamos as ferramentas de que dispomos, e a Matemática é uma de nossas melhores ferramentas. Não obstante, no que tange aos verdadeiros fundamentos e à natureza mais profunda subjacente aos fenômenos físicos observados, é muito importante compreender que a Matemática não nos oferece necessariamente os modelos que representam esses fenômenos. Ela oferece apenas modelos simplificados, que descrevem aproximadamente tais fenômenos, em condições bem delimitadas, e cuja essência pode diferir tão fundamentalmente da realidade como o sistema geocêntrico. Convém lembrar que as previsões feitas com base no sistema geocêntrico eram muito satisfatórias, quando contrastadas com os dados obtidos empiricamente, muito embora o modelo estivesse grosseiramente em desacordo com a realidade. 
        Esclarecido isso, podemos ir adiante e abordar a questão que nos interessa: a distribuição gaussiana. 
        A gaussiana é uma função muito útil, porque ela descreve bem o comportamento de uma grande variedade de dados estatísticos. Vamos supor uma fábrica que produz parafusos com 3,175mm (1/8 de polegada) de diâmetro. Vamos admitir que as peças com mais de 3,179mm e menos de 3,171mm são consideradas defeituosas e jogadas no lixo. Ao constatar que 95% das peças são aproveitadas, podemos inferir que cerca de 68% das peças têm entre 3,173mm e 3,177mm de diâmetro. Por que? Ora, porque se 95% são aproveitadas, significa que cerca de 2,5% têm mais de 3,179mm e igual percentagem têm menos de 3,171mm. Esses 2,5% estão muito próximos dos 2,23% que representam 2 desvios-padrão, logo 0,002mm correspondem a cerca de 1 desvio-padrão. 
        Essa função nos permite fazer tal inferência porque tem sido constatado que em casos similares a distribuição gaussiana se aplica muito bem. Mas não se aplica bem em toda a sua extensão, e mesmo no intervalo em que ela pode ser aplicada, isso não acontece com exatidão absoluta. A prática demonstra que dentro de um intervalo de 3 desvios-padrão, a gaussiana pode ser aplicada com relativo sucesso. Fora desse limite, ela começa a apresentar grandes discrepâncias. 
        Vamos tomar um outro exemplo: se reunirmos 1000 pessoas que estejam usando relógio, e pedimos a cada uma delas que olhe no seu respectivo relógio no momento exato em que ouvirem soar uma campainha, e em seguida anotem o horário num papel, e se depois fizermos um histograma com os horários anotados pelas pessoas, vamos descobrir que os horários se distribuem muito aproximadamente de acordo com uma gaussiana. E vamos descobrir também que num grupo de apenas 1000 pessoas a curva pode ter uma amplitude muito maior do que os 6 desvios-padrão (+3s e –3s) teoricamente previstos, inclusive podemos constatar algum erro “absurdo”, devido ao fato de um ou mais relógios estarem quebrados. Isso acontece pelo simples fato de que tanto a média como o desvio-padrão são determinados com base principalmente no grande volume de dados situados num raio de até 2 desvios-padrão para mais ou para menos, que compreendem 95% da amostragem. Por isso é que fora desse intervalo, se existem elementos muito discrepantes, eles são tão raros que não influenciam significativamente na determinação do desvio-padrão, e conseqüentemente não estarão “descritos” corretamente pela função, pois tal função destina-se principalmente a descrever corretamente o comportamento da maior parte do grupo, tornando-se menos acurada à medida que os elementos divergem da média e conseqüentemente escasseiam. 
        Vejamos ainda mais um exemplo: a altura média das pessoas de um determinado grupo étnico, de determinada faixa etária, também se distribui aproximadamente como uma gaussiana. Se tomarmos por base o grupo étnico dos caucasianos de 20 anos, teremos algo como média 1,70m e desvio-padrão 0,07m. Isso significa que entre os cerca de 20 bilhões de homens caucasianos que viveram ao longo da história, o mais alto deveria chegar a cerca de 6,5 desvios-padrão acima da média, ou seja, 2,15m de altura. Porém, existem muitos casos registrados de caucasianos com mais de 2,20m e alguns com até 2,35m, além de um caso raro de gigantismo provocado por distúrbios hormonais, de uma pessoa (Robert Wadlow) que chegou a ter 2,72m de altura, registrado na edição brasileira do Guinness Book of Records de 1993, página 64. Além disso, a distribuição real não é necessariamente simétrica, como acontece com a curva teórica. 
   
Vamos examinar mais um exemplo. A longitude das partidas de Xadrez se distribui como numa gaussiana (talvez uma binomial seja uma representação melhor). A duração média de uma partida é 38 lances, com desvio-padrão em torno de 25. 
 
1 - Como não podem existir partidas com menos de 0 lances, a curva tem assíntota em zero.
2 – A curva apresenta uma longa cauda à direita, indo muito além de 6 desvios-padrão, mesmo a amostragem sendo de apenas 2 milhões de elementos. 
3 - A curva possui picos em torno de 0, 40, 60 e 80. O pico em zero é devido as partidas ganhas por WO, devido aos byes e aos “empates de salão”. Os picos em 40, 60 e 80 ocorrem devido ao término dos controles de tempo.
4 - Ao chegar em 100 (cerca de 2,5 desvios-padrão), a porcentagem de incidência cai quase a zero, porém, daí para a frente a curva degringola completamente, e em vez da incidência continuar diminuindo, parece se estabilizar e ficar oscilando até cerca de 190. 

O que podemos inferir a partir desses dados? Em primeiro lugar, devemos interpretar a gaussiana como uma superposição de várias curvas. As curvas que geram os picos em 0, 40, 60 e 80 causam distorções que diferenciam nitidamente a curva empírica, do nosso quadro, da curva teórica que seria esperada para média=38, sd=25. A incidência de casos além do intervalo 2,5 sd pode ser interpretada como uma superposição de algumas curvas “residuais”, por assim dizer, que não afetavam a gaussiana no intervalo entre -1,5sd e +2,5sd porque as outras curvas representavam populações muito maiores, ofuscando completamente as curvas residuais, mas a partir do momento que as curvas mais representativas se extinguem, então a curvas residuais emergem com destaque.
Os picos em 0, 40, 60 e 80 mostram que alguns fatores podem se tornar visíveis e serem facilmente explicados depois que a distribuição empírica for calculada, mas pode ser difícil de prever essas distorções na curva teórica antes de efetuar os cálculos com base em dados coletados empiricamente.
Enfim, no caso do QI, nada impede que existam 100 pessoas no mundo com escore acima de 200 ou até 300 numa escala com média=100 e desvio-padrão=16.

   
        Mas o que existe em comum entre o tamanho dos parafusos, a altura das pessoas e os horários dos relógios, que faz com que as distribuições de todas essas grandezas obedeçam aproximadamente aos mesmos parâmetros? A resposta é que nesses três casos existe um número grande de fatores randômicos envolvidos, alguns mais significativos que outros, e a soma de todos esses fatores é que gera as divergências da média. O parafuso ideal teria que medir 3,175mm de diâmetro, mas a temperatura, o vento, o desgaste do equipamento que os produz, os resíduos e a poeira nas engrenagens, além de diversos outros fatores, conspiram para que o tamanho nunca seja exatamente o ideal, e nos casos da altura das pessoas e dos horários no relógio, também podemos enumerar muitos fatores que fazem variar a grandeza a ser determinada. A altura, por exemplo, dependerá da alimentação, das características genéticas, dos hábitos desportivos e até de muitos fatores que desconhecemos. Esse é o ponto em comum, que faz com que grandezas tão diferentes obedeçam à mesma lei de distribuição estatística, e essa mesma função também se aplica à distribuição dos QIs. 
        Isso tudo mostra que uma pessoa pode atingir 250 ou 300 de QI, como no caso de Sidis, e pode haver muito mais pessoas com 200 de QI do que se pode prever com base nas estatísticas. Porém, as sociedades de elevado QI não usam propriamente o QI como critério de admissão. Usam o “percentil”, e este sim é um critério essencialmente estatístico.  
        Não haveria muito problema se Giga Society admitisse membros com QI maior ou igual a 196 ou 6 desvios-padrão acima da média, pois o que foi dito até agora justifica a possibilidade de haver dezenas ou mesmo centenas de pessoas que satisfaçam a tal critério. Mas o que Giga Society propõe é que para ser membro é preciso estar situado acima de 99,9999999% da população mundial num teste de inteligência, e isso realmente implica em que só 6 pessoas no mundo podem satisfazer a tal critério. Se menos de 100 elementos se submeteram aos testes de admissão, quais são as chances de que um desses elementos seja uma das 6 pessoas mais inteligentes do mundo? Em princípio, as chances podem parecer muito pequenas, mas não é tão simples como parece. 
  
        Vejamos a tabela abaixo, onde estão representados os seguintes dados: 
  
Coluna 1 – Nome da Sociedade 
Coluna 2 – QI mínimo exigido para admissão (calculado com base no percentil) 
Coluna 3 – Ano de fundação 
Coluna 4 – Número de membros 
Coluna 5 – Percentil exigido para admissão 
Coluna 6 – Número de pessoas no mundo teoricamente qualificadas 
Coluna 7 – Razão entre a população qualificada que o número de membros 
Coluna 8 – Tempo transcorrido desde a fundação 
Coluna 9 – Produto da população qualificada pelo tempo de existência dividido pelo número de membros 
Coluna 10 – Número médio de associados a cada ano 
Coluna 11 – Extrato dos dados da tabela relevantes para o caso em discussão 
    
[Veja quadro atualizado em http://www.ultrahiq.net/MegaSociety/HIQSocieties.htm]
    
        Vamos desconsiderar um fato importante, porque não dispomos de dados sobre isso. Esse fato é que as colunas 9 e 10 só teriam algum significado se o crescimento no número de membros de uma sociedade seguisse uma progressão aritmética. Se em vez disso for uma progressão geométrica (como suponho que seja), então os dados das colunas 9 e 10 estão comprometidos. 
        Mas acredito que o erro resultante não chega a afetar os dados tanto quanto outros fatores, entre os quais podemos citar a migração de membros de uma sociedade antiga para uma nova, com o advento da Internet as sociedades podem crescer mais rapidamente do que antes e os diversos fatores randômicos também pesam muito. Além disso, numa PG de razão discreta (tipo 5% ao ano), quando se consideram intervalos curtos, encontram-se resultados semelhantes aos que sucederiam numa PA. O único caso em que o crescimento desproporcional se faz sentir claramente é a Mensa, devido ao fato de ser uma sociedade muito antiga. Portanto, podemos assumir que o crescimento obedece a uma PA, embora saibamos (acreditemos) que seja uma PG, sem que isso interfira em nossas conclusões. Além disso, não dispomos de um volume de dados suficientemente grande para que haja necessidade de considerar todos esses fatores, e isso não chega a prejudicar nossa investigação, porque não estamos tateando no escuro em busca de uma ordem que possa emergir dos dados da tabela. Temos uma idéia clara do que deve acontecer, e montamos a tabela para conferir se nossa hipótese é correta, por isso é que mesmo com uma análise relativamente tosca, feita a partir de poucos dados, podemos chegar a algumas conclusões importantes, que corroboram empiricamente nossa hipótese: entre as pessoas com QI mais alto, verifica-se um interesse (necessidade) maior de se filiar a uma sociedade de elevado QI. Ou seja, existem 63.000.000 pessoas qualificadas para ingressar na Intertel e na TOPS, mas apenas cerca de 2.000 efetivamente se associaram, o que representa apenas 1 de cada 30.000 pessoas qualificadas. Porém, entre as 6.300 pessoas qualificadas para se associar à Mega Society e à Pi Society, 20 efetivamente se associam, e isto representa 1 em cada 300 pessoas qualificadas, que sugere um interesse 100 vezes maior. E ainda há que se levar em conta que a Intertel existe desde 1966, enquanto a Mega Society foi fundada em 1982. 
        Diante disso, um raciocínio equivocado nos levaria à conclusão de que esses dados são indício de que os testes para admissão à Mega Society estão inflacionados. Uma interpretação mais coerente, em minha opinião, é de que, conforme foi dito acima, quanto mais distante da média for a capacidade de uma pessoa, mais ela sentirá necessidade de se integrar a um grupo que cultive os mesmos interesses que ela e cujas características gerais dos membros permitam um contato mais pleno entre eles. Uma pessoa com 140 de QI, por exemplo, pode se adaptar relativamente bem à população geral, tornando-se líder e sendo razoavelmente bem entendida pelos circunvizinhos, mas alguém com QI 180 será geralmente mal entendido, ou mesmo completamente incompreendido, pelos que o rodeiam, e por isso terá necessidade maior de buscar relações sociais com grupos que reúnam pessoas com as quais possa trocar informações e experiências num mesmo plano de entendimento. Por isso é que entre as pessoas qualificadas para a Mega se observa uma porcentagem muito maior de interessados em se associar do que entre as pessoas qualificadas para a Intertel. É importante notar que estamos comparando Mega e Intertel, em vez de considerar a Mensa, porque além da Mensa ser muito mais antiga, ela é a primeira, e isso a torna desproporcionalmente maior (em número de associados) que qualquer outra. 
        Nessa linha de raciocínio, parece muito natural supor que entre as 10 pessoas mais inteligentes do mundo, é muito provável que pelo menos metade delas tenha acesso à Internet, tenha interesse em testes de inteligência e pesquise sobre o assunto na Internet. Mesmo que algumas dessas 10 pessoas tenham nascido em condições íngremes, nos ambientes culturalmente mais pobres de países subdesenvolvidos, sempre existem mecanismos que permitem a “descoberta” dos talentos mais notáveis, e isso aumentaria as chances de que boa parte dessas pessoas acabasse se inteirando com o mundo globalizado. Enfim, é muito provável que pelo menos 5 entre as 10 pessoas mais inteligentes do mundo tenham tomado conhecimento sobre a existência de Giga Society, Mega Society etc. 
        Mas nesse ponto nos deparamos com uma nova questão: o que os testes usados para admissão “medem” é de fato a “inteligência”? 
        Eu acredito que alguns testes realmente priorizam a inteligência inata, e conseqüentemente medem o desempenho mental das pessoas. Aliás, tudo o que se pode medir é o desempenho mental, que consiste numa manifestação parcial da inteligência. A expressão “desempenho mental” é usada pelo nosso amigo Carlos Alberto de Jesus Gonçalves Paula Simões, em sua bateria de testes; considero essa a melhor maneira de denominar os testes comumente chamados de “testes de inteligência”, e creio que o Power Test seja o que melhor se presta à finalidade de aferir o Desempenho Mental, justamente por isso é que eu o escolhi, pois acredito que ele é o que tem melhores chances de representar o ‘poder intelectual’, como o próprio nome sugere. Mas mesmo esse teste está carregado com alguma carga cultural, e creio que pessoas que tenham vastos conhecimentos sobre Matemática podem alcançar resultados melhores do que outras que sejam igualmente inteligentes, mas que não tenham os mesmos conhecimentos. Pelo que pude constatar, todas as questões do Power Test podem ser solucionadas recorrendo apenas ao conhecimento de 2o grau (Ensino Médio), mas um matemático que dispõe de ferramentas mais sofisticadas, pode chegar às soluções com esforço muito menor. Isso compromete a validade do teste, e creio que situa seu teto na faixa dos 180 a 185, quando aplicado a um matemático, embora permaneçam válidas as estimativas de Garth Zietsman enquanto o teste for aplicado a alguém sem especialização nas áreas de Exatas. Os outros testes de Hoeflin estão ainda mais carregados de cultura, envolvendo conhecimentos da língua inglesa e cultura geral. O mesmo acontece aos testes de outros autores, por isso eu acho improvável que algum deles produza resultados confiáveis quando se aproximam dos limites extremos de 170 e 180, e perdem completamente a validade além desse ponto. 
        Se realmente 5 ou 6 entre as 10 pessoas mais inteligentes do mundo estão filiadas a pelo menos uma sociedade de elevado QI, creio que  Chris Langan, por exemplo, deve ser uma dessas pessoas, e é provável que Marilyn Mach vos Savant e Rick Rosner também façam parte desse grupo. Os que conhecem muita Matemática (Langdon, Lygeros, Golomb etc.) não estão necessariamente excluídos do grupo, mas precisam de testes melhor adaptados aos seus conhecimentos e que exijam esforço real, envolvendo raciocínio e criatividade, em vez de testes que lhes exijam a mera aplicação mecânica de técnicas matemáticas previamente estudadas. 
        O hábito de elaborar testes envolvendo matemática e lógica tem se cristalizado ao longo dos anos, e muitos não colocam em discussão até que ponto isso produz resultados justos. Poucos devem discordar que o Xadrez pode se prestar muito bem a avaliação da capacidade intelectual, mas além da capacidade intelectual é preciso muito conhecimento e treinamento para ter bom desempenho. Uma pessoa de inteligência notável não será um bom enxadrista a menos que estude profundamente os princípios gerais, jogue muitas partidas como treinamento e analise as partidas dos grandes jogadores para se familiarizar com os conceitos estratégicos vigentes. Por isso o desempenho em competição não pode ser assumido como parâmetro para avaliar a inteligência, e mesmo a resolução de problemas de Xadrez, que elimina boa parte do fator “cultural”, ainda acaba favorecendo o jogador mais experiente. O único modo de reduzir ao máximo a importância do conhecimento é criando um teste inteiramente baseado em problemas “heterodoxos”, por assim dizer. Devem ser problemas nos quais todos os princípios gerais percam validade, e a pessoa tenha que usar sua imaginação, sua engenhosidade e suas outras faculdades mentais para improvisar soluções originais. Os únicos conhecimentos envolvidos devem ser os mais básicos. 
        Em vez do Xadrez, o teste pode se basear em Lógica ou em Matemática, desde que seja mantida a essência da idéia, que é exigir que a pessoa “pense” em vez de “aplicar conhecimento”. Isso envolve muitas dificuldades técnicas, porque não é fácil elaborar questões difíceis e que ao mesmo tempo não exijam conhecimentos específicos. Enquanto tais dificuldades não forem contornadas, os testes continuarão carregados de cultura especializada, e favorecendo os pesquisadores de determinadas disciplinas. Por isso é que num teste sobrecarregado com Matemática é preciso avaliar em escala diferenciada as pessoas com formação em diferentes áreas, pois o conhecimento acaba atuando na mente como um esteróide atua no físico. 
        A conclusão a que sou levado é de que nas sociedades até percentil 99,997, possivelmente a maior parte dos associados está corretamente enquadrada. No percentil 99,9999 ainda é possível que mais da metade esteja corretamente enquadrada. No percentil 99,9999999, acho extremamente improvável que os membros estejam qualificados para integrá-la, porque o teste de admissão é de validade altamente discutível (esse é o principal, mas não o único motivo). Pode ser que realmente sejam eles os dois únicos membros de sociedades de elevado QI capazes de atingir a pontuação necessária para ingressar em Giga, mas o fato é que o teste usado para admiti-los está longe de ser apropriado a uma finalidade tão ambiciosa. 
        O problema dos testes usados para admissão em Giga e Grail é semelhante ao problema presente nos testes de QI convencionais, aplicados em clínica. No caso dos testes de QI, até podem servir para selecionar 1 em 1 bilhão, se a escassez de tempo for levada ao extremo, mas a questão é saber se essa pessoa que obteve pontuação acima de 999.999.999 concorrentes o fez por ter inteligência mais desenvolvida ou por ter alguma outra virtude (rapidez, conhecimento etc.) que a destaque das outras. E no caso dos testes de Cooijmans, a discussão não gira em torno da escassez de tempo, mas do nível de dificuldade relativamente baixo das questões e da pesada carga cultural. 
        Se for tomado um grupo aleatório de 10.000 pessoas, e forem aplicados dois testes de inteligência diferentes aos elementos desse grupo, teremos alguns casos mais ou menos assim: João fica acima de 9.999 pessoas do grupo no teste A e fica acima de 290 pessoas no teste B. Se João for um caso isolado, o problema não será tão grave, mas se houver uns 1.000 casos como o de João, então os testes A e B não estão medindo a mesma coisa. E o que acontece no caso do teste para admissão em Giga é basicamente isso. Se os dois membros dessa sociedade forem submetidos a dois testes diferentes, e junto com eles participarem umas 10 outras pessoas com escore acima de 180 em algum teste de inteligência, então nada assegura que os dois membros de Giga ficarão melhor situados que as outras dez pessoas em todos os testes. 
        Isso acontece porque o resultado de um teste, ou de qualquer medida, não pode ser encarado como um número exato. É apenas uma grandeza aproximada, à qual deveria estar associada uma margem de erro. Se temos duas pessoas, A e B, e a pessoa A atinge 172 (99,9996%) num teste, enquanto a pessoa B atinge 186 (99,999996%) no mesmo teste, e se o teste apresenta margem de erro em torno de 6 pontos (desvio-padrão=6) no caso de 172 e 9 pontos (desvio-padrão=9) no caso de 186, isso sugere que há cerca de 97% de chances de que B seja mais inteligente que A. Note que 3% de chances de que seja o contrário é uma probabilidade grande, principalmente se tivermos em conta que uma diferença de 14 pontos é muito significativa na faixa dos 180, porque teoricamente 186 é 100 vezes mais raro do que 172 (isso admitindo que os QIs se distribuem conforme previsto numa distribuição gaussiana, mesmo nos extremos de 5 ou 6 desvios-padrão). 
        É importante ter em mente que o resultado 172 quer dizer “algo com 68% de chances de estar entre 166 e 178”, e o resultado 186 quer dizer “algo com 68% de chances de estar entre 177 e 195”. Mas os resultados dos testes não dizem nada sobre erro-padrão, mesmo porque esse erro só poderia ser determinado mediante a aplicação de vários testes similares, o que consumiria muito tempo. Mas pode-se estimar que 1 ou 2 questões devem representar a margem de erro num teste de 30 a 50 questões. Portanto, se no topo do teste cada questão vale cerca de 8 pontos, significa que errando uma questão a mais ou a menos, seu resultado pode variar em 8 pontos! Infelizmente esse é um problema que na prática não tem como ser eliminado. Contudo, nos testes sem limite de tempo é muito pequena a chance de alguém errar um problema por descuido. Os descuidos acontecem com mais freqüência nos testes supervisionados, nos quais a pressão do tempo pode provocar erros que nada têm a ver com as limitações intelectuais do testando. 
        Cientes desses fatos, concluímos que há cerca de 95% de chances de que os membros de Giga tenham QI entre 180 e 210, e sabemos que a incidência de QIs 180 é 300 vezes maior que 196. Qual a maneira mais adequada para lidar com essas informações? Penso que seja imprescindível considerar a incerteza nos resultados, antes de definir qual o valor mais acurado da grandeza a ser determinada. Por isso não é nem um pouco prudente dizer que se alguém obteve 196 num teste de inteligência, tal pessoa tem QI 196 e ponto final. Os resultados variam muito de um teste para outro, e pude comprovar isso pessoalmente. No exame de Wechsler não-verbal, por exemplo, obtive 118, enquanto no exame verbal alcancei ainda modestos 159. Em testes Satanford-Binet obtive 178, em testes Terman-Merrill 193. Num modelo baseado nas matrizes progressivas de Raven (mas com estrutura completamente diferente, pois eram 300 questões para serem resolvidas num tempo extremamente reduzido), obtive 214, em testes aplicados em minha infância (3 anos), tive resultados equivalentes aos de uma criança média de 9 anos, o que equivale a 300 de QI Cattell ou 235 Stanford-Binet. Como se deve avaliar resultados tão discrepantes? Com relação aos 118 na escala não-verbal de Wechsler e 159 na escala verbal, foram testes aplicados em clínica (Clínica do Objetivo), quando eu tinha 17 anos, e justamente na mesma época o meu irmão Carlos Alberto Melão, que era policial, foi assassinado. Não há dúvida que a morte do meu irmão repercutiu negativamente nos meus resultados. Nos outros casos, sempre me pareceu que o resultado é um tanto duvidoso. Está claro que me seria conveniente abraçar um resultado 214 obtido na idade adulta, mas a quantas pessoas foi aplicado esse teste? Qual a confiabilidade de um resultado tão elevado? Eu diria que o tal teste simplesmente não passa de um jogo, com escala quase arbitrária e sem qualquer validade. No caso de ter idade mental de 9 anos quando contava 3, isso também não representa muito, porque o desenvolvimento não é uniforme e a simples conversão Cattell-Binet não resolveria o caso. Eu considero que o Power Test poderia fornecer uma medida mais confiável, mas não totalmente, porque o número de questões é muito pequeno. Seja como for, ao longo de 4 meses, num total de cerca de 30 a 40 horas, resolvi 33 entre 36 questões do Power Test, que correspondem a algo entre 170 e 180. Creio que posso solucionar as 3 questões restantes, e com isso a estimativa subiria para cerca de 180 a 200. Mas seria isso correto? Creio que não. 
        Minha postura, nesse caso, é muito cética. Acredito que não existem testes apropriados para determinar com segurança as diferenças entre uma pessoa com QI 180 de outra com QI 200. Tanto uma como a outra podem atingir escores aproximadamente equivalentes nos testes disponíveis, pelo simples fato de que ambas chegarão muito perto dos 100% de acertos. Por que deveríamos pensar que alguém que acertou 46 questões entre 48 no Mega Test é mais inteligente do que alguém que acertou 44 ou 45? Uma diferença de 1 ou 2 questões representa muito pouco, e se ambas as pessoas fossem submetidas a um teste similar (ex.: Titan Test), os resultados poderiam se inverter. E no final das contas, qual dos testes estaria fornecendo os resultados corretos? A resposta é: ambos os testes são corretos e ambos são limitados. Existe uma limitação no teto do teste e existe outra limitação imposta pela margem de erro do teste. Para reduzir a margem de erro, basta aumentar o número de questões. Num teste com 500 questões, que consumiria umas 500 horas, talvez fosse possível ter margem de erro menor que 1 ponto de QI. Mas evidentemente o tempo para aplicar tal exame seria exagerado. Um “teste unificado” seria uma opção interessante, desde que todas as baterias a serem consideradas no teste unificado excluíssem a cultura, de modo que o resultado final realmente determinasse a inteligência inata. Para elevar o teto do teste, seria preciso elaborar questões mais duras, e isso também parece difícil de levar a cabo. Uma boa opção seria reunir as 30 ou 40 questões mais difíceis de todos os testes existentes, e com isso ter um superteste no qual 50% de acerto corresponderia a 180 de QI. Em tal teste, é possível que 100% de acerto fosse equivalente a 200 ou 210. Mas um teste com essas características simplesmente não existe, portanto, o máximo que se pode determinar com segurança é se uma pessoa tem QI acima de 180 ou alguma graduação abaixo disso. Qualquer estimativa acima de 180 não se sustenta, devido à falta de confiabilidade no instrumento usado. 
        Durante algum tempo, conversei com Nik Lygeros sobre a validade do “Test for Genius” (de Paul Cooijmans), que considero inflacionado. E, pelo que pude notar, Nik tem consciência disso, mas “tolera” essa discrepância pelo simples fato de que não podemos conceber nenhuma bateria de testes que seja capaz de atender satisfatoriamente à proposta de aferir QIs acima de 180. Esse espaço está aberto, para o caso dele ter algo a acrescentar. 
        No caso do Xadrez, cada partida pode ser considerada um problema (ou uma série de problemas) que um dos jogadores coloca para que o outro resolva. As partidas de 5 minutos equivalem a um teste de velocidade de raciocínio (como Think Fast), as partidas de 2 horas equivalem a um teste de QI convencional, em que a rapidez, o conhecimento e o raciocínio profundo se combinam. E uma partida postal corresponde a um teste sem limite de tempo, equivalente ao Power Test ou G-Test. Em todos os três ritmos considerados, sempre se verifica que o rating dos jogadores oscila cerca de 20 a 100 pontos para cima ou para baixo, e permanecem oscilando durante décadas. Esse é um forte indício de que a margem de erro está presente nesses resultados do mesmo modo que no resultado de um teste de QI. E a informação mais importante a ser abstraída do modelo “Xadrez” é a seguinte: se um jogador com rating 2600, por exemplo, for colocado para jogar contra 100 jogadores com rating médio em torno de 2000, fatalmente ele vai ter quase 100% de vitórias (suponhamos que obtenha 100, que está muitíssimo próximo da expectativa teórica de 97%), e se um outro jogador, com 2800, for colocado para disputar contra os mesmos 100 adversários de rating médio 2000, ele pode ter aproveitamento pior (algo em torno de 99,5, por exemplo, que também está muito próximo da expectativa teórica de 99,1%). Cada adversário pode ser encarado como “um problema a ser resolvido”, e como podemos ver, existe um risco muito grande de que o resultado final não seja representativo da realidade. Na maior parte das vezes, é necessário jogar umas 500 partidas para que a margem de erro fique em torno de uns 20 pontos de rating (visite o site da SSDF, com estatísticas sobre rating de computadores), que equivale a cerca de 1 ponto de QI (visite o site de Bill McGaugh para mais detalhes <http://www.pe.net/~bmcgaugh/eloiq.htm>). 
        Isso mostra que problemas cujo grau de dificuldade médio seja adequado para pessoas com QI na faixa de 140 (rating 2000), não pode servir para QIs muito acima disso (rating 2600, por exemplo). 
        A conclusão final a que chegamos é de que muito provavelmente existem pessoas com 190, 200 e talvez até mais de 200, filiadas às sociedades de elevado QI, mas os escores que elas têm obtido não são necessariamente corretos, porque os testes são pouco confiáveis na determinação de QIs muito acima de 170 ou 180. Portanto, os testes não estão propriamente “inflacionados”, nem tampouco “deflacionados”. O que acontece é que nos QIs acima de 170 ou 180 os erros são maiores e isso torna os resultados nesses extremos bem menos confiáveis. Nosso amigo Rodrigo Vianna Rocha já tem consciência disso há muito tempo, e provavelmente outras pessoas que investigam o assunto também estão cientes desse fato. O que me impressiona é que as sociedades de topo (Giga, Mega etc.) não discutem esse aspecto dos testes. 
        E o que podemos dizer sobre Sigma V e Sigma VI, que admitem membros com QI acima de 180 e 196, respectivamente? Em primeiro lugar, é importante lembrar que Sigma Society não adota critérios de seleção estatísticos, baseados na porcentagem da população que atinge determinados escores. Em vez disso, o critério se baseia no número de desvios-padrão acima da média, que está completamente fora do contexto estatístico. Em segundo lugar, o limite estabelecido para selecionar membros com base num único teste é 180. Acima disso usamos um teste unificado. Em terceiro lugar, os critérios estão sujeitos a constantes modificações, e são aprimorados à medida que coletamos novos dados. Se no futuro for constatado que 100% de acertos no Sigma Teste corresponde a 175 de QI (considero atualmente que corresponda a cerca de 200), então naturalmente vamos dissolver Sigma V e Sigma VI, ou reformular nossos critérios de admissão. Por outro lado, se constatarmos que 90% de acerto corresponde a cerca de 195 de QI, talvez seja criado o segmento Sigma VII (no qual reconhecemos que fatalmente estariam presentes as distorções citadas acima). É importante lembrar que tal constatação não requer uma amostra de bilhões de elementos, porque nossa escala não envolve resultados estatísticos. É uma escala intrínseca, semelhante ao sistema métrico decimal, usado para aferir a altura das pessoas, e cuja grandeza não está subordinada a distribuições estatísticas, embora possa coincidir com as previsões estatísticas em boa parte de sua extensão. 
        O Sigma Teste pretende ser inovador em muitos aspectos, não recorrendo abusivamente a questões que exijam conhecimento matemático específico, não se prendendo aos modelos tradicionais de testes com séries de figuras ou números, não forjando artificialmente um elevado grau de dificuldade por envolver técnicas de exaustão na análise das questões, usando exclusivamente questões inéditas nos níveis mais elevados de dificuldade. Não obstante essas pretensas vantagens, o Sigma Teste carece de dados estatísticos que permitam estabelecer uma norma acurada para as pontuações correspondentes aos 3 primeiros desvios-padrão acima da média. Nossa meta é reunir dados sobre a população situada nesse intervalo (de 1 a 3 desvios-padrão acima da média), e partindo daí aplicar a equação proposta por Grady Towers e cuja constante ‘k’ foi determinada e apresentada pela primeira vez em meu modelo de estrutura mental (combinando as equações de Bill McGaugh, Grady Towers e Arphad Elo), que relaciona o QI com o número de acertos num determinado teste, sem levar em conta a distribuição estatística fora do intervalo de 3 desvios-padrão acima da média. Mas é claro que se houver uma discrepância muito grande entre as previsões estatísticas e os resultados sugeridos por outros meios, teremos que reconsiderar a situação, analisando todos os dados disponíveis. 
        Quando tivermos ampliado nossa amostragem de pessoas submetidas ao Sigma Teste, voltaremos a discutir essa questão.
Voltar à página principal
sigma@ sigmasociety.com