Faz tempo que não escrevo
nada sobre testes, mas hoje, ao ler a mensagem de um amigo sobre o assunto,
decidi esclarecer alguns pontos. Além disso, como a resposta a ele não
cabia no campo do formulário, achei interessante aproveitar a oportunidade
e transformar a resposta num pequeno artigo, conforme segue:
Olá, Edu e Jonatas.
Não pude deixar de ler a mensagem abaixo e peço licença
para opinar. O fato de dois testes produzirem escores diferentes não
significa que sejam ruins ou que um deles seja ruim. E o fato de os escores
serem semelhantes não significa que sejam bons. A qualidade, a meu ver,
depende mais da validade de critério do que da validade por homogeneidade
ou precisão, ou seja, depende da adequação das perguntas
ao tipo de variável que se pretende medir. Dois escores muito semelhantes
podem ser inclusive um mau indício, pois os bons testes devem ser muito
diversificados dentro dos limites das variáveis a serem aferidas, de
modo a cobrir, tanto quanto possível, fatores que respondam por mais
de 80% ou 90% da variância de todos os traços cognitivos a serem
medidos. Quando a homogeneidade é muito elevada num teste com apenas
poucas dezenas ou centenas de questões, isso indica que está excessivamente
concentrado em poucas variáveis ou tem pouca diversidade nos níveis
de dificuldade.
O Conselho Federal de Psicologia estabelece um alfa de Cronbach mínimo
de 0,6, se não me engano, entre outros quesitos, naturalmente, para que
um teste seja aprovado para uso. Isso é um critério ruim. Deveriam
estabelecer um mínimo e um máximo, porque quando o coeficiente
de homogeneidade é muito alto, significa que os itens do teste são
demasiado semelhantes entre si. Um exemplo é o teste de pensamento espacial
do BPR-5, em que todas as questões são basicamente iguais, assim
só se mede um traço muito estreito do conjunto de variáveis
que deveriam ser medidas e não se pode dizer que um teste desses seja,
numa acepção ampla, de “pensamento espacial”, mas
apenas um teste para medir a habilidade de entender a lei que rege os movimentos
representados pela projeção plana de cubos em rotação.
O teste medirá exclusivamente esta habilidade e, indiretamente, algumas
outras fortemente correlacionadas, mas um verdadeiro teste de pensamento espacial
deveria ser muito mais abrangente e ter itens com conteúdos muito mais
diversificados, e essa diversidade reduziria o alfa de Cronbach, o Kuder-Richardson,
Spearman-Brown, Guttman-Flanagan, Rulon e outros coeficientes de homogeneidade,
fazendo com que as pessoas examinadas tivessem escores mais diferentes entre
duas metades equivalentes do teste ou entre dois testes diferentes projetados
para medir mesmo tipo de habilidade. Além disso, o corte de 0,6 deveria
ser diferente para testes discursivos do que é para os de múltipla
escolha. Aliás, o mesmo se aplica aos coeficientes de correlação.
Nos testes discursivos não há tanto ruído espúrio
afetando o coeficiente, ao passo que nos de múltipla escolha ocorre redução
nos coeficientes de homogeneidade em virtude desse ruído. Em 2004 escrevi
artigos sobre isso, comprovando esse efeito com dados empíricos e demonstrando
a necessidade de revisar este critério. Basicamente o problema é:
suponha dois testes com 100 questões discursivas cada. Aplique este teste
em 1000 pessoas. Depois calcule a correlação entre eles. Em seguida,
coloque 5 alternativas em cada questão de cada teste, mantendo o conteúdo
dos enunciados. Aplique novamente o teste a outras 1000 pessoas equivalentes.
Calcule novamente a correlação e verá que é significativamente
menor quando os testes oferecem múltipla escolha. Obviamente o mesmo
é válido para duas metades de um teste.
Outro aspecto importante a ser considerado é que a saturação
de g num teste não é uma propriedade inerente ao teste, mas da
interação entre o teste e os sujeitos examinados. E “g”
não é uma variável a ser medida, ao contrário do
que se costuma interpretar, mas sim uma propriedade das variáveis medidas.
Se as variáveis forem excessivamente semelhantes entre si, g será
mais alto do que se as variáveis forem mais abrangentes e diversificadas.
Escores como 160, 162, 156, 163 em 4 testes diferentes, a meu ver indica algo
errado. Escores 120, 187, 146, 192 também indica algo errado. A amplitude
de variação dos escores deve ser um meio termo entre estes casos,
de modo a indicar que os testes estão de fato medindo aproximadamente
a mesma coisa e, ao mesmo tempo, não estão exageradamente focados
num traço cognitivo único ou poucos traços fortemente correlacionados.
Coincidentemente, estou trabalhando num teste de uma amiga, a ser usado pelo
DETRAN, que é uma exceção, por motivos que serão
descritos no manual técnico do teste. Não estou envolvido com
testes no momento, mas nesse caso específico, por se tratar de uma amiga
muito querida e que, muito gentilmente, escreveu um prefácio adorável
para meu livro sobre IMC, achei justo direcionar parte de meu tempo para contribuir
com o trabalho dela. Além disso, é uma atividade que me agrada.
Abraços!