|
BRASIL
SAI NA VANGUARDA MUNDIAL COM IMPLEMENTAÇÃO DE NOVO
SISTEMA DE AVALIAÇÃO PEDAGÓGICA
Por
Hindemburg Melão Jr.
No
dia 6 de fevereiro de 2006, na Casa da Cultura de Bom Jesus dos
Perdões, tive a oportunidade de ministrar uma palestra para
professores da rede municipal de ensino sobre as vantagens de usar
Teoria de Resposta ao Item (TRI) para avaliação pedagógica.
Foi uma experiência duplamente gratificante, porque além
de colocar os educadores em contato com tecnologias de ponta, também
dedicamos parte da palestra ao ensino das regras básicas
do Xadrez, que é um de meus hobbies prediletos.
Para compreender o que é TRI, antes convém falarmos
um pouco sobre suas precursoras. As primeiras avaliações
psicopedagógicas de que se tem registro surgiram na China,
por volta de 3.000a.C. e adotavam uma escala ordinal (Likert), praticamente
igual à que é usada atualmente em mais de 99,9% das
escolas do mundo. Quase todas as universidades, cursinhos, escolas
públicas e particulares usam esta escala. Conforme se pode
deduzir por sua antiguidade, é um sistema obsoleto e com
muitas limitações. O método é o mais
simples possível e consiste em atribuir notas com base na
quantidade de respostas certas. Numa prova com 10 questões,
a nota é igual ao número de respostas certas, podendo
também haver pontuação fracionária para
respostas parcialmente certas. Em nosso artigo “A importância
das provas no processo educacional”, discutimos com mais detalhes
este sistema de avaliação e apresentamos 7 exemplos
práticos de problemas comumente causados por esta escala.
Estes problemas ocorrem mesmo quando se usa a escala Likert corretamente,
e muitas vezes a escala é usada de maneira inadequada, o
que agrava muito a situação. Por exemplo: algumas
escolas usam notas estratificadas em A, B, C, D, E, e com isso se
perde parte das informações, porque tanto o aluno
que tirou 3,5 quanto aquele que tirou 6,5 ficam com C, embora o
segundo tenha acertado quase o dobro do primeiro. No bimestre seguinte,
aquele que tirou 3,5 pode tirar novamente 3,5 e ficar com média
C, enquanto o outro que tirou 6,5 pode tirar 3 e ficar com D, portanto
fica com nota média menor que a do outro, embora tenha se
saído claramente melhor nas provas. Este é um dos
problemas de usar 5 estratos (A, B, C, D, E) em vez de escores numéricos.
O uso de estratos equivale a “arredondar” as notas.
Há casos ainda mais graves, em que se usam 3 estratos: BOM,
SATISFATÓRIO E INSATISFATÓRIO. Como estas estratificações
são feitas por comparação, muitas vezes um
aluno não se enquadra bem no grupo BOM nem no grupo SATISFATÓRIO,
mas sim no meio entre estas duas classificações, de
modo que esta situação exigiria um estrato adicional
“MÉDIO-BOM”, ou algo assim, e outros estratos
equivalentes no extremo oposto, além de um extrato adicional
“ÓTIMO” etc. Enfim, quanto menor for o número
de estratos, pior fica o sistema de avaliação. Existem
procedimentos estatísticos que possibilitam criar estratos
consistentes, e nestes casos se pode fazer agrupamentos para finalidades
diversas, mas durante o cômputo das notas e cálculo
de médias, deve-se manter toda a informação
disponível, com notas com tantas decimais quantas forem indicadas
pelo professor.
Antes de prosseguir, é recomendável conhecer os 7
principais problemas das provas que usam escala ordinal, e para
isso citaremos trecho do artigo http://www.sigmasociety.com/provas.pdf:
Algumas importantes utilidades
das provas, quando elaboradas, aplicadas e interpretadas seguindo
normas que atendam aos nossos padrões de qualidade:
Exemplo 1: No final do ano, um aluno
obteve nota média 7,7 em Matemática e nota 9,1
em Língua Portuguesa, e os professores ficaram em dúvida
para qual área este aluno apresenta maior vocação.
Tanto os professores quanto os alunos acharam que a prova
de Matemática estava mais difícil do que a de
Português, portanto a nota mais alta em Português
não era indicio suficiente de que o aluno apresentava
mais talento para a Comunicação. Como proceder
nesse caso, a fim de poder orientar corretamente este aluno
na escolha de uma carreira?A palestra ensina uma maneira muito
simples e segura para resolver este impasse.
Exemplo 2: Tenho uma lista de exercícios
com 58 perguntas e desejo elaborar uma prova que contenha
as 10 perguntas que melhor representem o conhecimento global
de todas as 58. Como devo escolher estas 10 perguntas?
Exemplo 3: Apliquei uma prova de múltipla
escolha com 10 perguntas e constatei que para 9 destas perguntas
a alternativa mais escolhida era a alternativa certa, mas
uma das perguntas teve predominância de escolhas numa
alternativa errada. Isto é bom ou mau? Por quê?
Exemplo 4: Quando eu elaboro uma prova
de múltipla escolha, é melhor formular alternativas
em que o aluno não consiga descartar opções
improváveis? Por quê? [Sugerimos leitura do artigo
“Pontos
fracos na provas da Fuvest”]
Exemplo 5: Desejo atribuir pesos diferentes
às provas de cada bimestre. Costumo usar peso 1 no
primeiro bimestre, peso 2 no segundo e no terceiro, peso 3
no quarto. Mas tenho notado que algumas vezes as provas com
peso 2 são mais representativas da totalidade da matéria
e deveriam receber maior peso. Como resolver este problema?
Exemplo 6: Temos um programa de incentivo
aos estudantes mais dedicados e, para tanto, oferecemos prêmios
aos alunos com melhores notas, além de envia-los para
representar a escola em Olimpíadas da Matemática,
Física, Química etc. Qual é a maneira
mais justa de atribuir estes prêmios e selecionar os
representantes da escola, de modo que os premiados sejam efetivamente
aqueles que demonstraram melhor desempenho global, tendo em
conta fatores tais como o diferente nível de dificuldade
das provas?
Exemplo 7: Para os alunos do 3o ano do
Ensino Médio, costumamos aplicar provas que visam a
simular o desempenho que os alunos teriam no vestibular, e
para isso incluímos várias questões extraídas
de vestibulares passados e algumas questões novas.
No entanto, o desempenho dos alunos nesses simulados costuma
ser significativamente diferente do desempenho nos vestibulares
propriamente ditos, de modo que estas provas não estão
se mostrando como bons preditores de desempenho no vestibular.
Como proceder para que estes simulados sejam preditores eficientes?
(este problema é enfrentado por praticamente todos
os melhores colégios e melhores cursos pré-vestibular).
|
Para
atenuar estes problemas, foi criada a Teoria Clássica dos
Testes (TCT), também conhecida (de forma mais geral) como
Teoria Clássica da Medida (TCM), que teve seus fundamentos
teóricos lançados em 1808 e começou a ser praticada
para fins de avaliação psicológica em 1859.
Atualmente a TCT é usada em praticamente todos os vestibulares
do Brasil e em vários exames psicológicos e educacionais
do mundo, inclusive no WAIS (teste individual mais usado no mundo)
e no Raven (teste coletivo mais usado no mundo). Vestibulares do
ITA, USP, Unicamp, UNESP, universidades federais e grandes concursos
usam TCT. A vantagem principal é que com TCT se consegue
que os escores obedeçam a uma escala aproximadamente intervalar
em mais de 95% dos casos, porque assim como grandezas intervalares
se distribuem aproximadamente normalmente, supõe-se que medidas
que se distribuem normalmente sejam aproximadamente intervalares,
pelo menos no intervalo compreendido entre -2sd e +2sd (dois desvios-padrão
abaixo e acima da média). Então basta normalizar a
distribuição dos escores brutos para torná-los
aproximadamente intervalares, e assim “enriquecer” a
informação original. A vantagem de uma escala intervalar
é que possibilita realizar operações aritméticas
de soma e subtração de escores, o que não é
possível se a escala for ordinal. Por exemplo: se João
tem nota 9, José tem nota 8 e Pedro tem nota 5, a diferença
de notas entre João e José é 1, enquanto a
diferença entre José e Pedro é 3. Mas estas
diferenças de notas não refletem diferenças
em níveis de conhecimento, habilidade ou desempenho, e a
diferença 1 entre João e José pode ser (ou
não) maior do que a diferença 3 entre as notas de
José e Pedro. Numa escala ordinal, conforme o nome diz, os
escores podem ser apenas ordenados. O escore 9 é maior do
que 8, e o escore 8 é maior do que 5. Porém não
há como saber se a diferença entre 8 e 5 é
maior ou menor do que entre 9 e 8. Já numa escala intervalar,
uma diferença de 1 sempre tem mesmo significado, portanto
a diferença 9 para 8 seria menor do que a diferença
8 para 5. Esta é uma das vantagens de se adotar escalas intervalares.
Infelizmente,
pelo método tradicionalmente usado por 99,9% das escolas,
que gera escalas ordinais, temos todos os 7 problemas listados acima.
Usando uma escala intervalar e ainda por cima padronizada, vários
destes problemas desaparecem ou diminuem muito. Porém ainda
há muitas limitações, várias das quais
são resolvidas com o uso de TRI.
A
TRI surgiu em 1925 e começou a conquistar a atenção
dos pesquisadores em 1936. Em 1971 foi usada para avaliação
de desempenho de jogadores de Xadrez e na década de 1980
passou a ser usada em exames psicológicos. Atualmente é
reconhecida como a mais poderosa ferramenta que existe para tratamento
estatístico de questionários, sendo usada em alguns
dos mais importantes exames educacionais dos Estados Unidos e da
Europa. Devido à tremenda importância desta ferramenta
e ao imenso leque de possibilidades que ela nos oferece, o uso de
TRI pelo SAEB foi anunciado como reportagem de capa na revista Nova
Escola (agosto de 1997). O trabalho estatístico foi realizado
pela Cesgranrio e no site desta instituição podemos
encontrar o seguinte comentário: “Ao
introduzir no Brasil a TRI, a Fundação Cesgranrio
se destacou como uma das poucas instituições que dominam
e praticam essa tecnologia, ombreando-se com países mais
avançados da Europa e da América do Norte, e colocando
o Brasil com visibilidade internacional na área de Avaliação
de Sistemas Escolares.”
Algumas
vantagens de usar TRI em comparação ao uso
de TCT são:
-
Maior
confiabilidade nos desempenhos indicados pelas notas.
-
Maior
eficiência na detecção de alunos com
dificuldade de aprendizado.
-
Maior
eficiência na detecção de alunos portadores
de altas habilidades.
-
Mais
exatidão para a orientação vocacional.
-
Prognósticos
mais confiáveis em simulados de vestibulares.
-
Proporção
mais realista entre notas e conhecimentos ou entre notas
e habilidades.
-
Menos trabalho para o professor nas etapas de elaboração
e avaliação (criação de bancos
de itens, padronização imediata dos resultados
finais, correção automatizada).
-
Menores
custos operacionais.
-
Maior
agilidade em todas as etapas do processo de avaliação.
-
Possibilidade
de construir, em poucos segundos, dezenas de provas diferentes
a partir do mesmo banco de itens, assegurando equivalência
de conteúdo e de dificuldade.
- Possibilidade
de aplicar provas com níveis de dificuldade e conteúdo
personalizados para cada aluno, sem demandar mais tempo
do que seria necessário para uma prova coletiva tradicional.
Por exemplo: numa sala com 50 alunos, pode-se aplicar 50
provas diferentes e assegurar que há equilíbrio
de dificuldade e de conteúdo em todas as 50 provas.
-
Possibilidade
de comparar a evolução dos alunos ao longo
do tempo.
- Possibilidade
de informatização de provas totalmente personalizadas,
respondidas em computador, em que o primeiro item é
sorteado pseudoaleatoriamente, com ou sem critérios,
e cada item subsequente é escolhido com base nas
respostas anteriores, de modo a maximizar a abrangência
de informação sobre tema avaliado, focando
os pontos fracos e fortes de cada aluno.
-
Numerosas
outras vantagens para alunos, professores e para a comunidade.
- Do
ponto de vista técnico, as vantagens também
são muitas:
-
Gerar
escores em escala com vários aspectos de escala
de proporção.
-
Corrigir
distorções nos valores extremos.
-
Predizer
a probabilidades de cada aluno acertar cada item e
assim conseguir identificar eventuais fraudes (“cola”)
em caso de muita disparidade (pode-se calcular a probabilidade
de que cada aluno tenha colado cada questão.
-
Comparação
precisa e equidosa entre alunos examinados com provas
diferentes, em classes diferenres, séries diferentes,
unidades de ensino diferentes, colégios diferentes,
mesmo
que estas provas não tenham itens em comum
(desde que os itens tenham sido extraídos de
um banco de itens previamente aplicados em exames
“ancorados”).
-
Possibilidade
de comparação entre grupos muito heterogêneos,
entre alunos de escolas públicas e particulares,
de metrópoles e pequenas cidades.
-
Diversas
outras vantagens técnicas, conceituais e operacionais.
|
Além
de aplicações educacionais, a TRI possibilita tratar
de qualquer tipo de questionário e já está
sendo usada com extraordinário sucesso em Psicologia, Marketing
e Medicina, possibilitando diagnósticos mais confiáveis,
planejamentos administrativos e publicitários mais eficientes
e lucrativos, conhecimento mais profundo e detalhado sobre as necessidades
e expectativas dos clientes, medidas mais exatas sobre gestão
de qualidade etc.
Veja
parte da apostila sobre a palestra aqui: http://www.sigmasociety.com/provas.pdf
Clique
aqui para fazer download do arquivo PPS usado como suporte visual
para esta palestra.
______________
Artigos relacionados:
http://www.sigmasociety.com/provas.pdf
http://www.sigmasociety.com/artigos/fuvest_2004_artigo.pdf
http://www.sigmasociety.com/sigma_teste/sigma_sigma_teste.asp
http://www.sigmasociety.com/artigos/norma_setembro_2003.pdf
http://www.sigmasociety.com/artigos/norma_set_2004.pdf
http://www.sigmasociety.com/artigos/st_2006.pdf
http://www.sigmasociety.com/artigos/afh_st.pdf
http://www.sigmasociety.com/xadrez_e_educacao.pdf
http://www.sigmasociety.com/xadrez/sigma_tributo-caissa.asp
http://www.sigmasociety.com/sobre_o_fundador/artigos/introducao_qi.pdf
|