Evaluación asistida por computadora: la apuesta de Métrica Educativa

Eduardo Backhoff Escudero

El propósito de este trabajo es subrayar la importancia que tienen las ciencias de la computación en el ámbito de la evaluación del aprendizaje. Para ello, se hace un recuento histórico del interés que ha tenido la psicología en medir ciertos atributos humanos (como la inteligencia); la influencia que tuvieron la psicología, la educación y la estadística en el desarrollo de la evaluación del aprendizaje a gran escala; así como las innovaciones que posibilitaron las ciencias computacionales para transformar la evaluación del logro educativo. Se ejemplifica con la descripción del desarrollo de un proyecto nacional.

Actualmente la evaluación del aprendizaje es una disciplina en la que confluyen las ciencias cognitivas, la psicometría y la informática. Por más de cien años, la evaluación del aprovechamiento académico a gran escala se basó en el formato de lápiz y papel, la respuesta de opción múltiple y la Teoría Clásica de la Medida (TCM). Asimismo, para poder calificar grandes cantidades de exámenes de manera rápida y eficiente se emplearon dispositivos electrónicos ópticos, los cuales se empezaron a utilizar desde mediados de los años treinta del siglo pasado. A pesar de que en todos los campos de la ciencia y la tecnología ha habido avances importantes, en la mayoría de las instituciones nacionales todavía se hace uso de este modelo de evaluación.

Los orígenes de la evaluación estandarizada del aprendizaje

Haciendo un poco de historia, hay que recordar que a principios del siglo pasado la psicología se interesó en la evaluación de ciertos atributos de los individuos, como la personalidad, la motivación y las habilidades mentales. En el sector educativo, se buscaba comparar las capacidades intelectuales de los alumnos con sus resultados académicos. En poco tiempo los supervisores escolares norteamericanos empezaron a utilizar los tests de inteligencia para ubicar a los estudiantes en los grados escolares de acuerdo con sus capacidades intelectuales. Sin embargo, el sistema educativo norteamericano requería de evaluaciones que fueran sensibles a la instrucción y que pudieran aplicarse para medir la efectividad de las prácticas de enseñanza, así como para comparar los resultados de los estudiantes de diferentes escuelas; lo que dio como resultado que se diseñaran instrumentos para evaluar diversos dominios curriculares. Muy pronto, estas pruebas escolares superaron en importancia a las de inteligencia, aunque se diseñaron con las mismas características: formatos de opción múltiple que se podían calificar con dispositivos ópticos. A partir de los años veinte se elaboraron cientos de exámenes de logro escolar, lo cual impulsó la industria de las pruebas escolares que eran utilizadas por investigadores, especialistas en educación y administradores escolares. Una de las pruebas de logro más importantes en los Estados Unidos es el Scholastic Aptitud Test (SAT) que desde 1926 se utiliza para ingresar a las universidades.

En los años sesenta se desarrollaron nuevas teorías psicológicas y modelos psicométricos que permitieron superar algunas de las limitaciones del modelo tradicional de evaluación del aprendizaje:

Las teorías cognoscitivas enfocaron su atención en cómo las personas desarrollan estructuras de conocimiento, incluyendo los conceptos asociados a los contenidos de los dominios disciplinarios y los procedimientos para razonar y resolver problemas. Una aportación importante de la teoría cognoscitiva es que los aprendices construyen activamente su entendimiento, tratando de conectar la información nueva con su conocimiento previo.
En el campo de la psicometría, se desarrolló la Teoría de Respuestas al Ítem (IRT, por sus siglas en inglés), que supera algunos de los problemas básicos no resueltos por la Teoría Clásica de la Medida y, su extensión, la Teoría de la Generalizabilidad. El problema más importante es la interdependencia entre las características de los estudiantes (nivel de competencia) y las características de los reactivos (nivel de dificultad). Los modelos IRT se basan en una aproximación probabilística.

El arribo de la informática en la evaluación del logro educativo

Por otro lado, en el campo de la innovación de la evaluación pocos temas son tan relevantes como el de los recursos digitales. La mayoría de las evaluaciones de logro educativo más prestigiados del mundo tienen una versión que se administra por computadora, tales son los casos de PISA, TOEFL, SAT y GRE. Entre las muchas ventajas de este formato se pueden destacar las siguientes:

Se generan preguntas y se califican respuestas en décimas de segundo
Se entregan resultados de manera inmediata
Se elaboran reactivos con recursos multimedia de alta definición
Permite el uso de preguntas de respuesta construida y no solo de selección
Se elaboran informes diagnósticos de los sustentantes, de manera automatizada
Se crean bancos de información útiles para la institución usuaria y para la investigación educativa
Se fortalece la seguridad de los contenidos del examen

El desarrollo de las ciencias computacionales ha permitido superar las limitaciones que impone el formato de lápiz y papel, de esta manera se hace posible que las evaluaciones utilicen preguntas cuyas respuestas sean más naturales o “auténticas”. Por ejemplo, el estudiante al resolver una ecuación debe escribir en la pantalla de la computadora la solución. O bien, balancear una ecuación química, trazar una pendiente, identificar puntos geográficos en un mapa, subrayar las partes importantes de un texto, etcétera. También facilitan elaborar pruebas adaptativas que disminuyen el tiempo de evaluación, sin perder la precisión de la medición, administrando a cada estudiante las preguntas cuya dificultad es similar a su habilidad.

Generador Automático de Ítems

Los avances en las ciencias cognitivas, la psicometría y la computación han posibilitado que se desarrolle el campo de los Generadores Automáticos de Ítems; es decir, sistemas que permiten generar de manera automatizada una infinidad de preguntas equivalentes y, por consiguiente, una cantidad inagotable de exámenes de rendimiento académico.

Considerando estas ventajas, Métrica Educativa A.C. se dio a la tarea de diseñar un Generador Automático de Exámenes (GenerEx) con base en la experiencia de 25 años evaluando el aprendizaje a gran escala por medios computacionales. Los antecedentes del GenerEx datan de 1993, cuando desarrollamos el Sistema Computarizado de Examen (SICODEX) con el fin de administrar por medios digitales el Examen de Habilidades y Conocimientos Básicos (EXHCOBA), que se utilizaba en los procesos de admisión en diversas universidades nacionales, públicas y privadas.

La interfaz del SlCODEX es muy parecida a la de un examen de lápiz y papel, la diferencia está en que las preguntas y opciones de respuesta se presentan en la pantalla de un monitor. Dado que el SICODEX se diseñó para administrar exámenes de opción múltiple, la forma de responder es relativamente sencilla. El estudiante únicamente tiene que estar familiarizado con el teclado normal de una máquina de escribir (para utilizar las teclas A, B, C, D y E, así como los cursores para pasar de una pregunta a otra). Además del texto del reactivo y de las opciones de respuestas, las preguntas pueden contener: imágenes fijas a color como mapas, diagramas, gráficas y ecuaciones matemáticas; animaciones o figuras en movimiento; así como textos adicionales que, por su extensión, no quepan en el área de la pregunta. Es importante destacar que el sistema compuesto por el SICODEX y el EXHCOBA le permite al estudiante:

“Navegar” o “transitar” libremente en las preguntas del examen
Corregir, borrar y/o modificar sus respuestas
Contestar el examen total o parcialmente
Conocer sus resultados inmediatamente al terminar de responder el examen
Recibir una boleta impresa de su calificación de manera automática e inmediata

Si bien los exámenes de opción múltiple administrados por computadora representan un avance importante en el ámbito de la evaluación del aprendizaje, también es cierto que replican algunas de las limitaciones ampliamente documentadas de los exámenes estandarizados con formato de lápiz y papel. Para superar esta limitación, a partir de 2008, nos propusimos dar un salto cualitativo para acercarse a lo que se conoce como evaluación “auténtica”; es decir, aquella que le solicita al estudiante responder de la manera más natural posible, construyendo su propia respuesta y no solo seleccionándola. Por esta razón, y otras de carácter curricular, se decidió diseñar un nuevo sistema de evaluación que superara las limitaciones del SICODEX/EXHCOBA.

Con esta idea a partir de 2009 se inició el desarrollo del Examen de Competencias Básicas (Excoba) y del Generador Automático de Exámenes (GenerEx). El Excoba tiene las siguientes características: 1) contenidos alineados al currículo nacional, 2) evaluación centrada en el dominio de competencias básicas, 3) reactivos de respuesta construida, semi-construida y de múltiple selección. Para construir y administrar este nuevo examen se desarrolló el Generador Automático de Exámenes (GenerEx), que tiene la capacidad de construir cientos de familias de reactivos (y miles de reactivos equivalentes).

Es importante recordar que el diseño de una prueba dependerá del propósito que ésta persiga. Los exámenes de admisión tienen el propósito de seleccionar a los aspirantes mejor preparados. Por ello, los contenidos de dichos exámenes son muy generales y abarcan una amplia gama de conocimientos, habilidades y competencias que se supone los alumnos debieron haber adquirido durante su trayectoria escolar. Por otro lado, los exámenes de certificación tienen el propósito de identificar a las personas que poseen un determinado nivel de competencias profesionales, considerado idóneo para ejercer una profesión. Es decir, este tipo de exámenes solo determina quien cumple, o no, con los criterios establecidos. Por su parte, los exámenes diagnósticos no son de alto impacto (porque no tienen consecuencias para los individuos) y sí tienen propósitos formativos. Se diseñan con el fin de proporcionar información detallada de los estudiantes sobre un tema determinado. Por lo general, se elaboran exámenes diagnósticos para cada contenido y grado escolar, de tal manera que los estudiantes, los docentes y los centros educativos obtengan suficiente información para que se pueda definir una ruta de acción pedagógica, en cada uno de los temas evaluados, que parta del punto donde se ubica el aprendizaje del estudiante en un continuo educativo.

Informes diagnósticos del Excoba

Aunque, como ya se dijo, los exámenes de ingreso no tienen un propósito diagnóstico, cada día son más las instituciones de educación media superior y superior que solicitan aprovechar la información de los estudiantes generada con estos exámenes, para poder diseñar acciones de nivelación académica. Afortunadamente el sistema Excoba/GenerEx tiene esa posibilidad. Este sistema se compone de 320 familias de reactivos alineadas al currículo nacional que, en conjunto, pueden generar decenas de miles de ítems diferentes. Adicionalmente, muchos de los reactivos solicitan al estudiante emitir más de una respuesta para contestar una pregunta. Por ejemplo, para conocer el dominio de diversas zonas geográficas, un reactivo del Excoba le puede solicitar al estudiante que ubique en un mapamundi cinco zonas áridas (o boscosas) de mayor importancia. Así, en lugar de tener una sola respuesta, se obtienen cinco en este reactivo; esto permite conocer a mayor detalle el dominio que tiene un estudiante en el tema evaluado.

Si bien a un estudiante que ingresa a la educación superior se le administran 180 preguntas (cuyos contenidos dependen de la carrera profesional que elija), en promedio, deberá emitir alrededor de 350 respuestas. Con esta cantidad de información el Excoba/GenerEx genera información diagnóstica de cada estudiante sobre cada una de las 180 competencias que evalúa y que, de acuerdo con los especialistas, son esenciales para poder seguir aprendiendo en los grados superiores. Cada competencia se evalúa de acuerdo con una escala de cuatro niveles de logro: alto, medio alto, medio bajo y bajo. La institución educativa, además, recibe información diagnóstica sobre los diversos grupos de alumnos que le sean de interés (por ejemplo, por carrera, facultad o campus). Con esta información tan detallada, por estudiante y unidad escolar, las instituciones educativas tienen la posibilidad de tomar decisiones de manera documentada para atender a tiempo las necesidades de los estudiantes que ingresan a los distintos niveles educativos.

Conclusiones

Las instituciones educativas requieren de contar con información detallada sobre las competencias escolares con las que ingresan sus estudiantes. La evaluación del aprendizaje asistida por computadora representa el mejor instrumento para conocer las fortalezas y debilidades académicas de los estudiantes. Por ello, los exámenes de ingreso deben poder dar información diagnóstica que le sirva a las instituciones para atender las necesidades de los estudiantes y mejorar así sus procesos educativos.

Facebook Comentarios

Evaluación asistida por computadora: la apuesta de Métrica Educativa

Eduardo Backhoff

Deja un comentario Cancelar respuesta

Repetir grado en secundaria: el preocupante fenómeno que va en aumento y perpetúa la desigualdad educativa

Celebración de la Lengua Materna en Comunidades Indígenas Migrantes Multigrado de Baja California Sur

Después de Mejoredu, Veracruz encabeza la primera evaluación diagnóstica en educación básica

SEP crea Comisión Nacional de Aprendizaje Permanente para transformar la Educación Superior

Junta de Gobierno ratifica a Aguilar como rector de la UV; crece el malestar entre universitarios