Por Sofía Contreras Roldán y Eduardo Backhoff Escudero
(Publicado originalmente en la Revista Nexos)
Las pruebas estandarizadas de rendimiento académico, que se utilizan para evaluar la calidad y progreso educativos de un país, tomar decisiones de política educativa y rendir cuentas a la sociedad, inician a nivel mundial en los años sesenta del siglo pasado. Dos proyectos que destacan por su relevancia mundial son la creación de la Asociación Internacional de Evaluación de Logro (IEA, por sus siglas en inglés) y la implementación del Programa Nacional de Progreso Educativo (NAEP, por sus siglas en inglés) de los Estados Unidos. El primer estudio internacional de matemáticas y ciencias fue realizado por la IEA en 1964 (Husen, 1967), mientras que el primer estudio nacional de NAEP fue realizado en 1969 (National Center for Education Statistics, 2012).
Sin embargo, tuvieron que pasar casi cuatro décadas para que los gobernantes y la sociedad en general pusieran interés en los resultados de las evaluaciones de logro. Esta actitud cambió con la implementación del Programa Internacional de Evaluación de Estudiantes (PISA, por sus siglas en inglés), coordinado por la Organización para la Cooperación y Desarrollo Económico (OCDE) en el año 2000. Ahora, los tomadores de decisiones y la prensa de muchos países creen firmemente que tales estudios son importantes para las reformas educativas y le ponen mucha atención cada vez que se publican sus resultados (Ben-Simon y Cohen, 2004).
De esta manera, durante los años noventa, los resultados obtenidos mediante pruebas estandarizadas se convirtieron en información sustantiva para los tomadores de decisiones en Estados Unidos, así como un indicador importante para la rendición de cuentas (Koretz, 2010). En 2002, el presidente George Bush decretó la ley federal Nochild left behind (NCLB), la cual ejerció presión a los estados para establecer estándares de desempeño para la rendición de cuentas e incrementar sus puntuaciones en las pruebas estandarizadas, año con año; asimismo, decretó cerrar las brechas educativas entre los sectores mayoritarios (blancos) y los minoritarios (afroamericanos y latinos) de la población; y condicionó el acceso de recursos federales de las escuelas a los resultados de aprendizaje obtenidos (Linn, Baker y Betebenner, 2002). Las pruebas implementadas en los estados comenzaron a tener consecuencias importantes para los alumnos, los docentes y los planteles, debido a la presión por alcanzar y superar los niveles de desempeño deseados (Heubert y Hauser, 1999; Koretz, 2010). Esto dio paso a que la rendición de cuentas fuera poco a poco sustituyendo el propósito informativo y diagnóstico de las evaluaciones de aprendizaje de gran escala (Koretz, 2010).
A través de los años, la rendición de cuentas de la evaluación de logro ha adquirido gran preponderancia debido, al menos, a tres razones: (1) el convencimiento de los países de que una mejor educación traerá un mayor desarrollo económico y una menor desigualdad social; (2) la creencia de los gobernantes y de un sector de la sociedad de que la exposición pública de los resultados educativos sirve como “motor” o incentivo, por sí mismo, para el mejoramiento de la calidad educativa; y (3) la exigencia creciente de la sociedad por conocer los resultados de los programas de gobierno, entre los que se encuentran los educativos.
Esta exigencia ha pasado rápidamente, del ámbito nacional y estatal, al de la escuela y del docente. Más aún, a la evaluación con función de rendición de cuentas (que por sí misma tiene efectos sociales) se le han asociado recientemente consecuencias de mayor impacto, tales como el otorgamiento de estímulos económicos y laborales a los maestros, el reconocimiento a las escuelas y a los estudiantes con mejores puntuaciones, o la amenaza de cerrar aquellos planteles que no presenten una mejora significativa (consultar la Ley NCLB de los Estados Unidos y el Programa de Carrera Magisterial de México).
Las pruebas de logro con funciones de rendición de cuentas se consideran evaluaciones de alto impacto por las consecuencias que están asociadas a ellas. Este tipo de evaluaciones tiende a responsabilizar a las instituciones (autoridades federales y locales, organismos descentralizados, escuelas) y a las personas (directores y docentes) de los resultados de aprendizaje de los estudiantes. En consecuencia, cuando se rinden cuentas públicamente, el prestigio social de las instituciones y de las personas “responsables” de los bajos resultados educativos se pone en entredicho (Ravela, 2006). Esta situación genera incentivos para que se “inflen” los resultados de las evaluaciones a través de una gran variedad de mecanismos, algunos muy obvios y otros más sutiles.
En el ámbito educativo, la inflación de los resultados se entiende como un crecimiento desmedido de las puntuaciones que arroja una prueba conforme se aplique a lo largo del tiempo y se mantengan las consecuencias asociadas para los involucrados (Koretz, 2010). Este fenómeno inflacionario está muy bien estudiado en distintos ámbitos de las ciencias sociales y se le conoce como corrupción de las medidas y lleva el nombre de “Ley de Campbell”, la cual afirma que: “Entre más se utilice cualquier indicador social cuantitativo para tomar decisiones sociales, más sujeto estará a las presiones de corrupción y será más propenso a distorsionar y corromper los procesos sociales que pretende monitorear” (Campbell, 1975: 35). Lo anterior sugiere que no es necesario asociar a las mediciones estímulos de cualquier naturaleza para que éstas tiendan a corromperse; basta con que haya un interés público del indicador y que éste aparezca con suficiente frecuencia en los medios de comunicación.
Diversos investigadores se han dedicado a estudiar las razones y mecanismos que hacen que los resultados presenten estas inflaciones (Koretz, Linn, Dunbar y Shepard, 1991; Heubert y Hauser, 1999; Koretz, 2005; Holcombe, Jennings y Koretz, 2012). Por lo general, señalan que la presión por obtener mejores puntuaciones (o sufrir las consecuencias implícitas) induce a que los profesores reduzcan la enseñanza del currículo a los contenidos que evalúan las pruebas, dediquen gran parte del tiempo de clase a la preparación-para-la-prueba, permitan la copia entre estudiantes o eviten que los alumnos con menor rendimiento sean evaluados.
La experiencia de México en el uso de las evaluaciones de logro para la rendición de cuentas con alcance nacional se puede ubicar a mediados de los años noventa con su participación en el proyecto TIMSS (1995), de la IEA, y con el desarrollo de las evaluaciones conocidas como Estándares Nacionales que implementó la SEP. Desafortunadamente, México se retiró del proyecto TIMSS y la SEP no publicó los resultados de las evaluaciones de Estándares Nacionales (evaluaciones que pasaron después a ser responsabilidad del INEE).
A principios de siglo aparecen en el escenario nacional tres grandes proyectos evaluativos: PISA, que se implementa por primera ocasión en el año 2000; la creación del INEE en 2002 y, con él, las evaluaciones de aprendizaje de gran escala, conocidas como Excale (Exámenes para la Calidad y el Logro Educativos), cuyos resultados se publicaron por primera ocasión en 2005; y ENLACE (Exámenes Nacionales de Logro en Centros Escolares), proyecto de la SEP que también iniciara en 2005 en educación básica (ENLACE/básica), y en 2008 para educación media superior (ENLACE/MS).
Tanto PISA como Excale son evaluaciones de bajo impacto diseñadas para aplicarse a muestras nacionales de estudiantes de manera cíclica —PISA cada tres años y Excale cada cuatro—, con propósitos meramente informativos y de rendición de cuentas a escala nacional; por su naturaleza muestral los resultados solo se publican con altos niveles de agregación: país, estados y estratos educativos. Por su parte, la prueba ENLACE fue creada para ser utilizada de manera censal y anual. A pesar de que su propósito original fue meramente informativo y pedagógico (dirigido a padres de familia, docentes y directores) en un par de años se convirtió en un instrumento de rendición de cuentas de escuelas y docentes. Los resultados de ENLACE/básica se hicieron públicos a través de rankings escolares, a los docentes se les pagó un estímulo salarial de acuerdo con los resultados de sus estudiantes,1 y a las escuelas y alumnos con mejores resultados el Presidente de la República les entregaba un reconocimiento cada año.
En estas condiciones, la publicación de resultados de la prueba ENLACE/básica tuvo un gran impacto en la sociedad y en los medios de comunicación, ya que permitía hacer todo tipo de comparaciones y ordenamientos entre las cerca de 250 mil escuelas de educación básica del país. Desafortunadamente, las altas consecuencias que se le asociaron a ENLACE/básica, tanto sociales como económicas, generaron una dinámica perversa en el sector educativo para mejorar los resultados de los estudiantes a toda costa y, con ello, aumentar el prestigio social de los planteles y la percepción económica de los docentes.
Aunque solo se tiene información anecdótica y aislada, se sabe del robo y venta de exámenes, de la copia de respuestas entre alumnos, del dictado de respuestas por parte del docente encargado del examen, de la preparación que planea la escuela para la prueba (ejemplo: jueves de ENLACE), y de la costumbre de evitar que alumnos con bajo rendimiento asistan a la escuela el día de aplicación de la prueba. Estas prácticas ocasionaron un aparente incremento de las puntuaciones de ENLACE/básica, que inexplicablemente iban mejorando exponencialmente en algunos estados, especialmente en aquellos con los rendimientos más bajos, como eran los casos de Oaxaca, Chiapas y Guerrero.
Ante las diversas denuncias y críticas de las prácticas que incentivaba la prueba ENLACE/básica, así como la pérdida de credibilidad de sus resultados, en 2013 el secretario de Educación Pública, Emilio Chuayffet Chemor, declaró la suspensión de las pruebas ENLACE/básica. Esta decisión fue apoyada por el INEE basándose en las evidencias de invalidez de los resultados que se disponían en el momento. Sin embargo, aún no existe una investigación formal que muestre el grado de inflación que han sufrido los resultados de la prueba ENLACE a lo largo del tiempo, en los distintos grados y asignaturas evaluadas. Por lo anterior, nos dimos a la tarea de estudiar el comportamiento de las puntuaciones de las tres evaluaciones que se han aplicado consistentemente en los últimos trece años en la educación obligatoria, con el objetivo de comparar la tendencia de los resultados de aprendizaje en la educación básica y media superior del país, así como documentar la posible inflación de los resultados del programa de evaluaciones de ENLACE.
Texto completo en la Revista Nexos. Click aquí.
Sofía Contreras Roldán es jefa de Proyecto en la Junta de Gobierno del INEE.
Eduardo Backhoff Escudero es consejero de la Junta de Gobierno del INEE y colaborador de Educación Futura.