Wietse de Vries, Yadira Navarro Rangel*
Introducción
Cuando en los años ochenta del siglo pasado se empezaron a introducir procesos de evaluación en el ámbito académico alrededor del mundo, el objetivo se consideraba bastante lógico: algo parecía andar mal en la educación superior, pero no se tenía claro a qué se debía. Así, en primera instancia, el objetivo consistía en saber, a través de mediciones, quién hacía qué, y de qué tamaño eran los problemas. En años posteriores, la evaluación cambió poco a poco de enfoque, al evaluar si se registraba algún avance, gracias a las políticas educativas instrumentadas por el gobierno nacional o institucional en turno. Finalmente, la evaluación se convirtió en un instrumento gubernamental para revisar si las universidades, y sus habitantes cumplían con los criterios o indicadores formulados por el mismo gobierno y ligados a promesas de mayor financiamiento.
Con el paso del tiempo, también se aminoró el debate sobre la idoneidad de la evaluación. Si al inicio de los noventa había sendas discusiones sobre qué es la calidad y cómo medirla, ahora la evaluación parece ser un proceso poco agradable, pero inevitable, defendido por los que salen beneficiados en estos procesos.
Pero lo anterior no implica que las dudas iniciales se hayan despejado. En retrospectiva, conviene revisar cuáles han sido realmente los efectos, positivos o negativos, de la evaluación. Haremos esto considerando tres aspectos: las metodologías, la toma de decisiones, y los resultados. La pregunta final: hasta dónde hemos llegado, y qué tendríamos que hacer en el futuro. ¿Sirve la evaluación para mejorar a la educación superior?
Evaluaciones en todas partes
Hace dos décadas, algunos estudiosos de la educación superior constataban que la universidad estudiaba cualquier fenómeno social, pero no solía estudiarse a sí misma. Dos décadas más tarde, podemos constatar que esta observación sigue siendo válida. Aunque hay más estudios educativos, los ejercicios evaluativos carecen básicamente de análisis y de métodos científicos. En estos estudios no se observa la nitidez que los caracteriza en otros terrenos.
El problema se presenta en distintos ámbitos. En el terreno internacional existe o persiste el problema de cómo comparar sistemas educativos. El asunto está muy presente en los rankings, pero también en las pruebas de aprendizaje (PISA). Una observación recurrente es que las mediciones internacionales no logran capturar la idiosincrasia mexicana (Odorika y Rodriguez, 2010).
Sin embargo, el mismo problema se presenta a nivel nacional. Amén de discusiones sobre los rankings locales, realizados por periódicos, existen evaluaciones de programas educativos, llevados a cabo por distintas agencias de evaluación o acreditación, como los Comités Interinstitucionales de Evaluación de la Educación Superior (CIEES), el Consejo para la Acreditación de la Educación (COPAES), o el Padrón Nacional de Posgrado de Calidad (PNPC). El hecho de que operen distintas agencias, con distintos marcos de referencia, y que parte importante de los programas sigan funcionando con reconocimiento formal pero sin estar acreditados, indica que se sigue careciendo de una definición de criterios con la que las instituciones deberían cumplir.
El siguiente problema se presenta en la evaluación del trabajo académico. En las tareas de investigación existe más o menos un acuerdo en el sentido de que esta actividad se mide por la cantidad de publicaciones y patentes. Pero el debate continúa sobre los criterios: hay crecientes voces que señalan que para medir la productividad, se deben considerar solamente las publicaciones en revistas indizadas y con revisión por pares.
En cambio, la evaluación de la docencia sigue siendo un terreno notoriamente complicado. Hay un gran cantidad de procesos de evaluación: para distribuir los estímulos, para el ingreso, permanencia y promoción, para otorgar el perfil PROMEP, para reconocer Cuerpos Académicos (CA), para admitir miembros al Sistema Nacional de Investigadores (SNI), para becas para estudiar un posgrado, y procesos donde los estudiantes evalúan a sus profesores.
Finalmente, existen procesos para evaluar el nivel de conocimientos de los estudiantes, empezando con los exámenes de admisión y los exámenes de egreso, aplicados por el Centro Nacional de Evaluación (CENEVAL) u otras instancias. A la par se encuentran indicadores sobre la eficiencia terminal, seguidos por otra información que mide el éxito laboral de los egresados.
Así, actualmente podemos encontrar una gran cantidad de evaluaciones, algunas parecidas a las de otros países, otras, inexistentes más allá de las fronteras.
Problemas metodológicos
Un aspecto crucial para cualquier evaluación es que todo depende de la definición de aquellos indicadores que supuestamente miden la calidad. Esta definición se asemeja a la pregunta clásica de las ciencias sociales: ¿cómo operar un fenómeno abstracto o un constructo en índices observables y medibles? (Lazarsfeld, 1979).
En el ámbito de las ciencias, esto implica que se debe desarrollar un instrumento de medición para acercarse al constructo. Como rezan los manuales metodológicos, este instrumento debe ser analizado mediante una prueba piloto para conocer su confiablidad y validez, y una vez aplicado, los resultados deben ser revisados por las mismas dimensiones (García, 2000).
No obstante, una característica sobresaliente de los instrumentos de evaluación académica es que se suelen diseñar de manera ad hoc, sin pruebas anteriores o posteriores sobre la confiabilidad y la validez del instrumento. Los instrumentos aplicados, en la forma de exámenes o tabuladores o listas de chequeo, sirven básicamente para distribuir dinero y prestigio, pero sin obedecer a las reglas metodológicas de la ciencia. Como ya observó Eric Ashby en 1963:
“All over the country these groups of scholars, who would not make a decision about the shape of a leave or the derivation of a word or the author of a manuscript without painstakingly assembling the evidence, make decisions about admission policy, size of universities, staff-student ratios, content of courses, and similar issues, based on dubious assumptions, scrappy data, and mere hunch.” (Ashby, 1963, p. 93).
Se presenta así una inconsistencia importante en la evaluación académica: mientras los académicos regañan a sus estudiantes por errores metodológicos en sus tesis, y los académicos a su vez son regañados por sus pares cuando someten artículos para su publicación, para la evaluación académica se pueden aplicar instrumentos no validados, guardar en secreto los resultados, no publicar los métodos de cálculo, no analizar los resultados, pero sí asignar recursos a partir del conteo o el puntaje.
El descuido científico es notable en distintos procesos de evaluación que están en marcha en México y otros países. En cuanto a los rankings internacionales, proliferan las noticias que indican que algunas universidades suben o bajan hasta 30 lugares, sin contemplar que las diferencias entre el lugar 110 y 140 son, estadísticamente hablando, insignificantes. (Algunos rankings ya admiten tácitamente la insignificancia estadística al catalogar y agrupar universidades en el segmento de 100 a 149, o en el 150 a 200). En la práctica, una universidad puede subir 50 lugares porque uno de sus profesores obtuvo el premio Nobel, o caer, porque algunos de sus académicos no lograron a tiempo publicar sus artículos en revistas de prestigio.
La evaluación del desempeño académico es quizá el mejor ejemplo de la falta de meticulosidad científica. ¿Cuál es la diferencia entre un SNI nivel tres y un dos? ¿Pertenecen realmente a grupos distintos? ¿Es diferente el profesor con perfil PROMEP que uno que no califica para esta distinción? ¿Cuál es la diferencia entre un nivel 6 y un 8 en el programa de estímulos?
Por su parte, la literatura sobre los exámenes de admisión revela que su utilidad como factor de predicción es sumamente limitada. (Pérez Mejías, et al., 2012). Sin embargo, las universidades han contratado los servicios de distintas agencias, con la idea de que así seleccionarán a los mejores estudiantes.
Un segundo aspecto metodológico ausente en las evaluaciones académicas concierne a la interpretación de los datos. Desde los años sesenta del siglo pasado, varios sociólogos (Lazarsfeld, 1979b; Carley, 1981) desarrollaron diversas propuestas metodológicas para analizar el comportamiento de actores sociales, a partir de encuestas y otros datos empíricos. Distintas modelaciones estadísticas permiten caracterizar a diferentes grupos dentro de una población a partir de variables latentes. A diferencia de Lazarsfeld, quien propuso diferenciar entre grupos a partir de datos empíricos, las políticas evaluativas mexicanas establecen varios grupos a priori, y nunca analizan si realmente existen.
Así, en la evaluación no reina la imaginación sociológica basada en datos empíricos, sino los esquemas rígidos de contabilidad burocrática. De modo que, de antemano se establece que el SNI consta de cuatro niveles, las becas al desempeño de nueve, los cuerpos académicos de tres y la acreditación también de tres niveles.
El uso de las evaluaciones
Como señalan Kells, de Haan y Maassen (1992), la evaluación carece de sentido si no se analizan los datos y cuando no se traduce en la toma de decisiones acerca de políticas de mejora. Sin embargo, en muchas ocasiones no existe esta cadena.
En primer lugar, destaca que las universidades y las instancias gubernamentales han recopilado grandes números de datos que nunca se analizan. Después de cada proceso de evaluación los datos van a dar a alguna bodega o, tiempos modernos, al disco duro de alguna computadora. Los informes resultantes proporcionan algunos datos básicos, como el incremento en la membresía del SNI, o el número de Cuerpos Académicos, pero no preguntan quiénes son los académicos mexicanos o cómo trabajan.
En segundo lugar, como la información es vasta pero el análisis raquítico, las decisiones se toman sobre fundamentos empíricos dudosos. Como señala Dill (2007), por la ausencia de sistemas de información confiables, el Estado, el mercado y las universidades se convierten en tres ratones ciegos cuando se trata de regular a la educación superior. Bajo estas condiciones, en el momento de tomar decisiones o de definir políticas, la información que se maneja suele reducirse a unos cuantos indicadores, generalmente aquellos definidos por el gobierno como importantes. Así, los planes de trabajo de los rectores y subsecretarios generalmente indican que las metas radican en incrementar el número de profesores de tiempo completo, miembros del SNI, y por supuesto el presupuesto. Desde esta perspectiva, la educación superior mejorará cuando se incrementen los insumos.
Sin embargo, esto lleva en repetidas ocasiones a que los indicadores se conviertan en metas a alcanzar, sin que quede claro que con esto también se mejora la calidad. También lleva a la creación de indicadores muy peculiares, como los Cuerpos Académicos. Al respecto sabemos que no existen en otros países, pero no sabemos, a partir de datos empíricos, que realmente existen en México.
En tercer lugar, las evaluaciones académicas crean la necesidad de contratar personal no académico, para capturar y ordenar la gran cantidad de datos. Esto, a su vez, implica que las evaluaciones se vuelven cada vez más costosas de implementar, sin que de ello emanen beneficios claros.
Correlaciones y contradicciones entre evaluaciones
Un tercer aspecto a considerar es que las investigaciones sobre la educación superior empiezan a revelar contradicciones entre evaluaciones, o ausencias de correlaciones entre factores o variables, lo cual pone en duda la validez de la tradicional óptica simple de que una mejora en los insumos llevará a mejores procesos que a su vez arrojarán mejores resultados.
Hay una creciente literatura, basada en datos empíricos, que señala que el perfeccionamiento de las plantas académicas no produce automáticamente mejoras en la formación del estudiante. Al comparar las calificaciones que estudiantes asignan a sus profesores al final del curso, y los reconocimientos que los académicos reciben a través de otras evaluaciones, resalta que los profesores más reconocidos o mejor remunerados no siempre reciben mejores calificaciones de sus estudiantes que los profesores de tiempo parcial, sin estímulos (de Vries, et al, 2008; Rueda, et al. 2010; Luna y Arámburo, 2013). Como señala Estévez (2009), “El doctorado no quita lo tarado”.
En cuanto a las trayectorias de estudiantes o sus decisiones de continuar o abandonar sus estudios, tampoco parecen influir las calificaciones de sus profesores. Más bien, inciden aspectos como la satisfacción con el programa de estudios, o el hecho de que el programa permite o no, combinar estudios con trabajo. Otro factor es el clima institucional, o la atención y el apoyo que reciben.
En cuanto al éxito de egresados en el mercado laboral, los factores de más incidencia son el tipo de carrera y el tipo de institución (pública o privada de élite), factores que se relacionan con los ingresos y la escolaridad de los padres (De Vries, et al., 2013).
Así, en general, las investigaciones educativas revelan que están en juego mucho más variables que influyen en el aprendizaje, pero que no son consideradas en los procesos de evaluación.
Conclusiones
La evaluación académica en México sigue siendo hoy un terreno de varias controversias y contradicciones. Una primera crítica es que varios procesos carecen de una buena fundamentación metodológica. Muchos parecen consistir en simples ejercicios de conteo, ligados a la entrega de recursos. Generalmente, no llevan a un análisis de lo que está cambiando en la educación superior. Una segunda crítica es que los resultados raras veces son considerados en el momento de tomar decisiones y formular políticas. Las distintas evaluaciones no han llevado a la existencia de un sistema confiable de información que serviría para tomar decisiones informadas. Una tercera crítica consiste en que un creciente número de investigaciones está revelando que varias suposiciones detrás de las evaluaciones no son válidas. Llama especial atención que los profesores mejor calificados en algunas evaluaciones no resultan ser los mejores en la opinión de estudiantes.
En conclusión, la evaluación académica no es la varita mágica para cambiar el sistema. Más bien, se puede convertir en un obstáculo, cuando se limita a medir hasta dónde instituciones y académicos cumplen con los criterios formulados por el Estado.
*Profesores-Investigadores. Benemérita Universidad Autónoma de Puebla
Publicado en Avance y Perspectiva