Calificará Texas pruebas escritas STAAR... ¡con IA!
El nuevo método se aplicará en las evaluaciones de este año Computadoras evaluarán respuestas de estudiantes en exámenes estandarizados
Los estudiantes que se presenten a sus exámenes STAAR esta semana serán parte de un nuevo método de evaluación de las escuelas de Texas: sus respuestas escritas en los exámenes estandarizados del Estado serán calificadas automáticamente por computadoras.
La Agencia de Educación de Texas está implementando un “motor de calificación automatizado” para preguntas abiertas en la Evaluación de Preparación Académica del Estado de Texas para lectura, escritura, ciencias y estudios sociales. La tecnología, que utiliza procesamiento de lenguaje natural, un componente básico de los chatbots de inteligencia artificial como GPT-4, le ahorrará a la agencia estatal entre 15 y 20 millones de dólares por año que de otro modo habría gastado en contratar anotadores humanos a través de un contratista externo.
El cambio se produce después de que la prueba STAAR, que mide la comprensión de los estudiantes del plan de estudios básico exigido por el Estado, fuera rediseñada en 2023. La prueba ahora incluye menos preguntas de opción múltiple y más preguntas abiertas, conocidas como elementos de respuesta construida. Después del rediseño, hay de seis a siete veces más ítems de respuesta construidos.
“Queríamos mantener tantas respuestas abiertas construidas como fuera posible, pero requieren una cantidad increíble de tiempo para calificarlas”, dijo José Ríos, director de evaluación estudiantil de la Agencia de Educación de Texas.
En 2023, Ríos dijo que TEA contrató alrededor de 6 mil anotadores temporales, pero este año necesitará menos de 2 mil.
Para desarrollar el sistema de puntuación, la TEA recopiló 3 mil respuestas que pasaron por dos rondas de puntuación humana. A partir de esta muestra de campo, el motor de puntuación automatizado aprende las características de las respuestas y está programado para asignar las mismas puntuaciones que habría dado un humano.
Esta primavera, a medida que los estudiantes completen sus exámenes, la computadora calificará primero todas las respuestas construidas. Luego, una cuarta parte de las respuestas serán repuntadas por humanos.
Cuando la computadora tiene “baja confianza” en la puntuación que asignó, esas respuestas se reasignarán automáticamente a un humano. Lo mismo sucederá cuando el ordenador encuentre un tipo de respuesta que su programación no reconoce, como por ejemplo el uso de mucha jerga o palabras en un idioma distinto al inglés.
‘Procesos muy sólidos’
“Siempre hemos tenido procesos de control de calidad muy sólidos con humanos”, dijo Chris Rozunick, director de la división de desarrollo de evaluaciones de la Agencia de Educación de Texas. Con un sistema informático, el control de calidad es similar.
Todos los días, Rozunick y otros administradores de pruebas revisarán un resumen de los resultados para verificar que coincidan con lo esperado. Además de las puntuaciones de “baja confianza” y las respuestas que no encajan en la programación de la computadora, también se entregará automáticamente una muestra aleatoria de respuestas a los humanos para que verifiquen el trabajo de la computadora.
Los funcionarios de la TEA se han resistido a la sugerencia de que el motor de puntuación sea inteligencia artificial. Puede utilizar tecnología similar a los chatbots como GPT-4 o Gemini de Google, pero la agencia ha enfatizado que el proceso contará con la supervisión sistemática de humanos. No “aprenderá” de una respuesta a la siguiente, sino que siempre se remitirá a su programación original establecida por el Estado.
“Estamos muy lejos de cualquier cosa que sea autónoma o que pueda pensar por sí sola”, afirmó Rozunick.
Pero el plan aún ha generado preocupación entre educadores y padres en un mundo todavía cansado de la influencia del aprendizaje automático, la automatización y la inteligencia artificial.
Algunos educadores de todo el estado dijeron que les tomó por sorpresa la decisión de la TEA de utilizar tecnología automatizada, también conocida como puntuación híbrida, para calificar las respuestas.
“Debería haber algún consenso sobre si esto es algo bueno o no bueno, algo justo o no justo”, dijo Kevin Brown, director ejecutivo de la Asociación de Administradores Escolares de Texas y ex superintendente de Alamo Heights ISD.
Los representantes de TEA mencionaron por primera vez el interés en la puntuación automatizada en un testimonio ante el Comité de Educación Pública de la Cámara de Representantes de Texas en agosto de 2022. En el otoño de 2023, la agencia anunció el cambio a la puntuación híbrida en una conferencia y durante la capacitación de los coordinadores de exámenes antes de publicar los detalles del proceso en diciembre.
Los resultados de las pruebas STAAR son una parte clave del sistema de rendición de cuentas que utiliza la TEA para calificar los distritos escolares y los campus individuales en una escala de la A a la F. Los estudiantes toman el examen todos los años desde tercer grado hasta la escuela secundaria. Cuando los campus dentro de un distrito tienen un desempeño deficiente en la prueba, la ley estatal permite que intervenga el comisionado de educación de Texas.
“
Estamos muy lejos de cualquier cosa que sea autónoma o que pueda pensar por sí sola”
Chris Rozunick Director de la división de desarrollo de evaluaciones de la Agencia de Educación de Texas “
Debería haber algún consenso sobre si esto es algo bueno o no bueno, algo justo o no justo” Kevin Brown Director ejecutivo de la Asociación de Administradores Escolares de Texas y ex superintendente de Alamo Heights ISD