La IA a examen: así fue evaluada una inteligencia artificial en la prueba de filosofía del bachillerato francés

Una IA se enfrenta al examen de filosofía del Bac francés: conoce cómo la evaluó una profesora, los errores detectados y las diferencias con otras IA.

Jun 25, 2025 - 05:25
 0
La IA a examen: así fue evaluada una inteligencia artificial en la prueba de filosofía del bachillerato francés

Examen de filosofía con IA

En los últimos días, un curioso experimento educativo en Francia ha puesto a prueba las capacidades reales de la inteligencia artificial para enfrentarse a los exámenes de filosofía del bachillerato, el conocido Bac. El detonante fue una pregunta abierta: ¿Es la verdad siempre convincente? Una cuestión típica de las pruebas de acceso universitario y que mide la madurez argumentativa de los estudiantes justo al final de la secundaria.

France 3 Hauts-de-France, una cadena pública, decidió encargar a ChatGPT la redacción de un ensayo como si lo hiciera un alumno aspirante a la nota máxima. ¿El objetivo? Comprobar hasta qué punto una IA puede superar el filtro del profesorado y las herramientas de corrección automática.

La propuesta a ChatGPT y el criterio docente

Para imitar la situación real, se le proporcionó a la IA un prompt detallado: debía adoptar el estilo y estructura de un estudiante de último curso, organizar el texto en introducción, desarrollo y conclusión, y abordar todos los matices del tema.
Cuando se presentó la respuesta generada, a primera vista la redacción parecía académicamente correcta: frases fluidas, ausencia de errores ortográficos y una estructura clara. Sin embargo, la impresión inicial se desmoronó al analizar el contenido más a fondo.

La profesora de filosofía encargada de corregir el ensayo lo calificó con un 8 sobre 20. ¿Por qué tan baja nota? Principalmente, porque detectó una falta de profundidad en los argumentos, ausencia de ejemplos y, sobre todo, un giro inesperado en la formulación de la pregunta: la IA pasó de responder a «¿Es la verdad siempre convincente?» a plantear «¿Es la verdad suficiente para convencer?». Para la docente, este cambio evidenciaba que el sistema no había entendido del todo la consigna original, un error relevante en este tipo de pruebas.

Otro aspecto negativo señalado fue la tendencia de ChatGPT a repetir fórmulas estándar y evitar la reflexión personal, lo que hizo que el resultado fuera demasiado superficial respecto a lo que se espera de un estudiante bien preparado.

Otros sistemas de IA y las diferencias de criterio

El examen no se quedó en la opinión de la profesora. El texto generado por ChatGPT fue evaluado también por distintas IA, entre ellas Gemini, Perplexity, DeepSeek y Copilot. Todas ellas coincidieron en dar puntuaciones mucho más elevadas: entre 15 y 19,5 sobre 20.

¿A qué se debe esta diferencia tan llamativa? Las plataformas automáticas destacaron la buena estructura formal del ensayo y la coherencia superficial, pero ninguna detectó el error clave en la comprensión del tema ni la falta de concreción argumentativa identificada por la docente. Es más, la propia ChatGPT se autoevaluó con 19,5/20, mostrando una escasa autocrítica.

Para la profesora, todo esto confirma que las IA pueden cumplir bien requisitos mecánicos —redacción ordenada, conectores, ejemplos básicos—, pero son incapaces de profundizar, matizar o captar los matices conceptuales y filosóficos que se exigen en estos ejercicios.

Reflejo de los límites actuales de la IA en la educación

Este caso ha servido para poner sobre la mesa los límites actuales de la inteligencia artificial cuando se trata de reflexión filosófica y análisis crítico. Aunque programas como ChatGPT gestionen muy bien los aspectos formales y logren textos convincentes en apariencia, la capacidad para argumentar, cuestionar o aportar puntos de vista propios sigue siendo muy inferior a la del estudiante real.

El ensayo valorado, más allá de las palabras bien encadenadas, no demostró un razonamiento original ni respondió con precisión a lo solicitado. La docente comentó que un alumno habría pensado en todo lo que falta y lo habría hecho mucho mejor.

Por otro lado, el hecho de que las herramientas de IA den notas tan favorables a los textos generados por otra IA pone en evidencia la existencia de sesgos en los sistemas automáticos de evaluación, que priorizan la forma sobre el fondo y son menos exigentes en el análisis conceptual.