Nota publicada: 2025-11-19
Hace unos meses a un grupo de investigadores españoles se les ocurrió poner a prueba a un chatbot de IA con una prueba curiosa. Subieron al chatbot una imagen de un reloj analógico y le preguntaron a la IA un simple "¿Qué hora es en ese reloj?". La IA falló de forma inquietante.
Máquina, ¿me dices la hora? Los investigadores de la Universidad Politécnica de Madrid, la Universidad de Valladolid y el Politecnico de Milano firmaron hace un mes un estudio en el que quisieron evaluar cómo de inteligente era la inteligencia artificial de esos modelos. Para ello construyeron un gran conjunto de imágenes sintéticas de relojes analógicos —disponibles en Hugging Face— en los que se mostraban 43.000 horas distintas.
Resultado desastroso. A partir de ahí fueron preguntando a cuatro modelos de IA generativa qué hora mostraban esas imágenes de esos relojes analógicos. Ninguno de ellos logró decir la hora de forma precisa. Ese grupo de modelos estaba compuesto por GPT-4o, Gemma3-12B, LlaMa3.2-11B y QwenVL-2.5-7B, y todos ellos tuvieron serios problemas para "leer" la hora y diferenciar por ejemplo las manecillas o el ángulo y dirección de esas manecillas en relación a los números marcados en el reloj.
Ajuste fino para mejorar. Tras esas primeras pruebas, el grupo de investigadores logró mejorar de forma notable el comportamiento de esos modelos tras realizar un ajuste fino: los entrenaron con 5.000 imágenes adicionales de ese conjunto de datos y luego volvieron a evaluar el comportamiento de los modelos. Sin embargo los modelos volvieron a fallar de forma consistente cuando los probaron con un conjunto distinto de imágenes de relojes analógicos. La conclusión estaba clara.
Si hacen esto con relojes, imagina con análisis médicos. El peligro de estas conclusiones es que vuelven a detonar el debate sobre si los modelos de IA generativa son ciertamente artificiales y generativos, pero no demasiado inteligentes. Si tienen estas dificultades para identificar las manecillas o sus orientaciones, la cosa es peligrosa si lo que tienen que analizar los modelos son imágenes médicas o, por ejemplo, imágenes en tiempo real de un coche autónomo circulando por una ciudad.
Las IAs son tontísimas. Aunque es cierto que los modelos de IA generativa son fantásticos como ayuda en diversos escenarios como la programación, la realidad es que lo que hacen es "regurgitar" respuestas que ya forman parte de sus datos de entrenamiento. Como explicaba Thomas Wolf, Chief Science Officer de Hugging Face, una IA generativa "nunca va a preguntarse cosas que nadie había pensado o que nadie se había atrevido a preguntar". Aunque gracias a su descomunal memoria y entrenamiento pueden recuperar multitud de datos y presentarlos de formas útiles, que encuentren soluciones a problemas para los que no han sido entrenados es muy complicado. Para expertos como Yann LeCun la realidad es clara: la IA generativa es tontísima y, además, un callejón sin salida.