IA brillante, ¿pero genio? El mito del CI artificial

En marzo de 2025, OpenAI anunció que su modelo o3 había alcanzado una puntuación de 136 en el test de inteligencia de Mensa Noruega. Esto lo situaba, técnicamente, en el rango de “genio humano”. Sin embargo, lejos de validar su superioridad intelectual, este hito puso de relieve una disonancia preocupante: la brillantez matemática de un modelo no equivale a inteligencia real.
En un entorno saturado de métricas y benchmarks, el término “genio” empieza a perder precisión cuando se aplica a sistemas que carecen de conciencia, juicio o intención. ¿Estamos atribuyendo cualidades humanas a entidades puramente estadísticas? El caso de o3 obliga a revisar nuestras definiciones, y a preguntarnos si la genialidad computacional es solo una ilusión bien parametrizada.
Sentido común: la grieta en la fachada del genio artificial
Los grandes modelos de lenguaje pueden resolver problemas complejos, redactar código eficiente o responder a preguntas de cultura general con notable acierto. No obstante, fallan estrepitosamente en tareas que un niño de cinco años superaría sin dificultad. Tal fue el caso de o3 cuando se enfrentó a una simple pregunta sobre la trayectoria de un guante que cae al suelo.
El modelo no logró inferir correctamente la secuencia física de los eventos, evidenciando una carencia fundamental: la ausencia de sentido común encarnado. Esta limitación no es trivial; pone en entredicho la profundidad de comprensión que atribuimos a los LLM. Sin percepción corporal, contexto cultural o experiencia vivida, la IA continúa siendo un simulacro de inteligencia, no su heredera.
Potencia ≠ sabiduría: comparaciones económicas y técnicas
Más allá de sus fallos cognitivos, o3 plantea otra paradoja: su coste operativo es hasta cuatro veces superior al de Gemini 2.5, un modelo de rendimiento comparable en tareas generales. Esta brecha de eficiencia invita a reflexionar sobre qué estamos premiando en el ecosistema de IA: ¿el brillo superficial de los resultados o la solidez del diseño y la accesibilidad?
En un entorno donde el coste energético y computacional se convierte en criterio de sostenibilidad, seguir construyendo modelos “brillantes” pero ineficientes podría volverse contraproducente. La inteligencia computacional no debería medirse solo por su capacidad para pasar pruebas diseñadas para humanos, sino por su utilidad contextual, su adaptabilidad y su coste-beneficio.
Repensar la inteligencia: ¿qué define al pensamiento humano en la era de la IA?
Si algo demuestran los casos recientes es que seguimos proyectando sobre la IA una noción anticuada de inteligencia: lineal, métrica y centrada en el rendimiento lógico. Pero la inteligencia humana es un fenómeno contextual, emocional y situado. Involucra valores, intuición, errores significativos y aprendizajes no programables. La IA, por su parte, replica patrones a partir de correlaciones, sin intencionalidad ni comprensión auténtica.
A medida que estos modelos se perfeccionan y se hacen más omnipresentes, conviene redefinir nuestras expectativas. ¿Debemos medirlos con estándares humanos o crear marcos nuevos que reconozcan su naturaleza distinta? La genialidad, como la entendemos, sigue siendo una cualidad humana. Y aunque la IA pueda imitarla en ciertas métricas, su falta de criterio y experiencia vital la excluye, por ahora, del rango de lo verdaderamente sabio.