| |

Los LLMs fallan en tareas complejas: el reto del contexto

En las últimas generaciones de grandes modelos de lenguaje (LLMs), como GPT-4 o Gemini 2.5, los resultados obtenidos en tareas de una sola interacción han sido francamente impresionantes. Desde redactar correos complejos hasta responder preguntas técnicas con soltura, su rendimiento ha generado una percepción pública de competencia generalizada.

Sin embargo, esa eficacia se diluye rápidamente cuando se someten a entornos conversacionales prolongados o tareas de seguimiento. Un reciente estudio de Microsoft y Salesforce lo deja claro: al pasar de una única pregunta a una secuencia de interacciones, la precisión de los modelos cae del 90% al 60%, revelando un problema estructural de coherencia y persistencia de contexto. Este desfase no solo pone en cuestión las métricas de evaluación actuales, sino que obliga a revisar las expectativas sobre su aplicabilidad real.

Conversar no es lo mismo que predecir: el reto del contexto acumulativo

Una de las principales limitaciones de los LLMs actuales es su fragilidad cuando deben sostener un hilo argumental a lo largo de múltiples turnos. A diferencia de una pregunta puntual, donde pueden ofrecer respuestas precisas e incluso brillantes, en tareas que requieren ir construyendo conocimiento —como redactar un informe o desarrollar una estrategia paso a paso— los modelos muestran una preocupante inestabilidad.

Lo he comprobado de forma reiterada: cuando intento elaborar documentos largos, me veo obligado a guardar manualmente las respuestas satisfactorias, como si fuera un editor humano asistido por una máquina con memoria volátil. Porque si al final del proceso pides una versión consolidada, el resultado suele ser decepcionante: omisiones arbitrarias, resúmenes excesivos, pérdida de criterio. Lo que debería ser una síntesis se convierte en una simplificación absurda. Esta dinámica obliga a una planificación meticulosa y a una supervisión constante, lo cual contradice la promesa de productividad que suelen asociar a estas herramientas. A medida que el volumen de información crece, también lo hace la sensación de estar caminando sobre una cuerda floja.

Evaluar con benchmarks no basta: la distancia entre laboratorio y realidad

Gran parte del prestigio de los LLMs proviene de su desempeño en benchmarks estáticos: pruebas diseñadas para medir su capacidad lingüística, razonamiento lógico o comprensión factual en condiciones controladas. Pero estos estándares, aunque útiles para comparar modelos entre sí, están lejos de reflejar los desafíos del uso cotidiano. Evaluar a un modelo solo por cómo responde a prompts aislados equivale a medir la inteligencia de una persona por sus respuestas en una entrevista de trabajo: puede parecer brillante, pero eso no garantiza que funcione en el día a día.

La mayoría de tareas reales no consisten en resolver preguntas puntuales, sino en mantener un hilo narrativo, gestionar ambigüedades o reformular objetivos sobre la marcha. En ese terreno, los LLMs siguen mostrando una falta preocupante de autoconsciencia, prudencia y memoria. Necesitamos métricas que capturen la evolución de la conversación, la consistencia semántica a lo largo del tiempo y la capacidad del modelo para reconocer lo que ignora. Sin esa perspectiva más dinámica, la IA seguirá pareciendo más capaz de lo que realmente es.

Hacia una IA robusta: del deslumbramiento a la fiabilidad conversacional

La próxima frontera de los modelos de lenguaje no está en generar textos más bonitos ni en impresionar con frases hechas, sino en sostener el contexto, detectar sus propias lagunas y gestionar conversaciones largas sin perder el hilo. Esto implica no solo ampliar la ventana de memoria, sino dotar al modelo de mecanismos para reevaluar lo dicho, pedir aclaraciones cuando hay ambigüedad y, sobre todo, no precipitarse en conclusiones. Hoy por hoy, lo contrario es la norma: modelos que parecen necesitar tener siempre la última palabra, aunque esa palabra sea incorrecta.

Lo he vivido con frecuencia: a medida que una conversación se prolonga y el volumen de información aumenta, incluso modelos avanzados como ChatGPT se tornan erráticos. El paso de la claridad al caos puede ser súbito. Gemini 2.5 ofrece más estabilidad en este terreno, lo cual resulta prometedor, pero todavía estamos lejos de un asistente que actúe como un verdadero colaborador. Para que la IA sea útil en trabajos complejos, no basta con que sepa mucho: tiene que saber mantener la compostura.

Publicaciones Similares