Tus conversaciones ya no son tuyas

A OpenAI ya no la persiguen solo los debates abstractos sobre ética o el ruido de la prensa tecnológica. Hoy se enfrenta a algo mucho más concreto: una orden judicial en Estados Unidos que le exige entregar 20 millones de conversaciones de ChatGPT al New York Times y a otros medios, como parte de una demanda por infracción de copyright.
En paralelo, un tribunal de Múnich ha dictaminado que ChatGPT violó la ley alemana de propiedad intelectual al utilizar letras de canciones protegidas sin licencia, obligando a OpenAI a pagar daños y a dejar de emplearlas sin permiso. No son dos casos aislados: son dos frentes de una misma guerra.
La tesis es sencilla, aunque incómoda: la gran batalla de la IA ya no se libra solo en torno al tamaño de los modelos o a sus nuevas funciones, sino sobre qué se puede hacer con lo que contamos a esos modelos. Los logs de conversación —lo que escribimos, lo que subimos, lo que pedimos— se han convertido en un recurso tan valioso como peligroso. Una especie de petróleo radiactivo de la economía digital: concentra poder, pero también riesgo, y nadie tiene claro quién manda realmente sobre él.
De prueba judicial a debate político: el día en que 20 millones de chats se convierten en evidencia
La demanda del New York Times contra OpenAI nació como un conflicto clásico de copyright: el periódico acusa a la compañía de haber usado sus artículos sin permiso para entrenar modelos que luego reproducen fragmentos protegidos y permiten saltarse el paywall. Hasta ahí, el guion conocido. Lo que ha cambiado el escenario es el siguiente paso: el juez acepta que una muestra de 20 millones de chats de usuarios de ChatGPT se utilice como material probatorio.
OpenAI sostiene que el 99,99 % de esas conversaciones no tiene relación con la demanda y que se trata de un “ejercicio de pesca” desproporcionado. El argumento es claro: millones de personas que nunca han citado al New York Times, ni sabían que existía este litigio, podrían ver sus diálogos anónimos revisados por abogados de un medio con el que no tienen ninguna relación directa.
En un análisis previo sobre el caso New York Times vs. OpenAI ya planteé que estas demandas no iban solo de indemnizaciones, sino de algo más profundo: la capacidad de auditar qué se ha usado para entrenar los modelos y cómo se comportan ante determinados estímulos. Aquí ese debate se amplía. Ya no se discute solo el entrenamiento; se discute si las conversaciones posteriores pueden convertirse en un campo de pruebas judicial.
Al aceptar la muestra, el juez parte de una premisa: si los datos se anonimizan y se someten a un protocolo estricto, la privacidad queda protegida. Pero este criterio plantea un conflicto de fondo. Para millones de usuarios, la cuestión no es solo si su nombre desaparece del registro, sino si es legítimo que un tercero escudriñe lo que un día creyeron estar confiando a un asistente digital y no a un tribunal.
La estrategia de reencuadre: del copyright a la privacidad (y vuelta)
Ante este escenario, OpenAI ha optado por un movimiento calculado: reencuadrar la disputa. En su comunicación pública insiste en que el problema no es solo el alcance del descubrimiento judicial, sino una amenaza a la privacidad de los usuarios, a los que presenta como “colaterales” de una demanda “excesiva” del New York Times.
El giro es hábil. Donde antes se hablaba de derechos de autor y obligaciones de licencia, ahora se habla de “confianza”, “seguridad” y “defensa de la intimidad”. OpenAI se coloca en la posición de guardián de los datos frente al intento de un medio de “husmear” en las conversaciones privadas de millones de personas. No discute solo dinero; discute principio.
Este movimiento encaja con una lógica que ya analicé en El precio del poder: la factura pendiente de la inteligencia artificial: cuando el terreno del copyright se vuelve desfavorable —sentencias adversas, acuerdos millonarios, presión regulatoria—, las grandes tecnológicas buscan refugio en el lenguaje de la responsabilidad y la protección del usuario. No es que mientan; es que eligen qué parte de la verdad les conviene enfatizar.
Mientras tanto, la sentencia alemana por el uso de letras de canciones muestra el otro lado del tablero. Allí los jueces han declarado con claridad que el entrenamiento con obras protegidas sin licencia viola la ley y que no basta con invocar complejidad técnica o aprendizaje estadístico para esquivar la responsabilidad. La consecuencia es directa: si el frente del copyright se endurece, el de los logs se vuelve más estratégico. Lo que no se pueda ganar en la disputa por los datos de entrenamiento se intentará proteger —o explotar— en la disputa por los datos de uso.
El riesgo oculto para empresas y administraciones: cuando tus borradores acaban en manos ajenas
Hasta ahora, muchos equipos de comunicación, despachos jurídicos, consultoras y administraciones han tratado los modelos públicos como una mezcla de buscador avanzado y procesador de texto. Se cargan borradores de contratos, minutas de reuniones, guiones de discursos, informes técnicos, propuestas de licitación, incluso documentos internos con anotaciones delicadas. A menudo sin una política clara sobre qué se puede introducir y qué no.
Mientras todo queda dentro del círculo funcional “usuario ↔ plataforma”, el riesgo parece asumible. Pero la orden de entregar 20 millones de chats introduce a otro actor: un tercero litigante, ajeno a la intención original del usuario, que reclama acceso a esos registros con el aval de un juez. Hoy es un grupo de medios; mañana podría ser un regulador sectorial, un competidor en un pleito comercial o una parte en un caso de responsabilidad civil.
La propia OpenAI ha reconocido, en documentos judiciales y entradas de blog, que existen segmentos de usuarios —empresa, educación, API con retención cero— excluidos de estas órdenes porque sus datos no se almacenan o se tratan en infraestructuras separadas. El mensaje implícito es evidente: quien utiliza versiones de consumo masivo acepta, de facto, un régimen de custodia más poroso.
La llamada “IA confidencial” pasa así de ser un reclamo de marketing a convertirse en una exigencia regulatoria y de cumplimiento interno. Un ministerio que trabaja los borradores de una reforma fiscal, una empresa que prueba estrategias de precios o una universidad que sube evaluaciones internas no se juegan solo una filtración accidental; se juegan que, en un litigio ajeno, sus interacciones se conviertan en material consultable por orden judicial.
La nueva frontera de la gobernanza: trazabilidad, custodia y límites del uso procesal
Todo esto nos devuelve a una pregunta incómoda: ¿quién controla realmente los logs? No solo en términos técnicos, sino jurídicos y políticos. ¿Son equiparables a correos internos de una organización? ¿Se rigen por las mismas reglas de conservación, acceso y destrucción? ¿Debe un juez poder exigirlos en bloque, aunque afecten a personas que no son parte del procedimiento?
En como Cómo la IA cambia el copyright: tres claves de fondo, ya discutí la importancia de la trazabilidad de los datos en el entrenamiento: saber de dónde procede cada fragmento usado para construir un modelo. Aquí el problema se desplaza. No se trata solo de qué datos se usaron para aprender, sino de qué datos genera la herramienta en su uso cotidiano y bajo qué condiciones se conservan, anonimizan o destruyen.
Las órdenes judiciales que obligan a retener o entregar conversaciones tensan además otras normas: las de protección de datos personales, las de secreto profesional en determinados sectores y, en Europa, un marco cada vez más estricto sobre limitación de finalidades y minimización de datos. La coexistencia de estos regímenes no está resuelta. Lo que hoy se decide en un juzgado de Nueva York o en una sala de Múnich puede convertirse en referencia tácita para otros tribunales.
De fondo late una cuestión de legitimidad: ¿puede una empresa prometer borrado, control y confidencialidad y, al mismo tiempo, preservar grandes volúmenes de datos bajo “retención legal”, listos para ser exigidos por un tribunal? La respuesta aún no está clara, pero el conflicto ya no es teórico. Es operativo.
Lo que decimos cuando creemos que nadie mira
La expansión de la IA generativa ha normalizado algo que hace pocos años habría parecido extraño: contarle a un sistema privado cosas que antes solo se escribían en un diario, se discutían en terapia o se compartían en un correo muy limitado. Problemas personales, dudas laborales, miedos financieros, decisiones sanitarias. El incremento de demandas en Estados Unidos que alegan daños psicológicos e incluso contribución al suicidio por parte de sistemas conversacionales muestra hasta qué punto estos espacios se han convertido en depositarios de vulnerabilidad humana extrema.
Cuando esos intercambios entran en la categoría de “material probatorio potencial”, el pacto implícito se rompe. El usuario deja de hablar con una máquina amparado en una sensación de intimidad digital y pasa a hablar, sin saberlo, en un entorno donde un tercero podría invocar su derecho a revisar, conservar o analizar lo dicho.
La cuestión, para organizaciones y administraciones, deja de ser abstracta. Conviene formularla sin adornos:
- ¿Tienes una política clara sobre qué puede y qué no puede introducir tu organización en modelos públicos como ChatGPT?
- ¿Quién responde si un documento sensible acaba, por vía judicial, en manos de un tercero a través de estos logs?
- ¿Sabes qué versión de la herramienta utilizas y bajo qué régimen de retención de datos se encuentra?
La gran guerra de la IA no será solo una carrera de parámetros, chips o benchmarks. Será una disputa por el control del rastro que dejamos al usar estos sistemas: por quién puede exigirlo, quién puede negarse a entregarlo y quién paga cuando esa huella se vuelve en contra de quienes la generaron.
Los modelos seguirán mejorando. Lo que está en discusión ahora es qué futuro queremos para aquello que les confiamos cuando escribimos convencidos de que nadie, salvo una máquina, nos está escuchando.