ia

La UE obliga a ChatGPT y Claude a 'olvidarte' en agosto: qué es el Machine Unlearning y por qué tus datos en México están en el centro

ia · 6 min de lectura

La UE obliga a ChatGPT y Claude a 'olvidarte' en agosto: qué es el Machine Unlearning y por qué tus datos en México están en el centro

El 2 de agosto de 2026 el EU AI Act entra en vigor completo y obliga a implementar 'machine unlearning': borrar datos de usuarios de modelos ya entrenados. El problema técnico es casi imposible, y México no está exento.

La UE obliga a ChatGPT y Claude a 'olvidarte' en agosto: qué es el Machine Unlearning y por qué tus datos en México están en el centro

El 2 de agosto de 2026 llega la fecha que los equipos legales de OpenAI, Anthropic y Google llevan meses temiendo: el EU AI Act entra en vigor pleno. Y con él, una obligación que suena simple en papel pero es casi imposible técnicamente: si un ciudadano europeo pide que borren sus datos de un modelo de IA, la empresa tiene que hacerlo.

El problema es que nadie sabe muy bien cómo.

Qué es el Machine Unlearning y por qué importa

En una base de datos normal, borrar tu información es fácil: DELETE FROM users WHERE id = tuID. Hecho. Pero en un modelo de lenguaje como GPT-5 o Claude, tus datos no están guardados en una tabla. Están “disueltos” en billones de parámetros, entretejidos con millones de otros datos de entrenamiento.

El machine unlearning es el proceso técnico de quitar la influencia que ciertos datos tuvieron en un modelo ya entrenado, sin tener que reentrenar todo desde cero. Y la palabra clave ahí es “sin tener que reentrenar todo”, porque reentrenar un LLM moderno cuesta millones de dólares y semanas de cómputo.

Piénsalo así: imagina que tienes un brazo mecánico que aprendió a agarrar objetos viendo 10 millones de videos, incluidos 50 videos tuyos que nunca autorizaste. Borrar los videos originales no cambia lo que ya aprendió el brazo. Para “des-aprender” esos 50 videos tendrías que modificar miles de conexiones neuronales… pero esas conexiones también guardan lo que aprendió de todos los demás videos. Tocar una cosa rompe otra.

Como lo describe el European Data Protection Board en su Opinion 28/2024: la influencia de los datos de entrenamiento “está distribuida a través de todo el espacio de parámetros, entrelazada con cada otro ejemplo de entrenamiento.” Y en el peor caso, si el procesamiento original fue ilegal, la EDPB advierte que la solución puede ser borrar el modelo entero.

Los enfoques técnicos que existen (y sus limitaciones)

Hay cuatro caminos técnicos principales que se están investigando:

MétodoCómo funcionaProblema
Gradient subtractionDeshace el aprendizaje de datos específicos sin reentrenarNo da garantías formales
Influence functionsMide cuánto influyó cada dato en las prediccionesMuy caro computacionalmente, falla a escala
SISA trainingDivide los datos en fragmentos para poder borrar uno soloRequiere rediseñar la arquitectura desde cero
Reentrenamiento completoPreciso, funcionaCuesta millones de dólares y semanas

El propio EDPB reconoce que los métodos de unlearning “son resultado de investigación en etapa temprana” y que todavía necesitan mejoras significativas. No es un problema resuelto.

Hay señales de avance: en agosto de 2025 (28 de agosto), UC Riverside anunció un método de source-free machine unlearning. El paper fue presentado en julio de 2025 en la International Conference on Machine Learning. Opera sin necesitar los datos de entrenamiento originales, usando un dataset sustituto para guiar una actualización de Newton al modelo seguida de ruido calibrado. Dicen lograr resultados comparables al reentrenamiento completo con una fracción del cómputo. Prometedor, pero no está en producción masiva todavía.

Por qué el EU AI Act importa aunque estés en México

Aquí viene el pedo que mucha empresa mexicana no ha visto venir: el EU AI Act tiene alcance extraterritorial.

Aplica a cualquier proveedor o empresa que ofrezca sistemas de IA en la UE, independientemente de dónde esté ubicado. Si tu empresa tiene clientes europeos, o procesa datos de operaciones en Europa aunque sea indirectamente, entra en el radar.

Pero hay más: toda empresa mexicana que use ChatGPT, Claude o Gemini con datos de clientes está creando lo que los abogados llaman una relación “deployer-provider”. Las obligaciones principales caen en OpenAI/Anthropic/Google, pero tú como deployer tienes que: informar a tus usuarios que están interactuando con IA, garantizar uso responsable, y poder demostrar que puedes atender solicitudes de borrado.

Italia ya le puso una multa de 15 millones de euros a OpenAI en diciembre de 2024 por violar el GDPR en el entrenamiento de ChatGPT, específicamente por no tener base legal suficiente para procesar datos personales. Y 30 autoridades de protección de datos participaron en la acción coordinada de 2024 (CEF 2024). Para 2026, serán 25 autoridades las que participarán en la nueva acción coordinada (CEF 2026).

En México, la nueva LFPDPPP entró en vigor en marzo de 2025 y ya incluye derechos ARCO extendidos para procesamiento automatizado con IA. Las multas van de 100 a 320,000 UMAs, y se duplican para datos sensibles. El organismo que ahora supervisa esto es la Secretaría Anticorrupción y Buen Gobierno (que reemplazó al INAI).

Si usas herramientas de IA en tu empresa con datos de clientes mexicanos y no tienes un aviso de privacidad actualizado que lo contemple, ya estás en incumplimiento.

Qué puedes hacer ahorita (sin esperar al agosto)

El principio más útil que da la industria es también el más obvio: la mejor solución al machine unlearning es no necesitarlo nunca. Si los datos personales nunca entran a un modelo en forma identificable, no hay nada que des-aprender.

Eso se traduce en cuatro acciones concretas:

  1. Data provenance tracking: lleva un registro de exactamente qué datos usaste para entrenar o fine-tunear qué modelos. Si algún día necesitas borrar algo, necesitas saber qué tocó qué.

  2. Pipelines de anonimización: agrega los datos personales antes de que lleguen a sistemas de entrenamiento. Los estándares recomiendan cohorts mínimos de 50+ usuarios para campañas y k-anonimato k=10 para datos de navegación.

  3. Erasure handlers: implementa flujos de borrado completos que evalúen el impacto en modelos, no solo en bases de datos.

  4. Arquitectura SISA-ready: si estás entrenando modelos propios (fine-tuning incluido), estructura tus datos en fragmentos para poder borrar uno sin tocar los demás.

Si ya usas modelos de terceros como ChatGPT o Claude, el análisis comparativo de servicios de IA que publicamos en marzo te ayuda a entender qué procesa cada uno y bajo qué términos. Y si quieres evitar el pedo de las nubes europeas desde el inicio, siempre está la opción de correr tu propia IA local con Ollama o LM Studio: si los datos no salen de tu servidor, el problema se simplifica bastante.

El fondo del asunto

La regulación está llegando más rápido que la técnica. El EU AI Act asume que el machine unlearning es un problema resuelto o al menos resoluble, y les da a las empresas hasta agosto para tener un plan. La realidad es que los investigadores todavía están trabajando en los fundamentos.

Lo que sí es claro: así como ya vimos que Google quiere acceder a tus datos de Gmail y fotos bajo el paraguas de “inteligencia personal”, el apetito de los modelos de IA por datos personales no va a parar. La pregunta es si la infraestructura legal y técnica va a poder mantener el ritmo.

Mientras tanto, agosto se acerca. Y ninguna empresa, ni en Europa ni en México, debería estar esperando a última hora para revisar cómo maneja sus datos con IA.

¿Tu empresa ya tiene un plan para manejar solicitudes de borrado en sistemas de IA? Cuéntame cómo lo están manejando en los comentarios.

Fuentes

Comentarios

No te pierdas ningún post

Recibe lo nuevo de Al Chile Tech directo en tu correo. Sin spam.

También te puede interesar