SuperGeek.cl
Síguenos:

Meta es acusada de entrenar a su IA con contenido pirateado a través de torrent

Quién diría que este tipo de acciones tendría consecuencias legales.

Meta, empresa padre de Facebook, no está pasando por uno de sus mejores momentos. Actualmente, se enfrenta a una demanda colectiva por infracción de derechos de autor y competencia desleal en la que se le acusa de descargar casi 82 terabytes a través de torrent para entrenar a Llama, su Inteligencia Artificial (desde ahora IA, para acortar).

El proceso legal, llamado Kadrey contra Meta, acusa a la empresa de Mark Zuckerberg de usar obras protegidas por derechos de autor obtenidas de manera fraudulenta para entrenar su modelo de IA.

Para empeorar la situación, la información fue rápidamente viralizada en X (antiguamente conocida como Twitter) luego de ser publicada por el perfil vx-underground.

Los documentos judiciales adjuntados en el post muestran que Zuckerberg habría dado el visto bueno para descargar y utilizar libros pirateados, y que en una reunión habría declarado que "necesitamos avanzar con esto" o "necesitamos encontrar una manera de desbloquear todo esto", refiriéndose claramente a encontrar una forma rápida, barata y práctica para que su nuevo modelo de Llama pudiera ser superior.

"Descargar torrents desde un computador de la empresa no parece buena idea", bromeaba uno de los responsables de la recolección de datos, e indicaba que la empresa debería tener cuidado con la IP desde la que descargaban los datos, mostrando que claramente estaba al tanto de los riesgos que corrían.

En los registros se muestra que, en abril de 2023, varios empleados de Meta intercambiaban correos sobre cómo usar una VPN para ocultar las direcciones IP al descargar datos a través de torrents, mensajes donde también mencionan la necesidad de involucrar a los abogados de la compañía "por si algo salía mal".

En septiembre de 2023, el mismo trabajador que sugirió el uso de VPN advertía que usar torrents implicaba que se transformarían en "semillas" (seeds) para que otros también los descarguen, y "eso podría no estar bien legalmente", lo que demuestra que en Meta sabían que estaban realizando una actividad ilegal.

Las pruebas muestran que Meta descargó vía torrent 81,7 terabytes de datos de distintas bibliotecas y sitios que piratearon libros protegidos por derechos de autor, y se indica que al menos 35,7 de esos terabytes se habrían descargado de sitios como Z-Library o LibGen, que fue cerrado en 2024.

A pesar de la evidencia, Meta ha presentado una moción para desestimar los cargos, ya que, según ellos, no hay evidencias de que ningún libro fuera descargado por sus empleados.

Este caso solo recuerda lo difuso que son los límites sobre las prácticas de este tipo de empresas respecto al contenido que utilizan para entrenar a sus modelos de IA. Ha pasado tanto con Google como con OpenAI, quienes usaron millones de textos con copyright para entrenar a ChatGPT.

Las empresas excusan este comportamiento amparándose en el "uso justo" (fair use) del contenido disponible en línea, pero este concepto se refiere a un uso limitado y no comercial del material en cuestión, especialmente si está protegido por derechos de autor. Esto es algo que se ha explotado de manera prácticamente indiscriminada desde que las IA llegaron al uso público, especialmente en las herramientas de generación de imágenes como Midjourney, DALL-E o Stable Difusion.

Desgraciadamente, todo indica que las acusaciones y demandas por violación de copyright y derechos de autor por parte de las grandes empresas tras las inteligencias artificiales seguirán apareciendo, y es algo que no parece detenerlas ni quitarles el sueño.