SuperGeek.cl
Síguenos:

Miles de películas y series fueron usadas para entrenar a las IA

¡Sin autorización! Incluyendo 616 episodios de Los Simpson y todas las temporadas de Breaking Bad.

No existe duda de que todos los modelos de inteligencia artificial (IA) no son inteligentes por sí solos y necesitan aprender de alguna parte. El problema es que este entrenamiento suele realizarse de forma poco transparente, utilizando una inmensa cantidad de datos protegidos por derechos de autor.

Ahora, una reciente investigación del medio estadounidense The Atlantic reveló lo que era un secreto a voces: las grandes empresas tecnológicas, como Apple, Anthropic, Meta, Nvidia, Salesforce y Bloomberg, han recopilado sin autorización los diálogos de miles de películas y series de televisión para entrenar a sus herramientas de IA generativa.

Eso explica que estos grandes modelos de lenguaje (LLM, por sus siglas en inglés) puedan imitar con tremenda exactitud a series como Los Soprano o Los Simpson.

La investigación concluyó que más de 53.000 películas y 85.000 episodios de televisión fueron utilizados para entrenar a estos modelos de IA. Los diálogos de todos estos títulos se encuentran en un conjunto de datos al que los gigantes tecnológicos han accedido para el desarrollo de sus chatbots.

Tras acceder al mencionado conjunto de datos, en la investigación se determinó que incluye los diálogos de todas las películas nominadas a la mejor película en los Premios Oscar desde 1950 hasta 2016, al menos 616 episodios de Los Simpson, 170 episodios de Seinfeld, 45 episodios de Twin Peaks y todos los episodios de Breaking Bad, The Wire y Los Soprano.

Por si fuera poco, se incluyen los diálogos "en directo" de las transmisiones de los Globos de Oro y los Oscar.

¿De dónde obtuvieron estos datos para entrenar los chatbots?

La investigación también confirmó la procedencia de todo este material, proveniente de archivos de subtítulos extraídos de DVDs, discos Blu-ray y streams de Internet.

Por muy "extraño" que sea el origen de los datos para el entrenamiento de la IA, el escritor freelance, programador y consultor técnico que realizó la indagación, Alex Reisner, explicó que "los subtítulos son valiosos porque son una forma bruta de diálogo escrito".

"Contienen los ritmos y estilos de la conversación hablada y permiten a las empresas tecnológicas ampliar el repertorio de la IA generativa más allá de los textos académicos, el periodismo y las novelas, que también se han utilizado para entrenar estos programas", sentenció.