A pesar de que aún tienen margen de mejora, los chatbots de inteligencia artificial continúan impresionándonos con su habilidad para mantener diálogos naturales, contestar preguntas, analizar información, y llevar a cabo diversas tareas. Sin embargo, para lograr todo esto, las empresas de IA deben entrenar exhaustivamente los modelos de lenguaje que alimentan sus aplicaciones con grandes volúmenes de datos.
Actualmente, existe controversia en torno a la transparencia de los gigantes tecnológicos que lideran el desarrollo de las soluciones más avanzadas en inteligencia artificial. Estas empresas no suelen divulgar claramente la procedencia de los datos utilizados para entrenar sus modelos. Según un informe de Proof News, compañías como Apple, Anthropic, Nvidia y Salesforce han empleado datos extraídos de YouTube en sus desarrollos de IA.
Según la investigación, la organización sin fines de lucro EleutherAI recopiló los subtítulos de 173,536 vídeos procedentes de más de 48,000 canales de YouTube. Estos datos consisten únicamente en texto sin formato obtenido de los vídeos, a menudo con traducciones a varios idiomas, y fueron compilados en un conjunto de datos denominado «YouTube Subtitles».
El conjunto de datos «YouTube Subtitles» incluye material de creadores de contenido como MrBeast y Marques Brownlee, así como de canales educativos como Khan Academy, MIT y Harvard, según se explica. Este conjunto de datos forma parte de «Pile», un conjunto de entrenamiento que consta de 22 conjuntos de datos, que también incluye material del Parlamento Europeo, Wikipedia en inglés, entre otros.
La investigación señala que Pile está disponible públicamente, lo cual ha llevado a que numerosos académicos y empresas utilicen estos datos para investigaciones relacionadas con la inteligencia artificial. En el caso de las grandes empresas tecnológicas estadounidenses mencionadas, no obtuvieron directamente los datos de YouTube, sino que utilizaron el trabajo realizado por EleutherAI para entrenar algunos de sus modelos de IA.
Fuente: Xataka |
Para leer más ingresa a: https://www.xataka.com/robotica-e-ia/apple-utilizo-datos-youtube-para-entrenar-su-ia-proof-news-desafio-para-terminos-servicio