La lista de páginas web que hacen que una IA como ChatGPT parezca inteligente
The Washington Post analizó conjuntos de datos para revelar los tipos de sitios web propietarios, personales y a menudo ofensivos, que entran en los datos de entrenamiento de una IA.
Los chatbots de inteligencia artificial se han hecho muy populares en los últimos cuatro meses, maravillando al público con sus habilidades, desde escribir sofisticados trabajos hasta mantener conversaciones.
Los chatbots no pueden pensar como los humanos: en realidad, no entienden lo que dicen. Pueden imitar el habla humana porque la inteligencia artificial que los impulsa obtiene una cantidad de texto, en su mayor parte de Internet.
Este texto es la principal fuente de información de la IA sobre el mundo que está construyendo, e influye en cómo responde a los usuarios. Si, por ejemplo, aprueba el examen de acceso a la abogacía, al parecer se debe a que sus datos de entrenamiento incluían miles de páginas de práctica del LSAT.
Las empresas tecnológicas son cada vez más discretas a la hora de informar sobre cómo alimentan la IA. Así que The Washington Post analizó uno de estos conjuntos de datos para revelar completamente los tipos de sitios web propietarios, personales y a menudo ofensivos que entran en los datos de entrenamiento de una IA, indica Infobae.
Para ver al interior de esta caja negra, analizamos el conjunto de datos C4 de Google, una instantánea masiva de los contenidos de 15 millones de sitios web que se han usado para dar indormación a algunas IA de alto perfil en lengua inglesa, denominadas grandes modelos lingüísticos, entre las que se incluyen T5 de Google y LLaMA de Facebook. (OpenAI no revela qué conjuntos de datos utiliza para entrenar los modelos que respaldan su popular chatbot, ChatGPT).
El Post trabajó con investigadores del Allen Institute for AI en esta investigación y clasificó los sitios web utilizando datos de Similarweb, una empresa de análisis web. Alrededor de un tercio de los sitios web no pudieron clasificarse, sobre todo porque ya no salen en Internet.
A continuación, clasificamos los 10 millones de sitios web restantes en función del número de “tokens” que aparecían de cada uno en el conjunto de datos. Los tokens son pequeñas partes de texto que son usadas para procesar información desorganizada, normalmente una palabra o frase.
De Wikipedia a Wowhead
El conjunto de datos estaba dominado por sitios web de industrias como el periodismo, el entretenimiento, el desarrollo de software, la medicina y la creación de contenidos, lo que ayuda a explicar por qué estos campos pueden verse en peligro por la nueva ola de inteligencia artificial.
Los tres sitios más importantes fueron patents.google.com, nº 1, que cuenta con texto de patentes emitidas en todo el mundo; wikipedia.org, nº 2, la enciclopedia en línea gratuita; y scribd.com, nº 3, una biblioteca digital sólo por suscripción. También ocupa un lugar destacado en la lista: b-ok.org, nº 190, un conocido mercado de libros electrónicos pirateados que ha sido incautado por el Departamento de Justicia de Estados Unidos. Al menos otros 27 sitios identificados por el gobierno estadounidense como mercados de piratería y falsificaciones estaban presentes en el conjunto de datos.
Algunos de los principales sitios parecían arbitrarios, como wowhead.com nº 181, un foro de jugadores de World of Warcraft; thriveglobal.com nº 175, un producto para vencer el agotamiento fundado por Arianna Huffington; y por lo menos 10 sitios que venden contenedores de basura, entre ellos dumpsteroid.com nº 183, que ya no aparecen accesibles.
Otros plantearon importantes problemas de privacidad. Dos de los 100 primeros sitios, coloradovoters.info, nº 40, y flvoters.com, nº 73, cuentan con copias privadas de bases de datos estatales de registro de votantes. Aunque los datos de los votantes son públicos, los modelos podrían usar esta información personal de formas que no se sabe.
Contenido sin consentimiento
Los sitios web empresariales e industriales constituyeron la categoría más importante (16% de los tokens categorizados), encabezada por fool.com, nº 13, que brinda asesoramiento sobre inversiones. Le siguen kickstarter.com (nº 25), que permite a los usuarios financiar proyectos creativos por medio de crowdfunding, y patreon.com (nº 2.398), que ayuda a los creadores a cobrar cuotas cada mes a los suscriptores por contenidos exclusivos.
Kickstarter y Patreon pueden dar a la IA acceso a las ideas de los artistas y a sus textos de marketing, lo que hace temer que la tecnología copie este trabajo para sugerirlo a los usuarios. Actualmente los artistas no tienen compensación ni reconocimiento alguno cuando su trabajo se incluye en los datos de entrenamiento de la IA, y han presentado demandas por infracción de derechos de autor contra los generadores de texto a imagen Stable Diffusion, MidJourney y DeviantArt.
El análisis del Post sugiere que puede haber más demandas en el futuro: el símbolo de copyright -que denota una obra registrada como propiedad intelectual- aparece más de 200 millones de veces en el conjunto de datos del C4.
Todas las noticias
La categoría de noticias y medios de comunicación tiene el tercer lugar. Pero la mitad de los 10 sitios más visitados son sitios de noticias: nytimes.com nº 4, latimes.com nº 6, theguardian.com nº 7, forbes.com nº 8 y huffpost.com nº 9. (Washingtonpost.com nº 7). (Al igual que los artistas y creadores, algunas organizaciones de noticias han criticado a las empresas tecnológicas por usar sus contenidos sin permiso ni compensación).
Además varios medios de comunicación ocupan puestos bajos en la escala independiente de fiabilidad de NewsGuard: RT.com n.º 65, el sitio de propaganda ruso respaldado por el Estado; breitbart.com n.º 159, una conocida fuente de noticias y opiniones de extrema derecha; y vdare.com n.º 993, un sitio antiinmigración que se ha asociado con la supremacía blanca.
Se ha demostrado que los chatbots dan con confianza información incorrecta, pero no siempre ofrecen citas. Unos datos de entrenamiento poco confiables podrían llevar a difundir información tendenciosa, propagandística y errónea, sin que el usuario pueda ver la fuente original.
Los sitios religiosos reflejan una perspectiva occidental
Los sitios dedicados a la comunidad representaron aproximadamente el 5% del contenido categorizado, con la religión dominando esa categoría. Entre los 20 principales sitios religiosos, 14 eran cristianos, dos judíos y uno musulmán, uno mormón, uno de los Testigos de Jehová y uno de todas las religiones.
El primer sitio cristiano, Grace to You (gty.org nº 164), pertenece a Grace Community Church, una megaiglesia evangélica de California. Christianity Today informó hace poco de que la iglesia aconsejaba a las mujeres “seguir sometiéndose” a padres y maridos maltratadores y evitar denunciarlos a las autoridades.
El sitio judío mejor clasificado fue jewishworldreview.com nº 366, una revista en línea para judíos ortodoxos. En diciembre, publicó un artículo sobre Hanukkah en el que culpaba del aumento del antisemitismo en Estados Unidos a “la extrema derecha y el islam fundamentalista”, así como a “una comunidad afroamericana influida por el movimiento Black Lives Matter”.
El sesgo antimusulmán ha surgido como un problema en algunos modelos lingüísticos. Por ejemplo, un estudio publicado en la revista Nature descubrió que ChatGPT-3 de OpenAI completaba la frase “Dos musulmanes entraron en un...” con acciones violentas el 66 por ciento de las veces.
Un tesoro de blogs personales
La tecnología es la segunda categoría más importante, con un 15% de los tokens categorizados. Esto incluye varias plataformas para generar sitios web, como sites.google.com nº 85, que aloja páginas de todo tipo, desde un club de judo en Reading, Inglaterra, hasta un preescolar católico en Nueva Jersey.
El conjunto de datos contenía más de medio millón de blogs personales, que representaban el 3,8% de los tokens categorizados. La plataforma de publicación medium.com, nº 46, fue el quinto mayor sitio tecnológico y alberga decenas de miles de blogs bajo su dominio. Nuestro recuento incluye blogs escritos en plataformas como WordPress, Tumblr, Blogspot y Live Journal.
Estos diarios en línea iban de lo profesional a lo personal, como un blog llamado “Grumpy Rumblings”, coescrito por dos académicos que se mantienen de manera anónima, uno de los cuales escribió hace poco sobre cómo el desempleo de su pareja afectaba a los impuestos de ambos. Uno de los blogs más visitados ofrecía consejos sobre juegos de rol. Otro de los principales sitios, Uprooted Palestinians, escribe a menudo sobre el “terrorismo sionista” y “la ideología sionista”.
Las redes sociales como Facebook y Twitter -el corazón de la web moderna- prohíben el scraping, lo que significa que la mayoría de los conjuntos de datos que se usan para entrenar la IA no pueden acceder a ellas. Gigantes tecnológicos como Facebook y Google, que cuentan con ingentes cantidades de datos de conversaciones, no han dejado claro cómo puede utilizarse la información personal de los usuarios para entrenar modelos de inteligencia artificial que se usan para vender productos.
Lo que los filtros pasaron por alto
Como la mayoría de las empresas, Google filtró en gran medida los datos antes de alimentar a la IA. (C4 son las siglas de Colossal Clean Crawled Corpus). Además de eliminar galimatías y texto duplicado, la empresa hizo uso de la “Lista de palabras sucias, obscenas, malsonantes y de otro tipo” de código abierto, que incluye 402 términos en inglés y un emoji (una mano haciendo un gesto común pero obsceno). Las empresas por lo regular suelen utilizar conjuntos de datos de alta calidad para afinar los modelos, protegiendo a los usuarios de algunos contenidos no deseados.
Aunque este tipo de lista de bloqueo pretende poner límites la exposición de un modelo a insultos racistas y obscenidades mientras se entrena, también se ha revelado que elimina algunos contenidos LGBTQ no sexuales. Como han demostrado investigaciones anteriores, hay muchas cosas que se escapan a los filtros. Encontramos cientos de ejemplos de sitios web pornográficos y más de 72 mil casos de “esvástica”, uno de los términos prohibidos de la lista.
Mientras tanto, The Post encontró que los filtros no quitaban algunos contenidos preocupantes, como el sitio de supremacía blanca stormfront.org nº 27.505, el sitio antitrans kiwifarms.net nº 378.986 y 4chan.org nº 4.339.889, el tablón de mensajes anónimos conocido por organizar campañas de acoso selectivo contra individuos.
También encontramos threepercentpatriots.com n.º 8.788.836, un sitio caído que propugna una ideología antigubernamental compartida por personas acusadas en relación con el atentado del 6 de enero de 2021 contra el Capitolio de Estados Unidos. Del mismo modo había sitios que promovían teorías conspirativas, como el fenómeno de extrema derecha QAnon y el “pizzagate”, la falsa afirmación de que una pizzería de Washington D.C. era una tapadera de pedófilos.
¿Está su sitio web entrenando a la IA?
Un rastreo web puede parecer una copia de todo Internet, pero no es más que una instantánea que captura el contenido de una muestra de páginas web en un momento determinado. C4 comenzó como un scrape realizado en abril de 2019 por la organización sin ánimo de lucro CommonCrawl, un recurso popular para modelos de IA. CommonCrawl dijo a The Post que intenta priorizar los sitios más importantes y de mayor reputación, pero no intenta evitar el contenido con licencia o con derechos de autor.
Aunque C4 es enorme, los grandes modelos lingüísticos probablemente utilizan conjuntos de datos todavía más grandes, según señalan los expertos. Por ejemplo, los datos de entrenamiento de GPT-3 de OpenAI, lanzado en 2020, empezaron con una cantidad de datos web 40 veces por arriba a la de C4. Los datos de entrenamiento de GPT-3 también incluyen toda la Wikipedia en inglés, una colección de novelas gratuitas de autores inéditos usada con frecuencia por las grandes empresas tecnológicas y un conjunto de texto de enlaces muy valorados por los usuarios de Reddit. (Reddit, un sitio utilizado por lo regularen los modelos de entrenamiento de IA, anunció el martes que planea cobrar a las empresas por dicho acceso).
Los expertos dicen que muchas empresas no documentan el contenido de sus datos de entrenamiento por temor a encontrar información personal sobre individuos identificables, material protegido por derechos de autor y otros datos obtenidos sin permiso.
Mientras las empresas insisten en los retos que supone explicar cómo toman decisiones los chatbots, este es un ámbito en el que los ejecutivos tienen el poder de ser transparentes.
Sigue nuestro canal de WhatsApp
Recibe las noticias más importantes del día. Da click aquí
Te recomendamos
Esta es la mejor película LGBTQI+, según ChatGPT
Disney y Universal demandan a esta página de IA por “robar” a sus personajes más icónicos, para crear ‘nuevas’ imágenes y videos: “Piratería es piratería”
Hong Kong impulsa diagnóstico temprano de alzhéimer con IA que analiza la retina
Streamer mexicana Alana Flores podría tomar acciones legales contra foto alterada con IA