La inteligencia artificial ChatGPT utiliza diversas páginas web como fuente para generar sus respuestas a las consultas de los usuarios. The Washington Post realizó una investigación para identificar estas páginas y descubrió que ChatGPT utiliza el conjunto de datos C4, el cual está compuesto por alrededor de 15.1 millones de sitios web de diferentes temas y orígenes.

Aunque no es posible identificar las páginas web exactas que utiliza ChatGPT, sí se sabe que el conjunto C4 incluye sitios relacionados con negocios, tecnología, noticias, arte, ciencia, entre otras especialidades.

Es importante señalar que muchos de los contenidos extraídos de estos sitios web están protegidos por derechos de autor. Por lo tanto, cada chatbot que utilice el conjunto C4 como fuente podría estar infringiendo esta normativa al generar respuestas a las consultas de los usuarios, incluso si se trata de una tarea escolar.

El Instituto Allen para la Inteligencia Artificial también participó en la investigación y encontró que el símbolo de copyright “©” aparece más de 200 millones de veces en el conjunto de datos C4.

Entre las páginas web de las que se extraen datos se encuentran Fool.com, Kickstarter.com y Patreon.com, en lo que respecta a contenido relacionado con negocios, aunque muchos de ellos estén protegidos por derechos de autor.

Es importante destacar que la información en internet está organizada en grandes conjuntos de datos que son visitados para extraer la información necesaria. En este caso, el conjunto C4 es utilizado por ChatGPT y otros modelos similares para generar respuestas a las consultas de los usuarios.