2023-08-14

Degeneración de las IA por el entrenamiento con datos generados

Maqueta Marroquín. Otra rotonda, de vapor.
Seguimos con el tema de la web y las inteligencias artificiales. En este caso ChatGPT will make the web toxic for its successors que vuelve a hablar del contenido generado por estas herramientas y las consecuencias de su uso.

Primero, una vez que el contenido que haya en la web tenga una parte generada, pasará a formar parte de los datos de entrenamiento del futuro, y eso provocará la degradación del contenido de manera inevitable.


But what happens when the internet becomes flooded with AI-generated content? That content will eventually be collected and used to train the next iterations of generative models. According to a study by researchers at the University of Oxford, University of Cambridge, Imperial College London, and the University of Toronto, machine learning models trained on content generated by generative AI will suffer from irreversible defects that gradually exacerbate across generations.


La cuestión es que no parece un problema fácil de resolver, porque está claro que mucho contenido generado por humanos también tendrá una parte de generación automática, como parece inevitable.

El problema es que estos modelos sobreestiman los sucesos más probables y subestiman los que lo son menos.


So they tend to over-estimate more probable events and under-estimate less probable ones, albeit by a small margin.


También hay otro fenómeno, porque las colas (esto es, los resultados poco probables) son muchos más y son datos que los modelos reales nunca producirían.


“At the same time, we discover that generated data has much longer tails, suggesting that some of the data would never be produced by the original model–these are the errors that accumulate because of the learning with generational data,” the researchers write.


La clave, nos dicen, será poder acceder a contenido genuino generado por humanos, y que esto producirá mejores inteligencias artificiales.


This means that platforms and companies that have access to genuine human-generated text will have an advantage in creating high-quality models


Pero, como decíamos antes, no parece sencillo ser capaces de generar contenido original, y diferenciarlo del generado. Tenemos un problema.


The researchers suggest taking measures to preserve access to the original data over time. However, it is not clear how to track and filter LLM-generated content at scale.



Puedes enterarte de las notas nuevas en: @reflexioneseir (Twitter), Reflexiones e Irreflexiones (Página de Facebook), Reflexiones e Irreflexiones (Canal de Telegram), fernand0 (en LinkedIn), @fernand0 (en Medium), Mastodon.

2023-08-14 16:50 | 0 Comentarios | In English, please | En PDF | Para enlazar # |
| Compartir/Share | por correo | en Twitter | en LinkedIn | en Facebook | en Google+ | en Delicious |

Referencias (TrackBacks)

URL de trackback de esta historia http://fernand0.blogalia.com//trackbacks/78758

Comentarios

<Marzo 2024
Lu Ma Mi Ju Vi Sa Do
        1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31