Will we run out of data?An analysis of the limits of scaling datasets in Machine Learning
Pablo Villalobos, Jaime Sevilla, Lennart Heim, Tamay Besiroglu, Marius Hobbhahn, Anson Ho
Publikationsdatum:
|
|
Dieses Biblionetz-Objekt existiert erst seit April 2024.
Es ist deshalb gut möglich, dass viele der eigentlich vorhandenen Vernetzungen zu älteren Biblionetz-Objekten bisher nicht erstellt wurden.
Somit kann es sein, dass diese Seite sehr lückenhaft ist.
Zusammenfassungen
We analyze the growth of dataset sizes used in
machine learning for natural language processing and computer
vision, and extrapolate these using two methods; using the historical
growth rate and estimating the compute-optimal dataset size
for future predicted compute budgets. We investigate the growth
in data usage by estimating the total stock of unlabeled data
available on the internet over the coming decades. Our analysis
indicates that the stock of high-quality language data will be
exhausted soon; likely before 2026. By contrast, the stock of lowquality
language data and image data will be exhausted only
much later; between 2030 and 2050 (for low-quality language)
and between 2030 and 2060 (for images). Our work suggests
that the current trend of ever-growing ML models that rely
on enormous datasets might slow down if data efficiency is not
drastically improved or new sources of data become available.
Von Pablo Villalobos, Jaime Sevilla, Lennart Heim, Tamay Besiroglu, Marius Hobbhahn, Anson Ho im Text Will we run out of data? (2022) Bemerkungen
Von Beat Döbeli Honegger, erfasst im Biblionetz am 10.04.2024
Dieser wissenschaftliche Zeitschriftenartikel erwähnt ...
Dieser wissenschaftliche Zeitschriftenartikel erwähnt vermutlich nicht ...
Nicht erwähnte Begriffe | Chat-GPT, facebook, GMLS & Bildung, Internet, reinforcement learning |
Tagcloud
Zitationsgraph
2 Erwähnungen
- Self-Consuming Generative Models Go MAD (Sina Alemohammad, Josue Casco-Rodriguez, Lorenzo Luzi, Ahmed Imtiaz Humayun, Hossein Babaei, Daniel LeJeune, Ali Siahkoohi, Richard G. Baraniuk) (2023)
- Alles überall auf einmal - Wie Künstliche Intelligenz unsere Welt verändert und was wir dabei gewinnen können (Miriam Meckel, Léa Steinacker) (2024)
- 6. Zwischen Amnesie und Autonomie - Wenn Bots mit Bots sprechen
Volltext dieses Dokuments
Will we run out of data?: Artikel als Volltext (: , 4728 kByte; : ) |
Anderswo suchen
Beat und dieser wissenschaftliche Zeitschriftenartikel
Beat hat Dieser wissenschaftliche Zeitschriftenartikel erst in den letzten 6 Monaten in Biblionetz aufgenommen. Beat besitzt kein physisches, aber ein digitales Exemplar. Eine digitale Version ist auf dem Internet verfügbar (s.o.). Es gibt bisher nur wenige Objekte im Biblionetz, die dieses Werk zitieren.