Elon Musk susţine că domeniul inteligenţei artificiale a ajuns la un punct critic, în care datele din lumea reală pentru antrenamentul modelelor AI au fost practic epuizate. Într-o discuţie recentă, Musk a afirmat că „am epuizat practic suma cumulativă a cunoştinţelor umane” necesare pentru dezvoltarea tehnologiilor de AI. Această opinie vine în contextul unei declaraţii similare făcute de fostul om de ştiinţă al OpenAI, Ilya Sutskever, care a subliniat că industria AI a atins „datele de vârf”, notează TechCunch.
Musk, care deţine compania xAI, a propus soluţia de a folosi date sintetice generate de AI pentru a completa golurile lăsate de datele reale. Conform acestuia, „singura modalitate de a completa [datele reale] este prin date sintetice, unde AI creează propriile date de antrenament”. Musk crede că procesul de auto-învăţare prin intermediul datelor sintetice va reprezenta viitorul dezvoltării inteligenţei artificiale.
Multe dintre companiile de top în domeniu, precum Microsoft, Meta, OpenAI şi Anthropic, folosesc deja date sintetice pentru a-şi antrena modelele AI. Gartner estimează că în 2024, 60% din datele utilizate pentru proiectele de inteligenţă artificială vor fi sintetice. De exemplu, Phi-4 de la Microsoft şi modelele Gemma de la Google au fost instruite folosind atât date reale, cât şi sintetice, pentru a îmbunătăţi performanţele.
În ciuda avantajelor economice ale datelor sintetice, există şi riscuri. Cercetările sugerează că utilizarea excesivă a acestora ar putea duce la scăderea „creativităţii” modelelor şi la creşterea părtinirii în rezultatele obţinute. De asemenea, dacă datele sintetice provin din surse cu părtiniri, modelele antrenate cu aceste date vor reflecta aceleaşi limitări, ceea ce poate compromite funcţionalitatea şi eficienţa acestora pe termen lung.