Dacă ar exista un sistem de inteligență artificială generativă care ar putea, singur, să scrie toate informațiile conținute în Wikipedia, ar fi aceeași ca și Wikipedia actuală? Răspunsul meu la această întrebare este simplu: Nu – nu ar fi la fel.
Procesul de creare liberă a cunoștințelor, de partajare a acestora și de rafinare treptată în timp, în mod public și cu ajutorul a sute de mii de voluntari, a modelat fundamental Wikipedia și celelalte proiecte Wikimedia timp de 20 de ani.
Wikipedia conține cunoștințe veridice și bazate pe surse credibile pentru că este creată, dezbatută și curatătă de oameni.
De asemenea, se bazează pe un model deschis și non-comercial, ceea ce înseamnă că accesul la Wikipedia este gratuit și disponibil pentru partajare, iar acest aspect nu se va schimba niciodată. Într-un internet inundat cu conținut generat automat de mașini, acest lucru face ca Wikipedia să devină chiar mai valoroasă.
În ultimele șase luni, publicul a fost introdus în zeci de modele mari de limbaj (LLMs), antrenate pe seturi vaste de date care pot citi, rezuma și genera text. Wikipedia este una dintre cele mai mari corpuri deschise de informații din internet, având versiuni în peste 300 de limbi. Până acum, fiecare LLM este antrenat pe conținutul Wikipedia, fiind aproape întotdeauna cea mai mare sursă de date de antrenament din seturile lor de date.
Un lucru evident de făcut cu unul dintre aceste noi sisteme este să încercăm să generăm articole Wikipedia. Desigur, oamenii au încercat acest lucru. Și, așa cum sunt sigur că mulți cititori au experimentat direct, aceste încercări evidențiază multe provocări în utilizarea LLM-urilor pentru a produce ceea ce Wikipediștii numesc cunoaștere, adică scrieri și imagini enciclopedice veridice și bazate pe surse credibile.
Unele dintre aceste probleme includ:
- Output-ul generat de LLM-uri nu este verificat faptic în prezent și deja există cazuri bine-cunoscute în care oamenii folosesc IA generativă pentru a-și îndeplini sarcinile proprii. Există situații cu riscuri reduse, cum ar fi sugestii pentru scrisori de mulțumire, planuri pentru o vacanță distractivă sau contururi pentru a începe un eseu, unde rezultatele sunt utile și nu dăunătoare. Cu toate acestea, există alte situații în care lucrurile nu stau la fel de bine – cum ar fi cazul în care un LLM a inventat cazuri judecataresti fictive și avocatul care a folosit răspunsurile într-o sală de judecată reală a fost amendat în cele din urmă. Într-o altă situație, un medic a demonstrat că un sistem de IA generativă ar oferi diagnoze proaste atunci când i se furnizau simptome de la pacienți consultați într-o sală de urgențe. Pe termen lung, presupunerea mea este că aceste sisteme se vor îmbunătăți mult și vor fi mai bine susținute într-o varietate de contexte. O posibilitate interesantă este că cererea de surse mai bune va îmbunătăți accesul la cercetare și cărți care pot fi utilizate online. Dar ajungerea acolo va dura ceva timp și probabil va necesita presiune semnificativă din partea autorităților de reglementare și a publicului pentru a se îmbunatăți în moduri care să aducă beneficii tuturor oamenilor.
- LLM-urile nu pot utiliza informații pe care nu au fost antrenate să le folosească pentru răspunsuri la solicitările primite. Aceasta înseamnă că toate cărțile din lume care nu sunt disponibile integral online, conținutul provenit din cercetarea pre-internet sau informațiile în alte limbi decât engleza nu fac parte din ceea ce “știe” un LLM tipic. Drept rezultat, seturile de date utilizate pentru antrenarea LLM-urilor pot amplifica inechitatile existente și părerea subiectivitatii in multe domenii – cum ar fi angajarea, medicina și sentințele penale. Poate că într-o zi acest lucru se va schimba, dar suntem încă departe de a avea acces liber și de a antrena LLM-uri pe toate tipurile diferite de informații pe care oamenii din fiecare limbă le utilizează în prezent pentru a scrie pentru Wikipedia. Și chiar și atunci, va fi nevoie de muncă suplimentară pentru a reduce subiectivitatea.
- S-a demonstrat că LLM-urile antrenate pe rezultatele altor LLM-uri devin mai slabe și chiar uită lucruri pe care le-au “știut” odată, o afecțiune numită “colapsul modelului”. Acest lucru înseamnă că pentru ca LLM-urile să fie bune și să devină mai bune, vor avea nevoie de un flux constant de conținut original, scris de oameni, ceea ce face ca Wikipedia și alte surse de conținut generate de oameni să fie chiar mai valoroase. De asemenea, companiile mondiale de AI generativ trebuie să găsească modalități de a menține sursele originale ale conținutului uman, elementul cel mai critic al ecosistemului nostru informațional, sustenabile și în creștere în timp.
Acestea sunt doar câteva dintre problemele pe care trebuie să le rezolvăm pe măsură ce utilizatorii internetului explorează modul în care pot fi utilizate LLM-urile. Credem că utilizatorii internetului vor acorda o valoare tot mai mare surselor de informații de încredere, care au fost verificate de oameni. Principiile Wikipedia și experiențele noastre rezultate din peste un deceniu de utilizare a învățării automate pentru a sprijini voluntarii umani oferă lecții valoroase în acest viitor.
Principii pentru utilizarea IA generative Conținutul generat automat și instrumentele de învățare automată nu sunt noi pentru Wikipedia și alte proiecte Wikimedia. La Fundația Wikimedia, am dezvoltat instrumente de învățare automată și AI pe aceleași principii care au făcut din Wikipedia o resursă atât de utilă pentru atât de mulți: prin centrarea moderarii conținutului condus de oameni și guvernarea umană.
Continuăm să experimentăm noi modalități de a răspunde nevoilor de cunoaștere ale oamenilor în mod responsabil, inclusiv cu platforme AI generative, având ca scop aducerea contribuțiilor umane și reciproce la prim-plan. Editorii Wikipedia sunt cei care controlează tot conținutul generat automat – ei îl editează, îl îmbunătatesc și îl verific informatia furnizată automat (AI), iar ei creează politici și structuri pentru a guverna instrumentele machine learning folosite pentru a genera conținutul Wikipedia.
Aceste principii pot constitui un punct bun de plecare pentru utilizarea modelelor actuale și emergente de limbaj mare.
Sustenabilitatea Tehnologia AI generativă are potențialul de a afecta negativ motivația umană de a crea conținut. Pentru a păstra și încuraja mai multe persoane să contribuie la cunoștințele comune, LLM-urile ar trebui să caute să întărească și să susțină participarea umană în dezvoltarea și crearea cunoștințelor.
Ele nu ar trebui niciodată să împiedice sau să înlocuiască crearea umană de cunoștințe. Acest lucru se poate realiza menținând mereu implicarea oamenilor și atribuindu-le corect contribuțiile lor.
Sprijinirea continuă a oamenilor pentru partajarea cunoștințelor este în concordanță cu misiunea strategică a mișcarii Wikimedia și va fi necesar pentru a continua extinderea ecosistemului nostru global de informații, care reprezintă baza actualizată pe care se bazează LLM-urile.