În ultimii doi ani, generatoarele de imagini alimentate de inteligență artificială au devenit mai accesibile, datorită disponibilității largi și scăderii barierelor tehnice în jurul acestei tehnologii. Practic, fiecare mare jucător din industria tehnologică, inclusiv Google și Microsoft, precum și numeroase startup-uri, s-au lansat în cursa pentru a obține o felie din tortul tot mai profitabil al generării AI.
Cu toate acestea, performanțele acestor generatoare de imagini nu sunt încă consistente și progresează încet. Deși calitatea generatoarelor de imagini s-a îmbunătățit treptat, progresul a fost adesea agonizant.
Dar Meta pretinde că a realizat o descoperire revoluționară.
Astăzi, Meta a anunțat CM3Leon (“chameleon” în leetspeak), un model AI despre care compania afirmă că atinge performanțe de ultim moment în ceea ce privește generarea text-imagini. CM3Leon este remarcat și prin faptul că este unul dintre primele generatoare de imagini capabile să genereze descrieri pentru imagini, punând bazele pentru modele mai avansate de înțelegere a imaginilor.
Meta a declarat: “Datorită capacităților lui CM3Leon, instrumentele de generare a imaginilor pot produce imagini mai coerente care urmează mai bine prompt-urile introduse. Credem că performanța excelentă a lui CM3Leon într-o varietate de sarcini reprezintă un pas către generarea și înțelegerea imaginilor cu o fidelitate mai mare.”
Majoritatea generatoarelor moderne de imagini, inclusiv DALL-E 2 de la OpenAI, Imagen și Stable Diffusion de la Google, se bazează pe un proces numit difuzie pentru a crea artă. În acest proces, un model învață cum să elimine treptat zgomotul dintr-o imagine de start compusă integral din zgomot, apropiindu-se treptat de promptul țintă.
Rezultatele sunt impresionante. Cu toate acestea, difuzia necesită o putere computațională ridicată, ceea ce face ca funcționarea și aplicațiile în timp real să fie impracticabile.
CM3Leon este un model bazat pe transformatori care folosește o tehnologie numită “atenție” pentru a evalua relevanța datelor de intrare, cum ar fi textul sau imaginile.
Transformatorii și celelalte particularități arhitecturale pot accelera antrenamentul modelului și îl fac mai ușor paralelizabil. În concluzie, se pot antrena transformatori tot mai mari cu creșteri semnificative ale capacității computaționale.
Meta susține că CM3Leon este chiar mai eficient decât majoritatea transformatorilor existenți și necesită cinci ori mai puțin putere computatională și un set de date de antrenament mai mic decât metodele bazate pe transformatori utilizate anterior.
Interesant este faptul că OpenAI a explorat și ei folosirea transformatorilor pentru generarea de imagini acum câțiva ani, cu un model numit Image GPT. Însă în cele din urmă s-au orientat către difuzie – și probabil vor trece la “consistență”.
Pentru antrenarea lui CM3Leon, Meta a utilizat un set de date format din milioane de imagini licențiate de la Shutterstock. Cea mai avansată versiune a lui CM3Leon construită de Meta are 7 miliarde de parametri, adică mai mult de două ori cât DALL-E 2. (Parametrii reprezintă părțile modelului învățate din datele de antrenament și definesc esențialmente abilitatea modelului de rezolvare a unei probleme, cum ar fi generarea de text sau, în acest caz, imagini.)
Un aspect cheie al performanței superioare a lui CM3Leon este o tehnică numită fine-tuning supervizat (SFT).
SFT a fost folosit cu succes pentru antrenarea modelelor care generează texte, cum ar fi ChatGPT de la OpenAI. Meta teoretizează că această tehnică poate fi utilă și când este aplicată în domeniul imaginilor. Într-adevăr, ajustarea instrucțiunilor a îmbunătățit performanța lui CM3Leon nu doar în generarea imaginilor, ci și în scrierea descrierilor pentru imagini, permițându-i să răspundă la întrebări despre imagini și să editeze imagini în conformitate cu instrucțiunile textuale (de exemplu, “schimbă culoarea cerului în albastru deschis”).
Majoritatea generatoarelor de imagini se confruntă cu dificultăți în generarea obiectelor “complexe” și prompturile de text care includ prea multe constrângeri. Însă CM3Leon nu se confruntă atât de des cu aceste probleme. Meta a exemplificat câteva cazuri în care CM3Leon a generat imagini folosind următoarele prompturi: “Un mic cactus purtând o pălărie de paie și ochelari de soare neon în Deșertul Sahara”, “O fotografie apropiată a unei mâini umane, model de mână”, “Un raton personaj principal într-un anime pregătindu-se pentru o bătălie epică cu o suliță samurai” și “Un indicator Stop în stil Fantasy cu textul ‘1991’”.
În scopul comparativ, am rulat aceleași prompturi prin DALL-E 2. Unele rezultate s-au apropiat. Dar imaginile generate de CM3Leon au fost în general mai apropiate și mai detaliate față de prompt, cel mai evident exemplu fiind semnalizarea rutieră. (Până recent, modelele bazate pe difuzie tratau relativ prost atât textele cât și anatomia umană.)
CM3Leon poate înțelege și instrucțiuni pentru a edita imagini existente.
De exemplu, folosind promptul “Generați o imagine de înaltă calitate a unei camere care are un chiuvetă și un oglinjoară, cu sticluța la poziția (199, 130)”, modelul poate genera ceva vizual coerent și “contextual adecvat” – cameră, chiuvetă, oglinjoară, sticluță etc. În schimb, DALL-E 2 nu reușește să înțeleagă nuanțele acestor prompturi, omițând adesea obiectele specificate.
Și, desigur, spre deosebire de DALL-E 2, CM3Leon poate executa o gamă largă de instrucțiuni pentru a genera descrieri scurte sau lungi și pentru a răspunde la întrebări despre o anumită imagine. În aceste aspecte, modelul performează mai bine decât chiar modele specializate de descriere a imaginilor (precum Flamingo sau OpenFlamingo), chiar dacă CM3Leon a avut mai puțin text disponibil în datele sale de antrenament.
Dar ce este cu privire la sesgurile? Modelele generative AI precum DALL-E 2 au fost găsite că susțin stereotipurile societale prin generarea de imagini care prezintă predominant bărbați albi în poziții de autoritate precum “CEO” sau “director”. Meta evită să abordeze această problemă direct și menționează doar că CM3Leon “poate reflecta orice sesguri prezente în datele de antrenament”.
Meta menționează: “Pe măsură ce industria AI continuă să evolueze, modelele generative precum CM3Leon devin din ce în ce mai sofisticate. Deși industria se află încă la început și abia acum înțelege și adresează aceste provocări, credem că transparența va fi cheia pentru accelerarea progresului.”
Meta nu a precizat dacă sau când intenționează să lanseze CM3Leon. Având în vedere controversele legate de generatorii de artă open source, nu m-aș aștepta prea curând la asta.