Ideea JEPA este că nu trebuie să reproduci ceva pentru a-l înțelege, în același mod în care creierul nostru nu prezice lumea generând-o.
Principiile din spatele JEPA
În schimb, JEPA adoptă o abordare mai „umană”: face predicții în spațiul de reprezentare, în acest spațiu abstract care ne permite să ne imaginăm lucruri.
Ceea ce înseamnă acest lucru este că acest model nu este generativ (nu este un model AI generativ), în sensul că nu generează nimic și face în schimb toate predicțiile pe plan intern, similar cu modul în care prezicem în mintea noastră – ne putem imagina – ce se va întâmpla cu o minge aruncată în aer și în mod similar cu modul în care ne putem imagina un copac lovit de fulger fără a fi nevoie să desenăm scena.
Dar ce rost are să faci asta?
Simplu, simplificăm predicția. Deoarece nu forțăm modelul să prezică ce se va întâmpla lângă minge, trebuind să generăm fiecare detaliu al secvenței de cădere, modelul îl poate prezice intern și se poate concentra doar pe caracteristicile grosiere (că mingea va cădea și va lovi podeaua) și nu pe fiecare detaliu încă inutil (rotire, viteză de impact, umbră pe care o generează și multe altele).
Cu alte cuvinte, un model poate învăța ce se va întâmpla cu acea minge fără a fi nevoie să învețe să genereze întreaga lume în jurul acelei mișcări, ceea ce este o problemă de dificultate extremă pe care creierul nostru pur și simplu nu o face (pentru că nu are rost).
Dar concluzia aici este că, așa cum demonstrează mintea noastră, pentru a înțelege lumea, nu trebuie să calculați mișcarea precisă a 199.873 de frunze ale unui Dracaena cinnabari lovit de vânt la un unghi de 36,86 grade, ceea ce este unironic ceea ce cerem unui model generativ precum ChatGPT să facă.
În schimb, atâta timp cât modelul poate prezice că frunzele copacului vor pâlpâi, este mai mult decât suficient pentru a prezice consecința acelui eveniment!
În același mod, nu avem nevoie de modele mondiale care să calculeze unghiul precis de impact și consecințele unui robot umanoid care aruncă o farfurie de la 45,32 cm în sus de blatul din bucătărie; avem nevoie de modelul lumii al umanoidului pentru a ști că dacă aruncați o farfurie de la acea înălțime, probabil că se va sparge și, prin urmare, nu ar trebui să o lase sa cadă.
Nu este vorba despre crearea unui simulator de fizică al lumii; este vorba despre crearea unei „mașini de bun simț”!
Sper că vedeți ideea până acum; ceea ce implică Meta cu JEPA este că utilizarea modelelor generative ca world modele este asemănătoare cu uciderea muștelor cu gloante și că utilizarea unei abordări non-generative într-un spațiu de reprezentare simplificat permite modelului să se concentreze asupra a ceea ce contează și să ignore specificitatea inutilă.
Și cu ea, veți obține un model care:
- Este mai simplu și învață reprezentări mai bune (adică învață să se concentreze asupra lucrurilor care contează, „frunzele copacilor pâlpâie cu vântul” și nu „frunza 132.321 pâlpâie la 0,4 mph dacă vântul o lovește la 0,5 mph” ca și cum nu facem acele calcule în creierul nostru).
- Este mai mic. Modelul pe care îl prezintă are sub două miliarde de parametri, în ciuda faptului că este de ultimă generație.
- Poate fi combinat cu modele lingvistice, permițându-ne să decodificăm ceea ce spune. Cu toate acestea, modelul de limbaj este doar o modalitate prin care mașina inteligentă se poate exprima, nu motorul inteligenței.
Dar cum au antrenat acest lucru?
O abordare inteligentă de reconstrucție
Ideea din spatele video Joint-Embedding Predictive Architectures (V-JEPA) este că, în loc să instruiți modele pentru a prezice ce urmează unei secvențe, le oferiți o secvență de cadre video, le corupeți (ascunzând o parte din pixeli) și apoi cereți modelului să reconstruiască videoclipul original înapoi la normal.

Sursă
Astfel, obiectivul de învățare implică compararea efortului de reconstrucție cu videoclipul original, dar în loc să o facem în spațiul pixelilor, se face în spațiul de reprezentare; comparăm înțelegerea modelului despre ceea ce reprezintă videoclipul cu o reprezentare a ceea ce reprezintă videoclipul original, în loc să cerem unui model să genereze o întreagă secvență video a ceea ce se va întâmpla în continuare și să o compare cu adevărul de la sol.
Sună ca un joc de cuvinte, dar intuitiv, ceea ce facem este ceea ce este prezentat mai jos:
- Vrem ca JEPA să înțeleagă ce este un copac,
- Trimitem videoclipul în două forme: corupt și curat.
- Comparăm rezultatele pentru a obține un model care poate reconstrui ceea ce este un copac chiar dacă este trimis un videoclip corupt (cu părți lipsă)
- Repetam procesul de mai multe ori.

Dar ce rost are asta? În esență, ne expunem modelul la realitatea complexă că, în viața reală, lucrurile sunt uneori doar parțial observabile.
Să continuam cu un alt exemplu: Ce este un câine?
Să presupunem că vrei să înveți un robot să știe dacă ceva este un „câine”. Îi poți spune fie să învețe să genereze un câine perfect, până la fiecare fir de păr, fie îl poți învăța să înțeleagă atributele de bază ale ceea ce este un câine (coadă, păros, cu patru picioare etc.)
Ideea este că fostul model nu se va generaliza; dacă învață prea multe detalii despre ceea ce este un câine, în momentul în care vede un câine care nu aderă perfect la această viziune ultra-detaliată a ceea ce este un câine, nu îl va clasifica drept câine. Pe de altă parte, acesta din urmă trebuie să vadă atributele de bază ale unui câine pentru a spune: „DA, acesta este un câine”.
Mai formal, o reprezentare mai simplă, dar solidă, este mult mai bună decât o reprezentare ultra-detaliată a ceea ce este un câine, deoarece acesta din urmă stochează o mulțime de date irelevante care nu fac mai probabil ca ceea ce vedeți să fie un câine; de fapt, doar îngreunează identificarea altor câini pentru acel model.
Privește-l după cum urmează: dacă vezi un animal cu patru picioare, păros, pronunțat și cu dinți ascuțiți, trebuie să numărați toate firele de păr pe care le are pe corp pentru a ști că este un câine?
Aceasta este inteligența: abstractizarea tiparelor cheie care ne permit să facem predicții exacte despre ceea ce este un obiect sau ce aduce lumea în continuare (un model al lumii).
Și de ce contează abstractizarea reală în lumea reală?
Ei bine, în timp ce fostul model trebuie să vadă câinele în detaliile sale complete pentru a discerne dacă este un câine, al doilea model poate vedea un câine aruncând o privire dintr-un colț și totuși îl recunoaște ca un câine.
Nu a văzut fiecare detaliu (unele părți ale câinelui sunt ascunse în spatele peretelui), dar nu contează; a văzut urechile, limba și gesturile faciale ale câinelui și asta este mai mult decât suficient pentru a-l identifica ca câine, deoarece înțelege cu adevărat ce este un câine.
Care model înțelege mai bine lumea?
Acest lucru ilustrează perfect mecanismul de mascare utilizat pentru antrenarea JEPA. Intuiția este că, ascunzând (sau „mascând” în limbajul AI) părți ale videoclipului, forțăm modelul să se concentreze asupra a ceea ce contează.
Folosind exemplul nostru anterior de copac, învățăm modelul că nu trebuie să acorde atenție fiecărei frunze și, în schimb, ne dăm seama că, dacă arată mai mult sau mai puțin ca un copac, pâlpâie ca un copac și are culorile unui copac… probabil ar fi un copac?
Cuvântul „probabil” de mai sus nu este arbitrar; cu modelele AI probabilistice, nu este niciodată o garanție că ceea ce vede modelul este un arbore, dar probabil este; nu există garanții complete în AI bazată pe statistici (toate AI moderne), doar probabilități mari în cel mai bun caz. Și întreaga idee de „concentrare asupra a ceea ce contează” ar putea fi una destul de puternică și mai scalabilă, deoarece aceste modele au nevoie de mult mai puține indicii și date pentru a învăța.
sursa: blog.mersi.ai