AI · Februarie 2026

Regăsire care rezistă: chunking, reranking și bariere de evaluare

Alex PetrescuInginerie AI7 min de citit

Generarea augmentată prin regăsire (RAG) se demonstrează într-o după-amiază și se depanează un trimestru întreg. Conectarea unui model de embedding la o bază de date vectorială și îndesarea primelor rezultate într-un prompt sunt cei 80% ușori. Partea grea este să răspundă corect pe coada lungă a întrebărilor reale și apoi să rămână corect pe măsură ce corpusul, modelele și prompturile se schimbă toate sub tine.

Chunking-ul este o decizie de regăsire, nu un pas de preprocesare

Modul în care împarți documentele determină ce poți regăsi vreodată. Împarți în bucăți prea mari și un singur pasaj diluează semnalul cu text nelegat, astfel încât embeddingul stă între subiecte și nu se potrivește bine cu nimic. Împarți în bucăți prea mici și retezi contextul care făcea pasajul semnificativ — un număr fără titlul lui, o clauză fără subiectul ei. Împărțim pe granițe semantice în loc de un număr fix de tokeni, păstrăm o propoziție sau două de suprapunere ca ideile să nu fie ghilotinate la jumătatea gândului și atașăm metadate — sursă, secțiune, dată — fiecărei bucăți, astfel încât regăsirea să poată filtra, nu doar clasifica. Bucata este unitatea de adevăr; dacă răspunsul nu se află curat în interiorul uneia, niciun model nu îl va asambla în mod fiabil.

Rerankează ceea ce regăsești

Similaritatea vectorială este o primă trecere grosieră. Este rapidă și orientată spre recall, bună la a aduce cincizeci de candidați plauzibili și slabă la a ști care cinci răspund efectiv la întrebare. Așa că regăsim larg și apoi rerankăm îngust: un cross-encoder punctează fiecare candidat direct în raport cu interogarea, citindu-le pe ambele împreună în loc să compare vectori precalculați. Acea a doua etapă este locul de unde vine precizia. Este diferența dintre cincizeci de documente care menționează subiectul și cinci care conțin răspunsul și costă câteva zeci de milisecunde să o faci corect.

Dacă nu poți măsura regăsirea separat de generare, nu poți spune dacă modelul a mințit sau căutarea pur și simplu nu a găsit adevărul.
— Protocore · Inginerie AI

Pune-i o barieră de evaluare

Calitatea regăsirii este măsurabilă de una singură, iar noi insistăm să o măsurăm înainte ca generatorul să vadă vreun token. Pentru un set evaluat de întrebări cu bucățile relevante cunoscute, urmărim recall-ul — a ajuns bucata corectă în context — și calitatea clasificării — cât de aproape de vârf a aterizat. Aceste metrici devin o barieră în CI: o modificare a chunker-ului, a modelului de embedding sau a indexului trebuie să le mențină sau să le îmbunătățească înainte de a fi lansată. Evaluările de generare stau deasupra, dar regăsirea este măsurată prima, pentru că un generator hrănit cu un context greșit va produce un răspuns fluent, încrezător și greșit și va prelua vina pentru o eroare care s-a întâmplat cu o etapă mai sus.

Nimic din toate acestea nu are strălucire și exact acesta este scopul. O regăsire solidă înseamnă în mare parte granițe, metadate, un reranker și o infrastructură de testare care refuză să le lase pe oricare dintre ele să regreseze în tăcere. Fă bine aceste patru lucruri și modelul de limbaj are o sarcină ușoară: să rezume un text care conține deja răspunsul. Fă-le greșit și nicio cantitate de inginerie a prompturilor nu te va salva, pentru că îi ceri modelului să-și amintească fapte care nu i-au fost niciodată arătate cu adevărat.

Ai un sistem de construit?

Spune-ne care e problema. Revenim cu o arhitectură și un plan.

Începe un proiect