Traducere automată neuronală
Traducerea automată neuronală (în Format:En, NMT) este o abordare a traducerii automate care utilizează o rețea neurală artificială pentru a prezice probabilitatea unei secvențe de cuvinte, modelând de obicei propoziții întregi într-un singur model integrat.
Este abordarea dominantă astăziFormat:RFormat:R și poate produce traduceri comparabile cu traducerile umane atunci când este utilizată pentru limbi de circulație internațională și în anumite condiții specifice.Format:R Cu toate acestea, există încă provocări, în special în cazul limbilor pentru care sunt disponibile date de calitate mai redusă,Format:RFormat:RFormat:R și în situația schimbării domeniului dintre datele pe care a fost antrenat un sistem și textele pe care ar trebui să le traducă.Format:R Sistemele NMT tind, de asemenea, să producă traduceri destul de literale.Format:R
Istoric
Primele abordări
În 1987, Robert B. Allen a demonstrat utilizarea rețelelor neurale de tip feed-forward pentru a traduce în spaniolă propoziții în engleză generate automat, cu un vocabular limitat la 31 de cuvinte. În acest experiment, dimensiunea straturilor de intrare și de ieșire ale rețelei a fost aleasă în așa fel încât să fie suficient de mare pentru cele mai lungi propoziții în limba sursă și, respectiv, țintă, deoarece rețeaua nu avea niciun mecanism pentru a codifica secvențe de lungime arbitrară într-o reprezentare de dimensiune fixă. În rezumatul său, Allen sugera deja posibilitatea de a folosi modele autoasociative, unul pentru codificarea sursei și altul pentru decodificarea rezultatului.Format:R
Lonnie Chrisman a dezvoltat contribuțiile lui Allen în 1991 prin antrenarea rețelelor separate de memorie auto-asociativă recursivă (RAAM) (dezvoltate de Jordan B. PollackFormat:R) pentru limba sursei și limba rezultatului. Fiecare dintre rețelele RAAM este antrenată să codifice o propoziție de lungime arbitrară într-o reprezentare ascunsă de dimensiune fixă și să decodeze din nou propoziția originară din acea reprezentare. În plus, cele două rețele sunt antrenate și să partajeze reprezentarea ascunsă; în acest fel, codificatorul sursei poate produce o reprezentare pe care decodificatorul rezultatului să o poată decodifica.Format:R Forcada și Ñeco au simplificat această procedură în 1997 pentru a antrena direct un codificator de sursă și un decodificator de rezultat în ceea ce ei au numit o memorie hetero-asociativă recursivă.Format:R
Tot în 1997, Castaño și Casacuberta au folosit o rețea neurală recurentă a lui Elman într-o altă problemă de traducere automată cu vocabular și complexitate foarte limitate.Format:RFormat:R
Chiar dacă aceste abordări timpurii erau deja similare cu traducerea automată neurală modernă, resursele de calcul ale vremii nu erau suficiente pentru a procesa seturi de date îndeajuns de mari pentru complexitatea computațională a problemei traducerii automate pe textele din lumea reală.Format:RFormat:R În schimb, alte metode, cum ar fi traducerea automată statistică, au ajuns să devină tehnologia de vârf din anii 1990 și 2000.
Abordări hibride
În perioada în care traducerea automată statistică se răspândea, unele lucrări foloseau metode neurale pentru a înlocui diverse părți din traducerea automată statistică în timp ce utilizau în continuare abordarea log-liniară pentru a le îmbina.Format:RFormat:R De exemplu, în diverse lucrări, împreună cu alți cercetători, Holger Schwenk a înlocuit modelul obișnuit de limbaj n-gram cu unul neuralFormat:RFormat:R și a estimat probabilitățile de traducere a frazelor folosind o rețea de tip feed-forward.Format:R
seq2seq
În 2013 și 2014, traducerea automată neuronală cap-coadă a înregistrat un salt de progres. Kalchbrenner & Blunsom au folosit o rețea neurală convoluțională (CNN) pentru codificarea surseiFormat:R și atât Cho et al., cât și Sutskever et al. au folosit o rețea neurală recurentă (Format:Lang, RNN).Format:RFormat:R Toți trei foloseau o RNN condiționată de codificarea fixă a sursei ca decodificator pentru a produce traducerea. Aceste modele aveau însă rezultate slabe pe propoziții mai lungi.Format:RFormat:RFormat:R Această problemă a fost rezolvată după ce Bahdanau et al. au introdus în arhitectura codificatorului-decodorului conceptul de Format:Ill-wd: la fiecare pas de decodare, starea decodorului era utilizată pentru a calcula o reprezentare a sursei care se concentrează pe diferite părți ale sursei și utilizează acea reprezentare în calculul probabilităților pentru următorul simbol.Format:R Pornind de la aceste arhitecturi bazate pe RNN, Baidu a lansat „primul sistem NMT la scară largă”Format:R în 2015, urmat de Google Neural Machine Translation în 2016.Format:RFormat:R Tot din acel an, modelele neurale au devenit opțiunea predominantă în cadrul conferinței principale de traducere automată Format:Lang.Format:R
În 2017, Gehring et al. au îmbinat un codificator CNN cu un mecanism de atenție, care a gestionat dependențele de lungă durată din sursă mai bine decât abordările anterioare și a crescut și viteza de traducere, deoarece un codificator CNN este paralelizabil, în timp ce un codificator RNN trebuie să codifice simbol cu simbol, din cauza naturii sale recurente.Format:R În același an, Microsoft Translator a lansat traducerea automată neurală online bazată pe inteligență artificială (NMT). DeepL Translator, care la acea vreme se baza pe un codificator CNN, a fost lansat și el în același an, iar mai multe trusturi de presă au susținut că acesta și-ar depăși competitorii în termeni de performanță.Format:RFormat:RFormat:R Alte sisteme de traducere automată, cum ar fi Microsoft Translator și SYSTRAN au rețele neuronale integrate în operațiunile lor.
Transformatorul
O altă arhitectură de rețea care se pretează la paralelizare este transformatorul, care a fost introdus de Vaswani și colab. tot în 2017.Format:R La fel ca modelele anterioare, transformatorul încă folosește mecanismul de atenție pentru ponderarea ieșirii codificatorului pentru pașii de decodificare. Cu toate acestea, rețelele de codificator și decodificator ale transformatorului în sine se bazează tot pe atenție, și nu pe recurență sau convoluție: fiecare strat ponderează și transformă ieșirea stratului anterior într-un proces numit auto-atenție. Deoarece mecanismul de atenție nu are nicio noțiune privind ordinea simbolurilor, dar ordinea cuvintelor într-o propoziție este evident relevantă, înglobările de simboluri sunt combinate cu o codificare explicită a poziției lor în propoziție.Format:RFormat:R Deoarece atât codificatorul cât și decodificatorul transformatorului sunt lipsite de elemente recurente, ambele pot fi paralelizate în timpul antrenamentului. Cu toate acestea, decodificatorul transformatorului originar este încă auto-regresiv, ceea ce înseamnă că decodificarea trebuie să fie efectuată simbol cu simbol în timpul inferenței.
Modelul de transformator a devenit rapid opțiunea dominantă pentru sistemele de traducere automatăFormat:R și a rămas de departe cea mai utilizată arhitectură la Format:Lang în 2022 și 2023.Format:RFormat:R
De obicei, ponderile modelelor NMT sunt inițializate aleatoriu și apoi învățate prin antrenament pe seturi de date paralele. Cu toate acestea, deoarece utilizarea modelelor lingvistice mari (LLM) precum BERT preantrenat pe cantități mari de date monolingve ca punct de plecare pentru învățarea altor sarcini s-a dovedit a avea un mare succes în domeniul PLN mai larg, această paradigmă devine și mai răspândită în NMT. Aceasta este utilă în special pentru limbile cu resurse reduse, unde nu există seturi mari de date paralele.Format:R Un exemplu în acest sens este modelul mBART, care antrenează mai întâi un transformator pe un set de date multilingv pentru a recupera simboluri mascate în propoziții, apoi ajustează fin codificatorul rezultat în sarcina de traducere.Format:R
LLM-uri generative
În loc de ajustarea fină a unui model lingvistic pre-antrenat pentru sarcina de traducere, modelele generative suficient de mari pot fi și ele solicitate direct să traducă o propoziție în limba dorită. Această abordare a fost testată și evaluată în mod cuprinzător pentru GPT 3.5 în 2023 de Hendy și colab. Ei au descoperit că „sistemele GPT pot produce rezultate de traducere foarte fluente și competitive chiar și în setarea zero-shot, în special pentru traducerile în limbi de circulație internațională”.Format:R : 22 WMT23 a evaluat aceeași abordare (dar folosind GPT-4 ) și a constatat că este la același nivel cu tehnologia de vârf atunci când traducea în engleză, dar nu și atunci când traducea în limbi pentru care sunt disponibile mai puține date.Format:R : 16–17 Acest lucru este plauzibil, având în vedere că modelele GPT sunt instruite în principal pe text în limba engleză.Format:R
Comparație cu traducerea automată statistică
NMT a depășit mai multe provocări prezente în traducerea automată statistică (SMT):
- Faptul că NMT se bazează complet pe reprezentarea continuă a simbolurilor a rezolvat problemele de dispersie cauzate de cuvinte sau expresii rare. Modelele au putut să se generalizeze mai eficient.Format:R: 1 Format:R
- Lungimea limitată a n-gramelor utilizată în modelele de limbaj n-grame ale SMT a provocat o pierdere a contextului. Sistemele NMT nu au această problemă pentru că nu au o întrerupere strictă după un număr fix de simboluri și pentru că acordă atenție alegerii pe care simbolurile trebuie să se concentreze atunci când se generează următorul simbol.Format:R : 900–901
- Instruirea cap-coadă a unui singur model a îmbunătățit performanța traducerii și, de asemenea, a simplificat întregul proces.Format:Nc
- Modelele uriașe de n-grame (până la 7-grame) utilizate în SMT au necesitat cantități mari de memorie,Format:R în timp ce NMT necesită mai puțină memorie.
Procedura de instruire
Modelele NMT sunt de obicei antrenate pentru a maximiza probabilitatea de a observa datele de antrenament. Adică, pentru un set de date de propoziții sursă și propozițiile țintă corespunzătoare , scopul este găsirea parametrilor modelului care maximizează suma probabilității fiecărei propoziții țintă din datele de antrenament având în vedere propoziția sursă corespunzătoare:
Extinderea la nivel de simbol oferă:
Deoarece ne interesează doar maximul, putem la fel de bine să căutăm maximul logaritmului (care are avantajul că evită depășirea inferioară de capacitate în virgulă mobilă care s-ar putea întâmpla cu produsul probabilităților scăzute).
Folosind faptul că logaritmul unui produs este suma logaritmilor factorilor și inversarea semnului produce pierderea clasică de entropie încrucișată:
În practică, această minimizare se face iterativ pe subseturi mici (mini-loturi) ale setului de antrenament folosind coborârea gradientului stocastic.
Forțarea "profesorului"
În timpul inferenței, decodoarele auto-regresive folosesc simbolul generat la pasul anterior ca simbol de intrare. Cu toate acestea, vocabularul simbolurilor țintă este de obicei foarte mare. Deci, la începutul fazei de antrenament, modelele neantrenate vor alege aproape întotdeauna simbolul greșit, iar pașii următori ar trebui apoi să funcționeze cu simboluri de input greșite, ceea ce ar încetini considerabil instruirea. În schimb, forțarea profesorului este folosită în timpul fazei de instruire: modelul („elevul” din metafora de forțare a profesorului) este întotdeauna alimentat cu simbolurile de bază anterioare ca input pentru următorul simbol, indiferent de ceea ce a prezis în pasul anterior.
Traducerea cu ajutorul prompt-urilor în LLM-uri
În locul utilizării unui sistem NMT care este instruit pe texte paralele, se pot, de asemenea, utiliza prompt-uri într-un LLM generativ pentru a traduce un text. Aceste modele sunt diferite de un sistem NMT codificator-decodor în mai multe moduri:Format:R
- Modelele lingvistice generative nu sunt instruite pe sarcina de traducere, cu atât mai puțin pe un set de date paralel. În schimb, ele sunt instruite pe un obiectiv de modelare a limbajului, cum ar fi prezicerea cuvântului următor dintr-o secvență extrasă dintr-un set mare de date sub formă de text. Acest set de date poate conține documente în multe limbi, dar în practică predomină limba engleză.Format:R După această pregătire prealabilă, modelele sunt reglate fin pentru o altă sarcină, de obicei pentru a urma instrucțiuni.Format:R
- Deoarece nu sunt instruite pe traducere, ele nu prezintă nicio arhitectură codificator-decodificator. Ele sunt compuse doar dintr-un decodificator al transformatorului.
- Pentru a fi competitive în sarcina de traducere automată, LLM-urile trebuie să fie mult mai mari decât alte sisteme NMT. De exemplu, GPT-3 are 175 de miliarde de parametri,Format:R în timp ce mBART are 680 de milioane,Format:R, iar transformatorul mare originar are „doar” 213 milioane.Format:RAceasta înseamnă că, din punct de vedere computațional, instruirea și utilizarea lor este mai costisitoare.
Într-un LLM generativ, se pot scrie prompturi într-un mod zero-încercări (Format:Lang), cerându-i-se direct să traducă un text într-o altă limbă, fără a oferi alte exemple în prompt. Sau se pot include una sau mai multe exemple de traducere în prompt, înainte de a cere traducerea textului în cauză. Acest proces se numește învățare de tip o încercare respectiv, puține încercări. De exemplu, următoarele prompturi au fost folosite de Hendy et al. (2023) pentru traducerea zero-încercări și o încercare:Format:R
### Tradu această propoziție din [limba sursă] în [limba rezultat], Sursa: [propoziția sursă] ### Rezultatul:
Tradu asta în 1. [limba rezultat]: [sursă încercarea 1] 1. [referință încercarea 1] Tradu asta în 1. [limba rezultat]: [intrare] 1.
Note
Vezi și
- Atenție (învățare automată)
- Transformator (model de învățare automată)