Backpropagation

În învățarea automată, Format:Lang este o metodă de estimare a gradientului utilizată pentru a antrena modele de rețele neurale. Estimarea gradientului este utilizată de algoritmul de optimizare pentru a calcula actualizările parametrilor rețelei.

Este o aplicare eficientă la astfel de rețele a regulii derivării funcțiilor compuse enunțată de Leibniz (1673) pentru calculul derivatelor funcțiilor compuse.^[1] Este cunoscut și ca modul invers al Format:Ill-wd sau Format:Ill-wd, datorită lui Format:Ill-wd (1970).^[2]^[3]^[4]^[5]^[6]^[7] Termenul de „corectare a erorilor cu propagare inversă” a fost introdus în 1962 de Format:Ill-wd,^[8]^[9] dar el nu știa cum să implementeze acest lucru, chiar dacă Format:Ill-wd avea un precursor continuu al lui Format:Lang^[10] deja în 1960 în contextul Format:Ill-wd.^[9]

Format:Lang calculează gradientul unei Format:Ill-wd în raport cu ponderile rețelei pentru un singur exemplu de intrare-ieșire și face acest lucru eficient, calculând gradientul strat cu strat, Format:Ill-wd înapoi de la ultimul strat pentru a evita calculele redundante ale termenilor intermediari din regula derivării funcțiilor compuse; aceasta se poate calcula prin Format:Ill-wd.^[10]^[11]Format:Sfn În mod obișnuit, se utilizează Format:Ill-wd sau variante ale ei, cum ar fi Format:Ill-wd.^[12]

În sens strict, termenul Format:Lang se referă doar la algoritmul de calcul al gradientului, nu la modul în care este utilizat gradientul; dar termenul este adesea folosit în mod liber pentru a se referi la întregul algoritm de învățare – inclusiv la modul în care este utilizat gradientul, cum ar fi descreșterea stochastică.^[13] În 1986 Format:Ill-wd et al. au publicat o analiză experimentală a tehnicii.^[14] Aceasta a contribuit la popularizarea tehnicii și a ajutat la inițierea unei perioade active de cercetare în domeniul Format:Ill-wd.

Generalități

Format:Lang calculează gradientul în Format:Ill-wd unei rețele neuronale Format:Lang, în raport cu o Format:Ill-wd. Se notează cu:

$x$ : input (vectorul de caracteristici)
$y$ : ieșirea așteptată
Pentru clasificare, ieșirea va fi un vector de probabilități pe toate clasele (de ex., $(0.1, 0.7, 0.2)$ , iar ieșirea așteptată este o anumită clasă, codificată prin variabila one-hot (de ex., $(0, 1, 0)$ ).
$C$ : Format:Ill-wd
Pentru clasificare, aceasta este de obicei entropia încrucișată (XC, Format:Ill-wd), în timp ce pentru regresie este de obicei costul erorii la pătrat

(SEL).
$L$ : numărul de straturi
$W^{l} = (w_{j k}^{l})$ : ponderile legăturilor între straturile $l - 1$ și $l$ , unde $w_{j k}^{l}$ este ponderea între nodul $k$ din stratul $l - 1$ și nodul $j$ din stratul $l$ Format:Efn
$f^{l}$ : Format:Ill-wd de pe stratul $l$
Pentru clasificare, ultimul strat este de regulă Format:Ill-wd pentru clasificare binară, și Format:Ill-wd (softargmax) pentru clasificare cu mai multe clase, în timp ce pentru stratele ascunse, aceasta este tradițiomal o Format:Ill-wd (funcția logistică sau altele) pe fiecare nod (coordonată), dar astăzi gama este mai variată, fiind comună și funcția Format:Ill-wd (Format:Ill-wd, Format:Ill-wd).
$a_{j}^{l}$ : activarea nodului $j$ din stratul $l$ .

În calculul lui Format:Lang, se folosesc alte cantități intermediare introducându-le după cum este necesar mai jos. Termenii de bias nu sunt tratați în mod special, deoarece corespund unei ponderi cu o intrare fixă de 1. Pentru Format:Lang, funcția de cost și funcțiile de activare specifice nu contează atâta timp cât ele și derivatele lor pot fi evaluate eficient. Printre funcțiile tradiționale de activare se numără sigmoidele, tanh și ReLU. Au mai fost propuse și swish,^[15] mish,^[16] și alte funcții de activare.

Rețeaua de ansamblu este o combinație de Format:Ill-wd și înmulțiri de matrici:

g (x) : = f^{L} (W^{L} f^{L - 1} (W^{L - 1} \dots f^{1} (W^{1} x) \dots))

Ca mulțime de antrenare se ia o mulțime de perechi intrare-ieșire, ${(x_{i}, y_{i})}$ . Pentru fiecare pereche intrare-ieșire $(x_{i}, y_{i})$ din mulțimea de antrenare, costul modelului pe acea pereche este costul diferenței dintre rezultatul prezis $g (x_{i})$ și rezultatul așteptat $y_{i}$ :

C (y_{i}, g (x_{i}))

În timpul evaluării modelului, ponderile sunt fixe, în timp ce intrările variază (și ieșirea așteptată poate fi necunoscută), iar rețeaua se termină cu stratul de ieșire (nu include funcția de cost). În timpul antrenării modelului, perechea intrare-ieșire este fixă în timp ce ponderile variază, iar rețeaua se termină cu funcția de cost.

Format:Lang calculează gradientul pentru o pereche de intrare-ieșire fixă $(x_{i}, y_{i})$ , unde ponderile $w_{j k}^{l}$ pot varia. Fiecare componentă individuală a gradientului, $\partial C / \partial w_{j k}^{l},$ poate fi calculată prin regula derivării funcțiilor compuse; dar a face acest lucru separat pentru fiecare pondere este ineficient. Format:Lang calculează eficient gradientul, evitând calculele duplicate și nu calculează valori intermediare inutile, calculând gradientul fiecărui stratFormat:Mdash în special gradientul intrării ponderate a fiecărui strat, notat cu $δ^{l}$ – din spate către față.

Cu alte cuvinte, punctul cheie este că, din moment ce singurul mod în care o pondere din $W^{l}$ afectează costul este prin efectul său asupra stratului următor și face acest lucru liniar, rezultă că $δ^{l}$ sunt singurele date de care este nevoie pentru a calcula gradienții ponderilor stratului $l$ , iar apoi stratul anterior poate fi calculat cu $δ^{l - 1}$ și repetat recursiv. Aceasta evită ineficiența în două moduri. În primul rând, evită duplicarea, deoarece atunci când se calculează gradientul la stratul $l$ – nu mai este nevoie să se recalculeze toate derivatele pe straturile ulterioare $l + 1, l + 2, \dots$ de fiecare dată. În al doilea rând, evită calculele intermediare inutile, deoarece în fiecare etapă calculează direct gradientul ponderilor în raport cu rezultatul final (costul), și nu calculează inutil derivatele valorilor straturilor ascunse în raport cu modificările ponderilor $\partial a_{j^{'}}^{l^{'}} / \partial w_{j k}^{l}$ .

Format:Lang poate fi exprimat pentru rețelele simple Format:Lang în termeni de înmulțire de matrici sau, mai general, în termeni de graf adjunct.

Înmulțire de matrici

Pentru cazul de bază al unei rețele Format:Lang, în care nodurile din fiecare strat sunt conectate numai la nodurile din stratul imediat următor (fără a sări peste niciun strat) și există o funcție de cost care calculează costul scalar pentru ieșirea finală, Format:Lang poate fi înțeles pur și simplu prin înmulțiri de matrici.Format:Efn În esență, Format:Lang evaluează expresia derivatei funcției de cost ca un produs al derivatelor între fiecare strat de la dreapta la stânga – „înapoi” – iar gradientul ponderilor dintre fiecare strat este o simplă modificare a produsele parțiale („eroarea propagată înapoi”).

Dacă se dă o pereche intrare-ieșire $(x, y)$ , costul este:

C (y, f^{L} (W^{L} f^{L - 1} (W^{L - 1} \dots f^{2} (W^{2} f^{1} (W^{1} x)) \dots)))

Pentru a-l calcula, se începe cu intrarea $x$ și se merge înainte; se notează intrarea ponderată a fiecărui strat ascuns cu $z^{l}$ și rezultatul stratului ascuns $l$ ca activarea $a^{l}$ . Pentru Format:Lang, activarea $a^{l}$ precum și derivatele $(f^{l})^{'}$ (evaluat la $z^{l}$ ) trebuie să fie memorate pentru utilizare în timpul trecerii înapoi.

Derivata costului în termeni de intrări este dată de regula derivării funcțiilor compuse; fiecare termen este o Format:Ill-wd, evaluată la valoarea rețelei (în fiecare nod) pe intrarea $x$ :

\frac{d C}{d a^{L}} \cdot \frac{d a^{L}}{d z^{L}} \cdot \frac{d z^{L}}{d a^{L - 1}} \cdot \frac{d a^{L - 1}}{d z^{L - 1}} \cdot \frac{d z^{L - 1}}{d a^{L - 2}} \cdot \dots \cdot \frac{d a^{1}}{d z^{1}} \cdot \frac{\partial z^{1}}{\partial x},

Unde $\frac{d a^{L}}{d z^{L}}$ este o matrice diagonală.

Acești termeni sunt: derivata funcției de cost;Format:Efn derivatele funcțiilor de activare;Format:Efn și matricile ponderilor:Format:Efn

\frac{d C}{d a^{L}} \circ (f^{L})^{'} \cdot W^{L} \circ (f^{L - 1})^{'} \cdot W^{L - 1} \circ \dots \circ (f^{1})^{'} \cdot W^{1} .

Gradientul $\nabla$ este transpusa derivatei ieșirii în termeni de intrare, deci matricile sunt transpuse și ordinea înmulțirii se inversează, dar intrările sunt aceleași:

\nabla_{x} C = (W^{1})^{T} \cdot (f^{1})^{'} \circ \dots \circ (W^{L - 1})^{T} \cdot (f^{L - 1})^{'} \circ (W^{L})^{T} \cdot (f^{L})^{'} \circ \nabla_{a^{L}} C .

Format:Lang constă apoi, în esență, în evaluarea acestei expresii de la dreapta la stânga (echivalent, înmulțirea expresiei anterioare pentru derivată de la stânga la dreapta), calculând gradientul la fiecare strat pe parcurs; se mai adaugă un pas, deoarece gradientul ponderilor nu este doar o subexpresie: există o înmulțire suplimentară.

Introducerea mărimii auxiliare $δ^{l}$ pentru produsele parțiale (înmulțirea de la dreapta la stânga), interpretată ca „eroare la nivelul $l$ ” și definită ca gradientul valorilor de intrare la nivelul $l$ :

δ^{l} : = (f^{l})^{'} \circ (W^{l + 1})^{T} \cdot (f^{l + 1})^{'} \circ \dots \circ (W^{L - 1})^{T} \cdot (f^{L - 1})^{'} \circ (W^{L})^{T} \cdot (f^{L})^{'} \circ \nabla_{a^{L}} C .

Cum $δ^{l}$ este un vector, de lungime egală cu numărul de noduri din nivelul $l$ , fiecare componentă este interpretată drept „costul atribuibil (valorii) nodului respectiv”.

Gradientul ponderilor din stratul $l$ este atunci:

\nabla_{W^{l}} C = δ^{l} (a^{l - 1})^{T} .

Factorul $a^{l - 1}$ este pentru că greutățile $W^{l}$ între nivelele $l - 1$ și $l$ afectează $l$ proporțional cu intrările (activările): intrările sunt fixe, ponderile variază.

$δ^{l}$ poate fi ușor calculat recursiv, mergând de la dreapta la stânga, după cum urmează:

δ^{l - 1} : = (f^{l - 1})^{'} \circ (W^{l})^{T} \cdot δ^{l} .

Gradienții ponderilor pot fi astfel calculați folosind câteva înmulțiri de matrici pentru fiecare nivel; aceasta este Format:Lang.

Se compară cu calculul naiv înainte (folosind $δ^{l}$ pentru ilustrare):

\begin{matrix} δ^{1} & = (f^{1})^{'} \circ (W^{2})^{T} \cdot (f^{2})^{'} \circ \dots \circ (W^{L - 1})^{T} \cdot (f^{L - 1})^{'} \circ (W^{L})^{T} \cdot (f^{L})^{'} \circ \nabla_{a^{L}} C \\ δ^{2} & = (f^{2})^{'} \circ \dots \circ (W^{L - 1})^{T} \cdot (f^{L - 1})^{'} \circ (W^{L})^{T} \cdot (f^{L})^{'} \circ \nabla_{a^{L}} C \\ ⋮ \\ δ^{L - 1} & = (f^{L - 1})^{'} \circ (W^{L})^{T} \cdot (f^{L})^{'} \circ \nabla_{a^{L}} C \\ δ^{L} & = (f^{L})^{'} \circ \nabla_{a^{L}} C, \end{matrix}

În Format:Lang există două diferențe esențiale:

Calculul lui $δ^{l - 1}$ în termeni de $δ^{l}$ evită evidenta dublare a înmulțirii straturilor $l$ și mai departe.
Înmulțirea începând de la $\nabla_{a^{L}} C$ – propagarea erorii înapoi – înseamnă că la fiecare pas pur și simplu se înmulțește un vector ( $δ^{l}$ ) cu matricile de ponderi $(W^{l})^{T}$ și derivatele activărilor $(f^{l - 1})^{'}$ . În schimb, înmulțirea înainte, pornind de la modificările de la un strat anterior, înseamnă că la fiecare înmulțire se înmulțește o matrice cu altă matrice. Aceasta este mult mai costisitoare și corespunde urmăririi tuturor căilor posibile ale unei modificări dintr-un singur strat $l$ până în stratul $l + 2$ (pentru înmulțirea lui $W^{l + 1}$ cu $W^{l + 2}$ , cu înmulțiri suplimentare pentru derivatele activărilor), care calculează în mod inutil cantități intermediare ale modului în care modificările de pondere afectează valorile nodurilor ascunse.

Graful adjunct

Pentru grafuri mai generale și alte variații avansate, Format:Lang poate fi înțeles în termeni de Format:Ill-wd, unde Format:Lang este un caz particular al acumulării inverse (sau „modului invers”).

Motivația

Obiectivul oricărui algoritm de Format:Ill-wd este de a găsi o funcție care mapează cel mai bine un set de intrări la ieșirea lor corectă. Motivația pentru Format:Lang este de a antrena o rețea neurală cu mai multe straturi, astfel încât să poată învăța reprezentările interne adecvate pentru a-i permite să învețe orice mapare arbitrară a intrării la ieșire.^[17]

Învățarea ca problemă de optimizare

Pentru a înțelege calculul matematic al algoritmului de Format:Lang, este nevoie mai întâi de dezvoltarea unei intuiții despre relația dintre produsul real al unui neuron și rezultatul corect pentru un anumit exemplu de antrenament. Fie o rețea neurală simplă cu două unități de intrare, o unitate de ieșire și fără unități ascunse și în care fiecare neuron utilizează o ieșire liniară (spre deosebire de majoritatea lucrărilor pe rețelele neurale, în care maparea de la intrări la ieșiri este neliniară)Format:Efn care este suma ponderată a intrărilor sale.

Inițial, înainte de antrenare, ponderile pot fi stabilite aleatoriu. Apoi neuronul învață din Format:Ill-wd, care în acest caz constau dintr-o mulțime de Format:Ill-wd $(x_{1}, x_{2}, t)$ unde $x_{1}$ și $x_{2}$ sunt intrările rețelei și Format:Mvar este ieșirea corectă (ieșirea pe care rețeaua ar trebui să o producă când primește acele intrări, la momentul antrenării). Când primește la intrare $x_{1}$ și $x_{2}$ , rețeaua inițială va calcula o ieșire Format:Mvar care probabil diferă de Format:Mvar (dat fiind că ponderile sunt aleatorii). O funcție de cost $L (t, y)$ este utilizată pentru măsurarea discrepanței dintre ieșirea așteptată Format:Mvar și ieșirea calculată Format:Mvar. Pentru problemele de analiză de regresie, eroarea pătrată poate fi folosită ca funcție de cost, dar pentru Format:Ill-wd se poate folosi Format:Ill-wd.

De exemplu, fie o problemă de regresie folosind eroarea pătrată ca funcție de cost:

L (t, y) = (t - y)^{2} = E,

unde Format:Mvar este discrepanța sau eroarea.

Fie rețeaua pe un singur caz de antrenare: $(1, 1, 0)$ . Astfel, intrările $x_{1}$ și $x_{2}$ sunt 1 și, respectiv, 1, iar ieșirea corectă Format:Mvar este 0. Acum, dacă este reprezentată relația dintre ieșirea rețelei Format:Mvar pe axa orizontală și eroarea Format:Mvar pe axa verticală, rezultatul este o parabolă. Minimul parabolei corespunde ieșirii Format:Mvar care minimizează eroarea Format:Mvar. Pentru un singur caz de antrenament, minimul atinge și axa orizontală, ceea ce înseamnă că eroarea va fi zero și rețeaua poate produce o ieșire Format:Mvar care se potrivește exact cu ieșirea țintă Format:Mvar. Prin urmare, problema mapării intrărilor la ieșiri poate fi redusă la o Format:Ill-wd a găsirii unei funcții care va produce eroarea minimă.

Ieșirea unui neuron depinde însă de suma ponderată a tuturor intrărilor sale:

y = x_{1} w_{1} + x_{2} w_{2},

Unde $w_{1}$ și $w_{2}$ sunt ponderile conexiunii de la unitățile de intrare la unitatea de ieșire. Prin urmare, eroarea depinde și de ponderile de intrare ale neuronului, care este în cele din urmă ceea ce trebuie schimbat în rețea pentru a permite învățarea.

În acest exemplu, la injectarea datelor de antrenare $(1, 1, 0)$ , funcția de cost devine

$E = (t - y)^{2} = y^{2} = (x_{1} w_{1} + x_{2} w_{2})^{2} = (w_{1} + w_{2})^{2} .$

Atunci, funcția de cost $E$ ia forma unui cilindru parabolic cu baza îndreptată de-a lungul dreptei $w_{1} = - w_{2}$ . Deoarece toate mulțimile de ponderi care satisfac $w_{1} = - w_{2}$ minimizează funcția de cost, în acest caz sunt necesare constrângeri suplimentare pentru a converge către o soluție unică. Constrângerile suplimentare ar putea fi generate fie prin stabilirea unor condiții specifice pentru ponderi, fie prin injectarea de date suplimentare de antrenare.

Un algoritm utilizat în mod obișnuit pentru a găsi mulțimea de ponderi care minimizează eroarea este Format:Ill-wd. Prin Format:Lang, se calculează cea mai abruptă direcție de descreștere a funcției de cost față de ponderile sinaptice actuale. Ponderile pot fi apoi modificate pe cea mai abruptă direcție de descreștere, iar eroarea este redusă la minimum într-un mod eficient.

Derivare

cu

E = L (t, y)

unde

L

este costul pentru ieșirea

y

și valoarea așteptată

t

,

t

este rezultatul așteptat pentru un eșantion de antrenare și

y

este ieșirea reală a neuronului de ieșire.

Pentru fiecare neuron $j$ , ieșirea sa $o_{j}$ este definită ca

o_{j} = φ ({net}_{j}) = φ (\sum_{k = 1}^{n} w_{k j} x_{k}),

unde Format:Ill-wd $φ$ este Format:Ill-wd și diferențiabilă în regiunea de activare (ReLU nu este diferențiabilă într-un punct). O funcție de activare folosită istoric este Format:Ill-wd:

φ (z) = \frac{1}{1 + e^{- z}}

care are o derivată convenabilă:

\frac{d φ}{d z} = φ (z) (1 - φ (z))

Prin urmare, derivata în raport cu $o_{j}$ poate fi calculată dacă se cunosc toate derivatele în raport cu ieșirile $o_{ℓ}$ ale stratului următor – cele mai apropiate de neuronul de ieșire. Dacă vreunul dintre neuroni din mulțimea $L$ nu este conectat la neuronul $j$ , atunci ar fi independent de $w_{i j}$ , iar derivata parțială corespunzătoare sub însumare s-ar reduce la 0.

Găsirea derivatei erorii

Calculul derivatei parțiale a erorii în raport cu o pondere $w_{i j}$ se face folosind regula derivării funcțiilor compuse de două ori: Format:NumBlk

În ultimul factor din partea dreaptă a celor de mai sus, un singur termen din sumă, ${net}_{j}$ , depinde de $w_{i j}$ , astfel încât Format:NumBlk

Dacă neuronul se află în primul strat după stratul de intrare, $o_{i}$ este doar $x_{i}$ .

Intrarea ${net}_{j}$ a unui neuron este suma ponderată a ieșirilor $o_{k}$ a neuronilor anteriori. Dacă neuronul se află în primul strat după stratul de intrare, atunci $o_{k}$ ale stratului de intrare sunt pur și simplu intrările $x_{k}$ la rețea. Numărul de unități de intrare către neuron este $n$ . Variabila $w_{k j}$ denotă ponderea dintre neuronul $k$ din stratului anterior și neuronul $j$ din stratului curent. $E (y, y^{'}) = \frac{1}{2} ‖ y - y^{'} ‖^{2}$ care pentru Format:Ill-wd

\frac{\partial E}{\partial w_{i j}} = \frac{\partial E}{\partial o_{j}} \frac{\partial o_{j}}{\partial {net}_{j}} \frac{\partial {net}_{j}}{\partial w_{i j}} = \frac{\partial E}{\partial o_{j}} \frac{\partial o_{j}}{\partial {net}_{j}} o_{i}

\frac{\partial E}{\partial w_{i j}} = o_{i} δ_{j}

Acesta este motivul pentru care Format:Lang necesită ca funcția de activare să fie diferențiabilă. (Cu toate acestea, funcția de activare Format:Ill-wd, care este nediferențiabilă în 0, a devenit destul de populară, de exemplu în Format:Ill-wd)

Primul factor este simplu de evaluat dacă neuronul se află în stratul de ieșire, pentru că atunci $o_{j} = y$ și $E = \frac{1}{2 n} \sum_{x} ‖ (y (x) - y^{'} (x)) ‖^{2}$ Dacă jumătate din pătratul erorii este folosit ca funcție de cost, o putem rescrie ca

δ_{j} = \frac{\partial E}{\partial o_{j}} \frac{\partial o_{j}}{\partial {net}_{j}} = {\begin{matrix} (o_{j} - t_{j}) o_{j} (1 - o_{j}) & dacă j este un neuron de ieșire, \\ (\sum_{ℓ \in L} w_{j ℓ} δ_{ℓ}) o_{j} (1 - o_{j}) & dacă j este un neuron interior. \end{matrix}

Dacă însă $j$ se află într-un strat interior arbitrar al rețelei, metoda de găsire a derivatei $E$ în raport cu $o_{j}$ este mai puțin evidentă.

Considerând $E$ o funcție, intrările fiind toți neuronii $L = {u, v, \dots, w}$ care primesc intrare de la neuronul $j$ ,

\frac{\partial o_{j}}{\partial {net}_{j}} = \frac{\partial}{\partial {net}_{j}} φ ({net}_{j}) = φ ({net}_{j}) (1 - φ ({net}_{j})) = o_{j} (1 - o_{j})

și luând Format:Ill-wd în raport cu $o_{j}$ , se obține o expresie recursivă pentru derivată:

Înlocuind Format:EquationNote, Format:EquationNote Format:EquationNote și Format:EquationNote în Format:EquationNote se obține:

Δ w_{i j} = - η \frac{\partial E}{\partial w_{i j}} = - η o_{i} δ_{j}

Metoda descreșterii de gradient implică calculul derivatei funcției de cost în raport cu ponderile rețelei. Aceasta se face în mod normal utilizând Format:Lang. Presupunând un neuron de ieșire,Format:Efn funcția de eroare pătrată este

δ_{j} = \frac{\partial E}{\partial o_{j}} \frac{\partial o_{j}}{\partial {net}_{j}} = {\begin{matrix} \frac{\partial L (t, o_{j})}{\partial o_{j}} \frac{d φ ({net}_{j})}{d {net}_{j}} & dacă j este un neuron de ieșire, \\ (\sum_{ℓ \in L} w_{j ℓ} δ_{ℓ}) \frac{d φ ({net}_{j})}{d {net}_{j}} & dacă j este un neuron interior. \end{matrix}

dacă $φ$ este funcția logistică, iar eroarea este pătratul erorii:

\frac{\partial E}{\partial o_{j}} = \frac{\partial E}{\partial y} = \frac{\partial}{\partial y} \frac{1}{2} (t - y)^{2} = y - t

Pentru a actualiza ponderea $w_{i j}$ folosind descreșterea gradientului, trebuie aleasă o rată de învățare, $η > 0$ . Modificarea ponderii trebuie să reflecte impactul asupra lui $E$ al unei creșteri sau scăderi a lui $w_{i j}$ . Dacă $\frac{\partial E}{\partial w_{i j}} > 0$ , atunci o creștere a lui $w_{i j}$ va face să crească $E$ ; invers, dacă $\frac{\partial E}{\partial w_{i j}} < 0$ , o creștere a lui $w_{i j}$ va face să scadă $E$ . Noul $Δ w_{i j}$ se adaugă la ponderea veche, iar produsul dintre rata de învățare și gradient, înmulțit cu $- 1$ garantează că $w_{i j}$ se schimbă într-un mod care scade întotdeauna $E$ . Cu alte cuvinte, în ecuația imediat de mai jos, $- η \frac{\partial E}{\partial w_{i j}}$ îl schimbă întotdeauna pe $w_{i j}$ în așa fel încât $E$ să se reducă:

Δ w_{i j} = - η \frac{\partial E}{\partial w_{i j}} = - η o_{i} δ_{j}

Descreșterea gradientului de ordinul doi

Folosind o matrice Hessiană de derivate de ordinul doi ale funcției de eroare, Format:Ill-wd converge adesea mai rapid decât descreșterea gradientului de ordinul întâi, mai ales când topologia funcției de eroare este complicată.^[18]^[19] De asemenea, el poate găsi soluții cu un număr mai mic de noduri, cu care alte metode ar putea să nu conveargă.^[19] Hessiana poate fi aproximată prin Format:Ill-wd.^[20]

Funcția de cost

Funcția de cost este o funcție care mapează valorile uneia sau mai multor variabile pe un număr real reprezentând intuitiv un „cost” asociat cu acele valori. Pentru Format:Lang, funcția de cost calculează diferența dintre ieșirea rețelei și rezultatul așteptat, după ce un exemplu de antrenare s-a propagat prin rețea.

Ipoteze

Expresia matematică a funcției de cost trebuie să îndeplinească două condiții pentru ca ea să poată fi utilizată în Format:Lang. Prima este că poate fi scrisă ca o medie $E = \frac{1}{n} \sum_{x} E_{x}$ a funcțiilor de eroare $E_{x}$ , pentru $n$ exemple individuale de antrenare, $x$ . Motivul pentru această ipoteză este că algoritmul Format:Lang calculează gradientul funcției de eroare pentru un singur exemplu de antrenare, care trebuie generalizat la funcția de eroare generală. A doua presupunere este că poate fi scrisă în funcție de ieșirile din rețeaua neurală.

Exemplu de funcție de cost

Fie $y, y^{'}$ vectori în $ℝ^{n}$ .

Se alege o funcție de eroare $E (y, y^{'})$ care măsoară diferența dintre două ieșiri. Alegerea standard este pătratul distanței euclidiene dintre vectori $y$ și $y^{'}$ : $E = \frac{1}{2 n} \sum_{x} ‖ (y (x) - y^{'} (x)) ‖^{2}$

Limitări

Descreșterea gradientului din Format:Lang nu garantează că va găsi minimul global al funcției de eroare, ci doar un minim local; de asemenea, are probleme la traversarea Format:Ill-wd din peisajul funcțiilor de eroare. Această problemă, cauzată de Format:Ill-wd funcțiilor de eroare din rețelele neurale, a fost mult timp considerată a fi un dezavantaj major, dar Format:Ill-wd et al. susțin că în multe probleme practice, nu este.^[21]
Învățarea prin Format:Lang nu necesită normalizarea vectorilor de intrare; totuși, normalizarea ar putea îmbunătăți performanța.^[22]
Format:Lang necesită ca derivatele funcțiilor de activare să fie cunoscute în momentul proiectării rețelei.

Istorie

Precursori

Format:Lang a fost derivată în mod repetat, deoarece este în esență o aplicare eficientă a regulii derivării funcțiilor compuse (enunțată în premieră de Gottfried Wilhelm Leibniz în 1676^[1]^[23]) asupra rețelelor neurale.

Terminologia „corectare a erorilor prin Format:Lang” a fost introdusă în 1962 de Format:Ill-wd, dar el nu știa cum să implementeze acest lucru.^[24] În orice caz, el a studiat doar neuronii ale căror ieșiri erau niveluri discrete, care aveau doar derivate zero, făcând Format:Lang imposibil.

Precursorii lui Format:Lang au apărut în Format:Ill-wd încă din anii 1950. Format:Ill-wd Format:Lang creditează lucrările din anii 1950 a lui Format:Ill-wd și alții, în teoria controlului optim, în special Format:Ill-wd, ca fiind o versiune în timp continuu a lui Format:Lang.^[25] Format:Ill-wd^[26] creditează Format:Ill-wd (1951) și Applied Optimal Control (1969) a lui Format:Ill-wd și Format:Ill-wd ca ceva ce anticipa Format:Lang. Alți precursori au fost Format:Ill-wd 1960, ^[10] și Format:Ill-wd (1961).^[11] În 1962, Format:Ill-wd a publicat un calcul mai simplu bazat doar pe regula derivării funcțiilor compuse.^[27]^[28]^[29] În 1973, el adapta parametrii controllerelor proporțional cu gradienții de eroare.^[30] Spre deosebire de Format:Lang modern, acești precursori foloseau calcule standard cu matricea jacobiană de la o etapă la cea anterioară, fără a aborda legăturile directe în mai multe etape și nici potențialele câștiguri suplimentare de eficiență datorate dispersității rețelei.

Algoritmul de învățare Format:Ill-wd (1960) a fost o descreștere de gradient cu funcția de cost pătratul erorii pentru un singur strat. Primul Format:Ill-wd (MLP) cu mai mult de un strat antrenat prin Format:Ill-wd^[12] a fost publicat în 1967 de Format:Ill-wd.^[31]^[9] MLP avea 5 straturi, din care 2 straturi puteau fi învățate, și a învățat să clasifice modele care nu sunt separabile liniar.^[9]

Format:Lang modern

Format:Lang modern a fost publicat pentru prima dată de Format:Ill-wd ca „mod invers de Format:Ill-wd” (1970)^[2] pentru rețele discrete conectate de funcții diferențiabile imbricate.^[3]^[4]

În 1982, Format:Ill-wd a aplicat Format:Lang la MLP-uri în modul care a devenit standard.^[32]^[33] Werbos descria într-un interviu cum a dezvoltat Format:Lang. În 1971, în timpul lucrării sale de doctorat, el a dezvoltat Format:Lang pentru a matematiciza „fluxul de energie psihică” al lui Freud. S-a confruntat cu dificultăți repetate în publicarea lucrării, reușind abia în 1981.^[34]

Prin preajma lui 1982,^[34]Format:Rp Format:Ill-wd a dezvoltat independent^[35]Format:Rp Format:Lang și a predat algoritmul celor din cercul său de cercetare. El nu cita lucrări anterioare, deoarece nu le cunoștea. A publicat algoritmul mai întâi într-o lucrare din 1985, apoi, într-un articol din Nature din 1986, a descris o analiză experimentală a tehnicii.^[14] Aceste lucrări au devenit foarte citate, au contribuit la popularizarea lui Format:Lang și au coincis cu renașterea interesului de cercetare în rețelele neurale în anii 1980.^[17]^[36]^[37]

În 1985, metoda a fost descrisă și de David Parker.^[38] Format:Ill-wd a propus o formă alternativă de Format:Lang pentru rețelele neurale în teza sa de doctorat din 1987.^[39]

Descreșterea gradientului a avut nevoie de o perioadă considerabilă de timp pentru a ajunge la acceptare. Unele dintre obiecțiile inițiale au fost: că nu existau garanții că descreșterea gradientului poate atinge un minim global, ci doar un minim local; că neuronii erau „cunoscuți” de fiziologi ca producând semnale discrete (0/1), nu continue, iar cu semnale discrete, nu există nici un gradient de luat. Vezi interviul cu Geoffrey Hinton.^[34]

Primele succese

La acceptare au contribuit mai multe aplicații de antrenare a rețelelor neurale prin Format:Lang, uneori atingând popularitate în afara cercurilor de cercetare.

În 1987, Format:Ill-wd a învățat să convertească textul în limba engleză în pronunție. Sejnowski a încercat să-l antreneze atât cu Format:Lang, cât și cu mașina Boltzmann, dar a constatat că Format:Lang funcționează mult mai rapid, așa că l-a folosit pentru varianta finală de NETtalk.^[34]Format:Rp Programul NETtalk a avut un mare succes și a apărut în Format:Ill-wd.^[40]

În 1989, Dean A. Pomerleau a publicat ALVINN, o rețea neurală antrenată să Format:Ill-wd folosind Format:Lang.^[41]

Format:Ill-wd, publicat în 1989, recunoștea codurile poștale scrise de mână.

În 1992, Format:Ill-wd a atins nivelul unui jucător uman de table. Era un agent de învățare cu întârire, cu o rețea neurală cu două straturi, antrenată prin Format:Lang.^[42]

În 1993, Eric Wan a câștigat un concurs internațional de recunoaștere a șabloanelor cu Format:Lang.^[6]^[43]

După Format:Lang

În anii 2000 a pierdut din popularitate, dar a revenit în anii 2010, beneficiind de sisteme de calcul ieftine și puternice bazate pe GPU-uri. A fost mai ales cazul în domeniul recunoașterii vocale, Format:Ill-wd, prelucrării limbajului natural și cercetării învățării structurii limbajului (în care a fost folosită pentru a explica o varietate de fenomene legate de învățarea primei^[44] și celei de-a doua limbi^[45]).^[46]

Format:Lang a fost sugerat pentru a explica componentele Format:Ill-wd ale creierului uman, cum ar fi Format:Ill-wd și Format:Ill-wd.^[47]

În 2023, un algoritm de Format:Lang a fost implementat pe un procesor fotonic de către o echipă de la Universitatea Stanford.^[48]

Note de completare

Format:Notelist

Note bibliografice

↑ ^1,0 ^1,1 Format:Citat carte
↑ ^2,0 ^2,1 Format:Cite thesis
↑ ^3,0 ^3,1 Format:Citat revistă
↑ ^4,0 ^4,1 Format:Citat carte
↑ Format:Citat carte
↑ ^6,0 ^6,1 Format:Citat revistă
↑ Format:Citat revistă
↑ Format:Citat carte
↑ ^9,0 ^9,1 ^9,2 ^9,3 Format:Cite arXiv
↑ ^10,0 ^10,1 ^10,2 Format:Citat revistă
↑ ^11,0 ^11,1 Format:Citat carte
↑ ^12,0 ^12,1 Format:Citat revistă
↑ Format:Harvnb, "The term back-propagation is often misunderstood as meaning the whole learning algorithm for multilayer neural networks. Backpropagation refers only to the method for computing the gradient, while other algorithms, such as stochastic gradient descent, is used to perform learning using this gradient."
↑ ^14,0 ^14,1 Format:Citat revistă
↑ Format:Cite arXiv
↑ Format:Cite arXiv
↑ ^17,0 ^17,1 Format:Citat revistă
↑ Format:Citat revistă
↑ ^19,0 ^19,1 Format:Citat revistă
↑ Format:Citat revistă
↑ Format:Citat revistă
↑ Format:Citat carte
↑ Format:Citat revistă
↑ Format:Citat carte
↑ LeCun, Yann, et al. "A theoretical framework for back-propagation." Proceedings of the 1988 connectionist models summer school. Vol. 1. 1988.
↑ Format:Citat carte
↑ Format:Citat revistă
↑ Format:Citat revistă
↑ Format:Citat web
↑ Format:Citat revistă
↑ Format:Citat revistă
↑ Format:Citat carte
↑ Format:Citat carte
↑ ^34,0 ^34,1 ^34,2 ^34,3 Format:Citat carte
↑ Olazaran Rodriguez, Jose Miguel. A historical sociology of neural network research. PhD Dissertation. University of Edinburgh, 1991.
↑ Format:Citat carte
↑ Format:Citat carte
↑ Format:Citat carte
↑ Format:Cite thesis
↑ Format:Citat carte
↑ Format:Citat revistă
↑ Format:Citat carte
↑ Format:Citat carte
↑ Format:Citat revistă
↑ Format:Citat revistă
↑ Format:Citat web
↑ Format:Citat revistă
↑ Format:Citat web

Lectură suplimentară

Legături externe

[leibniz1676-1] 1,0 ^1,1 Format:Citat carte

[lin1970-2] 2,0 ^2,1 Format:Cite thesis

[lin1976-3] 3,0 ^3,1 Format:Citat revistă

[grie2012-4] 4,0 ^4,1 Format:Citat carte

[grie2008-5] Format:Citat carte

[schmidhuber2015-6] 6,0 ^6,1 Format:Citat revistă

[scholarpedia2015-7] Format:Citat revistă

[8] Format:Citat carte

[DLhistory-9] 9,0 ^9,1 ^9,2 ^9,3 Format:Cite arXiv

[kelley1960-10] 10,0 ^10,1 ^10,2 Format:Citat revistă

[bryson1961-11] 11,0 ^11,1 Format:Citat carte

[robbins1951-12] 12,0 ^12,1 Format:Citat revistă

[13] Format:Harvnb, "The term back-propagation is often misunderstood as meaning the whole learning algorithm for multilayer neural networks. Backpropagation refers only to the method for computing the gradient, while other algorithms, such as stochastic gradient descent, is used to perform learning using this gradient."

[learning-representations-14] 14,0 ^14,1 Format:Citat revistă

[15] Format:Cite arXiv

[16] Format:Cite arXiv

[RumelhartHintonWilliams1986a-17] 17,0 ^17,1 Format:Citat revistă

[Tan2018-18] Format:Citat revistă

[Wiliamowski2010-19] 19,0 ^19,1 Format:Citat revistă

[Martens2020-20] Format:Citat revistă

[21] Format:Citat revistă

[22] Format:Citat carte

[23] Format:Citat revistă

[24] Format:Citat carte

[25] LeCun, Yann, et al. "A theoretical framework for back-propagation." Proceedings of the 1988 connectionist models summer school. Vol. 1. 1988.

[26] Format:Citat carte

[27] Format:Citat revistă

[dreyfus1990-28] Format:Citat revistă

[29] Format:Citat web

[dreyfus1973-30] Format:Citat revistă

[Amari1967-31] Format:Citat revistă

[werbos1982-32] Format:Citat carte

[werbos1974-33] Format:Citat carte

[:1-34] 34,0 ^34,1 ^34,2 ^34,3 Format:Citat carte

[35] Olazaran Rodriguez, Jose Miguel. A historical sociology of neural network research. PhD Dissertation. University of Edinburgh, 1991.

[RumelhartHintonWilliams1986b-36] Format:Citat carte

[37] Format:Citat carte

[:0-38] Format:Citat carte

[39] Format:Cite thesis

[:02-40] Format:Citat carte

[41] Format:Citat revistă

[42] Format:Citat carte

[43] Format:Citat carte

[44] Format:Citat revistă

[45] Format:Citat revistă

[46] Format:Citat web

[47] Format:Citat revistă

[48] Format:Citat web

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

Backpropagation

Cuprins

Generalități

Înmulțire de matrici

Graful adjunct

Motivația

Învățarea ca problemă de optimizare

Derivare

Găsirea derivatei erorii

Descreșterea gradientului de ordinul doi

Funcția de cost

Ipoteze

Exemplu de funcție de cost

Limitări

Istorie

Precursori

Format:Lang modern

Primele succese

După Format:Lang

Note de completare

Note bibliografice

Lectură suplimentară

Legături externe

Meniu de navigare

Backpropagation

Generalități

Înmulțire de matrici

Graful adjunct

Motivația

Învățarea ca problemă de optimizare

Derivare

Găsirea derivatei erorii

Descreșterea gradientului de ordinul doi

Funcția de cost

Ipoteze

Exemplu de funcție de cost

Limitări

Istorie

Precursori

Format:Lang modern

Primele succese

După Format:Lang

Note de completare

Note bibliografice

Lectură suplimentară

Legături externe

Meniu de navigare

Căutare