Problem zanikających gradientów 📖 Wikipedia

Problem zanikających gradientów – problem dużych różnic w wielkościach gradientów pomiędzy wcześniejszymi i późniejszymi warstwami występujący podczas trenowania sieci neuronowych z propagacją wsteczną. W takich metodach wagi sieci neuronowych są aktualizowane proporcjonalnie do ich pochodnej cząstkowej funkcji straty^[1]. W miarę jak liczba kroków propagacji w sieci wzrasta, na przykład ze względu na większą głębokość sieci, gradienty wcześniejszych wag są obliczane przy coraz większej liczbie mnożeń. Te mnożenia zmniejszają wielkość gradientu ponieważ pochodne są zawsze z zakresu [0,1]^[2]. W konsekwencji gradienty wcześniejszych wag będą wykładniczo mniejsze od gradientów późniejszych wag. Ta różnica w wielkości gradientu może powodować niestabilność procesu szkoleniowego, spowalniać go lub całkowicie zatrzymać.

Problem odwrotny, w którym gradienty ciężaru we wcześniejszych warstwach stają się wykładniczo większe, nazywany jest problemem eksplodujących gradientów^[3].

Propagacja wsteczna pozwoliła badaczom na trenowanie od podstaw nadzorowanych głębokich sieci neuronowych, początkowo z niewielkim powodzeniem. W 1991 r. formalnie zidentyfikowano przyczynę tej awarii w problemie zanikających gradientów^[4], który dotyczy nie tylko wielowarstwowych sieci jednokierunkowych^[5], ale także sieci rekurencyjnych^[6]^[3].

Rozwiązania

edytuj

Istnieją metody rozwiązania tego problemu.

RNN

edytuj

W przypadku rekurencyjnych sieci neuronowych do rozwiązania problemu zaprojektowano sieć o długiej pamięci krótkotrwałej^[7].

W przypadku problemu eksplodującego gradientu można przycinać gradient, czyli dzielić wektor gradientu $g$ przez $\|g\|/g_{max}$ jeśli $\|g\|>g_{max}$ . Ogranicza to wektory gradientu w obrębie kuli o promieniu $g_{max}$ ^[3].

Normalizacja partiami

edytuj

Normalizacja partiami (batch normalization) jest metodą rozwiązywania problemów zarówno gradientu eksplodującego, jak i zanikającego^[8]^[9].

Szybszy sprzęt

edytuj

Postęp w sprzęcie sprawił, że od 1991 do 2015 r. moc obliczeniowa komputerów (zwłaszcza dostarczana przez procesory graficzne) wzrosła około miliona razy, dzięki czemu standardowa propagacja wsteczna stała się możliwa w sieciach o kilka warstw głębszych niż w momencie odkrycia problemu zanikających gradientów^[10]^[11].

Inicjalizacja wag

edytuj

Inicjalizacja wag to kolejne podejście zaproponowane w celu zredukowania problemu zanikającego gradientu w głębokich sieciach.

W 2022 roku przeprowadzono analizę teoretyczną dotyczącą wpływu średniej początkowych wag na gradienty w głębokich sieciach neuronowych przy użyciu logistycznej funkcji aktywacji i odkryto, że gradienty nie zanikają, jeżeli średnia początkowych wag jest ustawiona zgodnie ze wzorem: max(−1,-8/N) . Ta strategia pozwala na bardzo efektywne i wydajne trenowanie sieci z 10 lub 15 ukrytymi warstwami przy użyciu standardowej propagacji wstecznej^[12].

Przypisy

edytuj

↑ Sunitha Basodi. Gradient amplification: An efficient way to train deep neural networks. „Big Data Mining and Analytics”. 3 (3), s. 198, September 2020. DOI: 10.26599/BDMA.2020.9020004. arXiv:2006.10560. ISSN 2096-0654.
↑ Sztuczne Sieci Neuronowe [online] .
↑ ^a ^b ^c RazvanR. Pascanu RazvanR., TomasT. Mikolov TomasT., YoshuaY. Bengio YoshuaY., On the difficulty of training Recurrent Neural Networks, arXiv, 16 lutego 2013, DOI: 10.48550/arXiv.1211.5063 [dostęp 2025-04-09] .
↑ Untersuchungen zu dynamischen neuronalen Netzen [online], 1991 .
↑ Garrett B. Goh. Deep learning for computational chemistry. „Journal of Computational Chemistry”. 38 (16), s. 1291–1307, 2017-06-15. DOI: 10.1002/jcc.24764. arXiv:1701.04503. PMID: 28272810. Bibcode: 2017arXiv170104503G. (ang.).
↑ Y.Y. Bengio Y.Y., P.P. Frasconi P.P., P.P. Simard P.P., The problem of learning long-term dependencies in recurrent networks, IEEE International Conference on Neural Networks, marzec 1993, 1183–1188 vol.3, DOI: 10.1109/ICNN.1993.298725 [dostęp 2025-04-09] .
↑ (PDF) Long Short-Term Memory [online], ResearchGate [dostęp 2025-04-09] [zarchiwizowane z adresu 2025-03-07] (ang.).
↑ SergeyS. Ioffe SergeyS., ChristianCh. Szegedy ChristianCh., Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift, arXiv, 2 marca 2015, DOI: 10.48550/arXiv.1502.03167 [dostęp 2025-04-09] .
↑ ShibaniS. Santurkar ShibaniS., DimitrisD. Tsipras DimitrisD., AndrewA. Ilyas AndrewA., AleksanderA. Madry AleksanderA., How Does Batch Normalization Help Optimization?, t. 31, Curran Associates, Inc., 2018 [dostęp 2025-04-09] .
↑ JuergenJ. Schmidhuber JuergenJ., Deep Learning in Neural Networks: An Overview, arXiv, 8 października 2014, DOI: 10.48550/arXiv.1404.7828 [dostęp 2025-04-09] .
↑ Geoffrey E.G.E. Hinton Geoffrey E.G.E., SimonS. Osindero SimonS., Yee-WhyeY.W. Teh Yee-WhyeY.W., A fast learning algorithm for deep belief nets [online] .
↑ AhmetA. Yilmaz AhmetA., RiccardoR. Poli RiccardoR., Successfully and efficiently training deep multi-layer perceptrons with logistic activation function simply requires initializing the weights with an appropriate negative mean, „Neural Networks”, 153, 2022, s. 87–103, DOI: 10.1016/j.neunet.2022.05.030, ISSN 0893-6080 [dostęp 2025-04-09] .

[Basodi2020-1] Sunitha Basodi. Gradient amplification: An efficient way to train deep neural networks. „Big Data Mining and Analytics”. 3 (3), s. 198, September 2020. DOI: 10.26599/BDMA.2020.9020004. arXiv:2006.10560. ISSN 2096-0654.

[2] Sztuczne Sieci Neuronowe [online] .

[:0-3] RazvanR. Pascanu RazvanR., TomasT. Mikolov TomasT., YoshuaY. Bengio YoshuaY., On the difficulty of training Recurrent Neural Networks, arXiv, 16 lutego 2013, DOI: 10.48550/arXiv.1211.5063 [dostęp 2025-04-09] .

[4] Untersuchungen zu dynamischen neuronalen Netzen [online], 1991 .

[5] Garrett B. Goh. Deep learning for computational chemistry. „Journal of Computational Chemistry”. 38 (16), s. 1291–1307, 2017-06-15. DOI: 10.1002/jcc.24764. arXiv:1701.04503. PMID: 28272810. Bibcode: 2017arXiv170104503G. (ang.).

[6] Y.Y. Bengio Y.Y., P.P. Frasconi P.P., P.P. Simard P.P., The problem of learning long-term dependencies in recurrent networks, IEEE International Conference on Neural Networks, marzec 1993, 1183–1188 vol.3, DOI: 10.1109/ICNN.1993.298725 [dostęp 2025-04-09] .

[7] (PDF) Long Short-Term Memory [online], ResearchGate [dostęp 2025-04-09] [zarchiwizowane z adresu 2025-03-07] (ang.).

[8] SergeyS. Ioffe SergeyS., ChristianCh. Szegedy ChristianCh., Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift, arXiv, 2 marca 2015, DOI: 10.48550/arXiv.1502.03167 [dostęp 2025-04-09] .

[9] ShibaniS. Santurkar ShibaniS., DimitrisD. Tsipras DimitrisD., AndrewA. Ilyas AndrewA., AleksanderA. Madry AleksanderA., How Does Batch Normalization Help Optimization?, t. 31, Curran Associates, Inc., 2018 [dostęp 2025-04-09] .

[10] JuergenJ. Schmidhuber JuergenJ., Deep Learning in Neural Networks: An Overview, arXiv, 8 października 2014, DOI: 10.48550/arXiv.1404.7828 [dostęp 2025-04-09] .

[11] Geoffrey E.G.E. Hinton Geoffrey E.G.E., SimonS. Osindero SimonS., Yee-WhyeY.W. Teh Yee-WhyeY.W., A fast learning algorithm for deep belief nets [online] .

[12] AhmetA. Yilmaz AhmetA., RiccardoR. Poli RiccardoR., Successfully and efficiently training deep multi-layer perceptrons with logistic activation function simply requires initializing the weights with an appropriate negative mean, „Neural Networks”, 153, 2022, s. 87–103, DOI: 10.1016/j.neunet.2022.05.030, ISSN 0893-6080 [dostęp 2025-04-09] .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

Problem zanikających gradientów 📖 Wikipedia

Spis treści

Rozwiązania

RNN

Normalizacja partiami

Szybszy sprzęt

Inicjalizacja wag

Przypisy

📚 Artikel Terkait di Wikipedia

Normalizacja (statystyka)

Teoria wielkiej podmiany

Zespół nabytego niedoboru odporności

Transformer (sztuczna inteligencja)

Alicia Oshlack

Krzysztof Goździewski

Judea Pearl

Mikromacierz DNA