Funzioni di attivazione 📖 Wikipedia

La funzione di attivazione di un nodo in una rete neurale artificiale è una funzione che calcola l'output di un nodo in base ai suoi singoli input e ai loro pesi.^[1]

Tra le funzioni di attivazione moderne figurano la funzione logistica (anche detta sigmoide) utilizzata nel modello di riconoscimento vocale del 2012 sviluppato da Hinton et al;^[2] la ReLU utilizzata nel modello di visione artificiale AlexNet del 2012 ^[3]^[4] e nel modello ResNet del 2015; e la versione derivabile della ReLU, la GELU, che è stata utilizzata nel modello BERT del 2018.

Confronto delle funzioni di attivazione

modifica

Oltre alle loro prestazioni empiriche, le funzioni di attivazione possono avere proprietà matematiche tra loro differenti:

Non linearità
: Per funzioni di attivazione non lineari si può dimostrare che una rete neurale a due strati con un sufficiente numero di neuroni può approssimare qualsiasi funzione continua su un insieme compatto.^[5] Questo è noto come Teorema di approssimazione universale . La funzione di attivazione dell'identità non soddisfa questa proprietà. Quando più livelli utilizzano la funzione di attivazione dell'identità, l'intera rete equivale a un modello a livello singolo.
Immagine: Quando l'immagine della funzione di attivazione è finita, i metodi di addestramento basati sul gradiente tendono a essere più numericamente stabili. Il loro gradiente, però, tende generalmente a 0 per valori in ingresso che tendono a infinito (come per la funzione logistica), creando il problema della scomparsa del gradiente. Funzioni non limitate possono contrastare il fenomeno (ad esempio, la funzione ReLU ℝ).
Continuità della derivata
: Questa proprietà è auspicabile (ma non necessaria, la funzione ReLU non è differenziabile in modo continuo e presenta alcuni problemi con l'ottimizzazione basata sul gradiente) per abilitare metodi di ottimizzazione basati sul gradiente. La funzione di attivazione a gradino, ad esempio, non è differenziabile a 0 e si differenzia a 0 per tutti gli altri valori, quindi i metodi basati sul gradiente non possono utilizzarla.^[6]

Dettagli matematici

modifica

Funzioni di attivazione comuni

modifica

Le funzioni di attivazione più semplici sono quelle utilizzabili nei layer nascosti di una rete neurale feed-forward:

Attivazione lineare : $\phi (\mathbf {v} )=a+\mathbf {v} '\mathbf {b}$ ,
Attivazione ReLU : $\phi (\mathbf {v} )=\max(0,a+\mathbf {v} '\mathbf {b} )$ ,
Attivazione di Heaviside : $\phi (\mathbf {v} )=1_{a+\mathbf {v} '\mathbf {b} >0}$ ,
Attivazione logistica : $\phi (\mathbf {v} )=(1+\exp(-a-\mathbf {v} '\mathbf {b} ))^{-1}$ .

Nelle reti neurali ispirate alla biologia, la funzione di attivazione è solitamente un'astrazione che rappresenta la velocità di attivazione del potenziale d'azione nella cellula neuronale.^[7] Nella sua forma più semplice, questa funzione è binaria, cioè o il neurone si attiva oppure no. Inoltre, i neuroni hanno una frequenza massima di volte in cui possono attivarsi, il che può essere rappresentato da funzioni di attivazione la cui immagine è finita come la sigmoidea.

Se la funzione di attivazione scelta ha una coefficiente angolare positivo, d'altro canto, ciò potrebbe modellare l'aumento della frequenza di attivazione che si verifica all'aumentare della tensione di ingresso. Una tale funzione sarebbe della forma $\phi (\mathbf {v} )=a+\mathbf {v} '\mathbf {b}$ .

Funzioni di attivazione radiali

modifica

Nelle reti RBF si utilizza una classe speciale di funzioni di attivazione note come funzioni radiali di base (RBF). Queste attivazioni possono essere di diverso tipo, ma solitamente sono strutturate come una delle seguenti funzioni:

Gaussiana : $\,\phi (\mathbf {v} )=\exp \left(-{\frac {\|\mathbf {v} -\mathbf {c} \|^{2}}{2\sigma ^{2}}}\right)$
Multiquadratica: $\,\phi (\mathbf {v} )={\sqrt {\|\mathbf {v} -\mathbf {c} \|^{2}+a^{2}}}$
Multiquadratica inversa: $\,\phi (\mathbf {v} )=\left(\|\mathbf {v} -\mathbf {c} \|^{2}+a^{2}\right)^{-{\frac {1}{2}}}$
Spline poliarmoniche

dove $\mathbf {c}$ è il vettore che identifica il centro della funzione mentre $a$ E $\sigma$ sono due fattori di forma che influenzano la diffusione del raggio.

Funzioni di aggregazione

modifica

Le funzioni di aggregazione sono ampiamente utilizzate negli strati di pooling nelle reti neurali convoluzionali e negli strati di output delle reti di classificazione. Queste funzioni eseguono un'aggregazione sui dati ricevuti in input, ad esempio prendendone la media, il minimo o il massimo. Nella classificazione viene spesso utilizzata l'attivazione softmax. Nelle reti regressive, invece, sono di norma assenti.

Tabella delle funzioni di attivazione

modifica

La tabella seguente confronta le proprietà di diverse funzioni di attivazione a livello analitico (si noti che i nomi delle meno comuni non sono state tradotte dall'inglese per scarsità di letteratura scientifica in lingua italiana in materia):

Nome	Grafico	Funzione, $g(x)$	Derivative of $g$ , $g'(x)$	Immagine	Classe di continuità
Identità		$x$	$1$	$(-\infty ,\infty )$	$C^{\infty }$
Gradino		${\begin{cases}0&{\text{se }}x<0\\1&{\text{se }}x\geq 0\end{cases}}$	$0$	$\{0,1\}$	$C^{-1}$
Logistica (o sigmoide)		$\sigma (x)\doteq {\frac {1}{1+e^{-x}}}$	$g(x)(1-g(x))$	$(0,1)$	$C^{\infty }$
Tangente iperbolica (tanh)		$\tanh(x)\doteq {\frac {e^{x}-e^{-x}}{e^{x}+e^{-x}}}$	$1-g(x)^{2}$	$(-1,1)$	$C^{\infty }$
Soboleva modified hyperbolic tangent (smht)^[8]		$\operatorname {smht} (x)\doteq {\frac {e^{ax}-e^{-bx}}{e^{cx}+e^{-dx}}}$		$(-1,1)$	$C^{\infty }$
Softsign		${\frac {x}{1+\|x\|}}$	${\frac {1}{(1+\|x\|)^{2}}}$	$(-\infty ,+\infty )$	$C^{1}$
Rettificatore o Rectified linear unit (ReLU)^[9]		${\begin{aligned}(x)^{+}\doteq {}&{\begin{cases}0&{\text{se }}x\leq 0\\x&{\text{se }}x>0\end{cases}}\\={}&\max(0,x)=x{\textbf {1}}_{x>0}\end{aligned}}$	${\begin{cases}0&{\text{se }}x<0\\1&{\text{se }}x>0\end{cases}}$	$[0,\infty )$	$C^{0}$
Gaussian Error Linear Unit (GELU)^[5]		${\begin{aligned}&{\frac {1}{2}}x\left(1+{\text{erf}}\left({\frac {x}{\sqrt {2}}}\right)\right)\\{}={}&x\Phi (x)\end{aligned}}$ dove $\mathrm {erf}$ è la funzione degli errori di Gauss.	$\Phi (x)+{\frac {1}{2}}x\phi (x)$ dove $\phi (x)={\frac {1}{\sqrt {2\pi }}}e^{-{\frac {1}{2}}x^{2}}$ è la densità di probabilità di una distribuzione gaussiana standard.	$(-0.17\ldots ,\infty )$	$C^{\infty }$
Softplus^[10]		$\ln \left(1+e^{x}\right)$	${\frac {1}{1+e^{-x}}}$	$(0,\infty )$	$C^{\infty }$
Exponential linear unit (ELU)^[11]		${\begin{cases}\alpha \left(e^{x}-1\right)&{\text{se }}x\leq 0\\x&{\text{se }}x>0\end{cases}}$ con parametro $\alpha$	${\begin{cases}\alpha e^{x}&{\text{se }}x<0\\1&{\text{se }}x>0\end{cases}}$	$(-\alpha ,\infty )$	${\begin{cases}C^{1}&{\text{if }}\alpha =1\\C^{0}&{\text{otherwise}}\end{cases}}$
Scaled exponential linear unit (SELU)^[12]		$\lambda {\begin{cases}\alpha (e^{x}-1)&{\text{se }}x<0\\x&{\text{se }}x\geq 0\end{cases}}$ con parametri $\lambda =1.0507$ e $\alpha =1.67326$	$\lambda {\begin{cases}\alpha e^{x}&{\text{se }}x<0\\1&{\text{se }}x\geq 0\end{cases}}$	$(-\lambda \alpha ,\infty )$	$C^{0}$
Leaky rectified linear unit (Leaky ReLU)^[13]		${\begin{cases}0.01x&{\text{se }}x\leq 0\\x&{\text{se }}x>0\end{cases}}$	${\begin{cases}0.01&{\text{se }}x<0\\1&{\text{se }}x>0\end{cases}}$	$(-\infty ,\infty )$	$C^{0}$
Parametric rectified linear unit (PReLU)^[14]		${\begin{cases}\alpha x&{\text{se }}x<0\\x&{\text{se }}x\geq 0\end{cases}}$ con parametro $\alpha$	${\begin{cases}\alpha &{\text{se }}x<0\\1&{\text{se }}x\geq 0\end{cases}}$	$(-\infty ,\infty )$	$C^{0}$
Rectified Parametric Sigmoid Units (flessibile, 5 parametri)	Rectified Parametric Sigmoid Units	$\alpha (2x{1}_{\{x\geqslant \lambda \}}-g_{\lambda ,\sigma ,\mu ,\beta }(x))+(1-\alpha )g_{\lambda ,\sigma ,\mu ,\beta }(x)$ dove $g_{\lambda ,\sigma ,\mu ,\beta }(x)={\frac {(x-\lambda ){1}_{\{x\geqslant \lambda \}}}{1+e^{-\operatorname {sgn}(x-\mu )\left({\frac {\vert x-\mu \vert }{\sigma }}\right)^{\beta }}}}$ ^[15]	$-$	$(-\infty ,+\infty )$	$C^{0}$
Sigmoid linear unit (SiLU,^[5] Sigmoid shrinkage,^[16] SiL,^[17] o Swish^[18])		${\frac {x}{1+e^{-x}}}$	${\frac {1+e^{-x}+xe^{-x}}{\left(1+e^{-x}\right)^{2}}}$	$[-0.278\ldots ,\infty )$	$C^{\infty }$
Exponential Linear Sigmoid SquasHing (ELiSH)^[19]	Funzione di attivazione ELiSH plottata sull'intervallo [-3, 3]. Il valore minimo pari a circa ~0.881 viene raggiunto in x ~= -0.172.	${\begin{cases}{\frac {e^{x}-1}{1+e^{-x}}}&{\text{se }}x<0\\{\frac {x}{1+e^{-x}}}&{\text{se }}x\geq 0\end{cases}}$	${\begin{cases}{\frac {2e^{2x}+e^{3x}-e^{x}}{e^{2x}+2e^{x}+1}}&{\text{se }}x<0\\{\frac {xe^{x}+e^{2x}+e^{x}}{e^{2x}+2e^{x}+1}}&{\text{se }}x\geq 0\end{cases}}$	$[-0.881\ldots ,\infty )$	$C^{1}$
Gaussiana		$e^{-x^{2}}$	$-2xe^{-x^{2}}$	$(0,1]$	$C^{\infty }$
Seno		$\sin x$	$\cos x$	$[-1,1]$	$C^{\infty }$

La tabella seguente elenca invece le funzioni di aggregazione più comuni:

Nome	Equazione, $g_{i}\left({\vec {x}}\right)$	Derivata, ${\frac {\partial g_{i}\left({\vec {x}}\right)}{\partial x_{j}}}$	Immagine	Classe di continuità
Softmax	${\frac {e^{x_{i}}}{\sum _{j=1}^{J}e^{x_{j}}}}$ per i = 1, …, J	$g_{i}\left({\vec {x}}\right)\left(\delta _{ij}-g_{j}\left({\vec {x}}\right)\right)$	$(0,1)$	$C^{\infty }$
Maxout (massimo)^[20]	$\max _{i}x_{i}$	${\begin{cases}1&{\text{se }}j={\underset {i}{\operatorname {argmax} }}\,x_{i}\\0&{\text{se }}j\neq {\underset {i}{\operatorname {argmax} }}\,x_{i}\end{cases}}$	$(-\infty ,\infty )$	$C^{0}$

Qui,

\delta _{ij}

è il delta di Kronecker.

Per esempio,

j

potrebbe iterare sui kernels del layer precedente della rete mentre

i

itera sui kernel del layer corrente.

Note

modifica

^ Neural Network (PDF), su University of Applied Sciences Northwestern Switzerland. URL consultato il 6 ottobre 2018 (archiviato dall'url originale il 6 ottobre 2018).
^ Geoffrey Hinton, Li Deng e Dong Yu, Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups, in IEEE Signal Processing Magazine, vol. 29, n. 6, 2012-11, pp. 82–97, DOI:10.1109/MSP.2012.2205597. URL consultato il 27 maggio 2025.
^ (EN) Alex Krizhevsky, Ilya Sutskever e Geoffrey E. Hinton, ImageNet classification with deep convolutional neural networks, in Communications of the ACM, vol. 60, n. 6, 24 maggio 2017, pp. 84–90, DOI:10.1145/3065386. URL consultato il 27 maggio 2025.
^ Norah A. Al-johania e Lamiaa A. Elrefaei, Dorsal Hand Vein Recognition by Convolutional Neural Networks: Feature Learning and Transfer Learning Approaches, in International Journal of Intelligent Engineering and Systems, vol. 12, n. 3, 2019, DOI:10.22266/ijies2019.0630.19.
^ ^a ^b ^c (EN) G. Cybenko, Approximation by superpositions of a sigmoidal function, in Mathematics of Control, Signals and Systems, vol. 2, n. 4, 1º dicembre 1989, pp. 303–314, DOI:10.1007/BF02551274. URL consultato il 27 maggio 2025.
^ Practical Mathematical Optimization: An Introduction to Basic Optimization Theory and Classical and New Gradient-Based Algorithms, collana Applied Optimization, Springer Science+Business Media, Inc, 2005, ISBN 978-0-387-24348-1.
^ (EN) A. L. Hodgkin e A. F. Huxley, A quantitative description of membrane current and its application to conduction and excitation in nerve, in The Journal of Physiology, vol. 117, n. 4, 1952, pp. 500–544, DOI:10.1113/jphysiol.1952.sp004764. URL consultato il 27 maggio 2025.
^ (RU) Elena Vladimirovna Soboleva e Vladimir Valentinovich Beskorovainyi, Функция для оценки полезности альтернатив в задачах структурной оптимизации территориально распределенных объектов., in Четверта наукова конференція Харківського університету Повітряних Сил імені Івана Кожедуба, 2008.
^ Vinod Nair e Geoffrey E. Hinton, Rectified linear units improve restricted boltzmann machines, in Proceedings of the 27th International Conference on International Conference on Machine Learning, Omnipress, 21 giugno 2010, pp. 807–814. URL consultato il 27 maggio 2025.
^ Xavier Glorot, Antoine Bordes e Yoshua Bengio, Deep Sparse Rectifier Neural Network (PDF).
^ Djork-Arné Clevert, Thomas Unterthiner e Sepp Hochreiter, Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs), 22 febbraio 2016, DOI:10.48550/arXiv.1511.07289. URL consultato il 27 maggio 2025.
^ Günter Klambauer, Thomas Unterthiner e Andreas Mayr, Self-Normalizing Neural Networks, 7 settembre 2017, DOI:10.48550/arXiv.1706.02515. URL consultato il 27 maggio 2025.
^ Andrew L. Maas, Rectifier Nonlinearities Improve Neural Network Acoustic Models, 2013.
^ (EN) Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification, su arXiv.org, 6 febbraio 2015. URL consultato il 27 maggio 2025.
^ vol. 160, DOI:10.1016/j.neunet.2022.12.019, PMID 36592526.
^ Abdourrahmane M. Atto, Dominique Pastor e Gregoire Mercier, Smooth sigmoid wavelet shrinkage for non-parametric estimation, in 2008 IEEE International Conference on Acoustics, Speech and Signal Processing, 2008-03, pp. 3265–3268, DOI:10.1109/ICASSP.2008.4518347. URL consultato il 27 maggio 2025.
^ Stefan Elfwing, Eiji Uchibe e Kenji Doya, Sigmoid-weighted linear units for neural network function approximation in reinforcement learning, in Neural Networks, vol. 107, 1º novembre 2018, pp. 3–11, DOI:10.1016/j.neunet.2017.12.012. URL consultato il 27 maggio 2025.
^ Prajit Ramachandran, Barret Zoph e Quoc V. Le, Searching for Activation Functions, 27 ottobre 2017, DOI:10.48550/arXiv.1710.05941. URL consultato il 27 maggio 2025.
^ Mina Basirat e Peter M. Roth, The Quest for the Golden Activation Function, 2 agosto 2018, DOI:10.48550/arXiv.1808.00783. URL consultato il 27 maggio 2025.
^ Ian J. Goodfellow, David Warde-Farley e Mehdi Mirza, Maxout Networks, 20 settembre 2013, DOI:10.48550/arXiv.1302.4389. URL consultato il 27 maggio 2025.

Voci correlate

modifica

Collegamenti esterni

modifica

Vladimír Kunc e Jiří Kléma, Three Decades of Activations: A Comprehensive Survey of 400 Activation Functions for Neural Networks, 14 febbraio 2024, arXiv:2402.09092.
Nwankpa et al., Activation Functions: Comparison of trends in Practice and Research for Deep Learning, 8 novembre 2018, arXiv:1811.03378.
Shiv Ram Dubey, Satish Kumar Singh e Bidyut Baran Chaudhuri, Activation functions in deep learning: A comprehensive survey and benchmark, 7 settembre 2022, arXiv:arXiv:2109.14545.

Portale Informatica: accedi alle voci di Wikipedia che trattano di informatica

[1] Neural Network (PDF), su University of Applied Sciences Northwestern Switzerland. URL consultato il 6 ottobre 2018 (archiviato dall'url originale il 6 ottobre 2018).

[2] Geoffrey Hinton, Li Deng e Dong Yu, Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups, in IEEE Signal Processing Magazine, vol. 29, n. 6, 2012-11, pp. 82–97, DOI:10.1109/MSP.2012.2205597. URL consultato il 27 maggio 2025.

[3] (EN) Alex Krizhevsky, Ilya Sutskever e Geoffrey E. Hinton, ImageNet classification with deep convolutional neural networks, in Communications of the ACM, vol. 60, n. 6, 24 maggio 2017, pp. 84–90, DOI:10.1145/3065386. URL consultato il 27 maggio 2025.

[4] Norah A. Al-johania e Lamiaa A. Elrefaei, Dorsal Hand Vein Recognition by Convolutional Neural Networks: Feature Learning and Transfer Learning Approaches, in International Journal of Intelligent Engineering and Systems, vol. 12, n. 3, 2019, DOI:10.22266/ijies2019.0630.19.

[:0-5] (EN) G. Cybenko, Approximation by superpositions of a sigmoidal function, in Mathematics of Control, Signals and Systems, vol. 2, n. 4, 1º dicembre 1989, pp. 303–314, DOI:10.1007/BF02551274. URL consultato il 27 maggio 2025.

[6] Practical Mathematical Optimization: An Introduction to Basic Optimization Theory and Classical and New Gradient-Based Algorithms, collana Applied Optimization, Springer Science+Business Media, Inc, 2005, ISBN 978-0-387-24348-1.

[7] (EN) A. L. Hodgkin e A. F. Huxley, A quantitative description of membrane current and its application to conduction and excitation in nerve, in The Journal of Physiology, vol. 117, n. 4, 1952, pp. 500–544, DOI:10.1113/jphysiol.1952.sp004764. URL consultato il 27 maggio 2025.

[8] (RU) Elena Vladimirovna Soboleva e Vladimir Valentinovich Beskorovainyi, Функция для оценки полезности альтернатив в задачах структурной оптимизации территориально распределенных объектов., in Четверта наукова конференція Харківського університету Повітряних Сил імені Івана Кожедуба, 2008.

[9] Vinod Nair e Geoffrey E. Hinton, Rectified linear units improve restricted boltzmann machines, in Proceedings of the 27th International Conference on International Conference on Machine Learning, Omnipress, 21 giugno 2010, pp. 807–814. URL consultato il 27 maggio 2025.

[10] Xavier Glorot, Antoine Bordes e Yoshua Bengio, Deep Sparse Rectifier Neural Network (PDF).

[11] Djork-Arné Clevert, Thomas Unterthiner e Sepp Hochreiter, Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs), 22 febbraio 2016, DOI:10.48550/arXiv.1511.07289. URL consultato il 27 maggio 2025.

[12] Günter Klambauer, Thomas Unterthiner e Andreas Mayr, Self-Normalizing Neural Networks, 7 settembre 2017, DOI:10.48550/arXiv.1706.02515. URL consultato il 27 maggio 2025.

[13] Andrew L. Maas, Rectifier Nonlinearities Improve Neural Network Acoustic Models, 2013.

[14] (EN) Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification, su arXiv.org, 6 febbraio 2015. URL consultato il 27 maggio 2025.

[refrepsu1-15] vol. 160, DOI:10.1016/j.neunet.2022.12.019, PMID 36592526.

[16] Abdourrahmane M. Atto, Dominique Pastor e Gregoire Mercier, Smooth sigmoid wavelet shrinkage for non-parametric estimation, in 2008 IEEE International Conference on Acoustics, Speech and Signal Processing, 2008-03, pp. 3265–3268, DOI:10.1109/ICASSP.2008.4518347. URL consultato il 27 maggio 2025.

[17] Stefan Elfwing, Eiji Uchibe e Kenji Doya, Sigmoid-weighted linear units for neural network function approximation in reinforcement learning, in Neural Networks, vol. 107, 1º novembre 2018, pp. 3–11, DOI:10.1016/j.neunet.2017.12.012. URL consultato il 27 maggio 2025.

[18] Prajit Ramachandran, Barret Zoph e Quoc V. Le, Searching for Activation Functions, 27 ottobre 2017, DOI:10.48550/arXiv.1710.05941. URL consultato il 27 maggio 2025.

[19] Mina Basirat e Peter M. Roth, The Quest for the Golden Activation Function, 2 agosto 2018, DOI:10.48550/arXiv.1808.00783. URL consultato il 27 maggio 2025.

[20] Ian J. Goodfellow, David Warde-Farley e Mehdi Mirza, Maxout Networks, 20 settembre 2013, DOI:10.48550/arXiv.1302.4389. URL consultato il 27 maggio 2025.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

Funzioni di attivazione 📖 Wikipedia

Indice

Confronto delle funzioni di attivazione

Dettagli matematici

Funzioni di attivazione comuni

Funzioni di attivazione radiali

Funzioni di aggregazione

Tabella delle funzioni di attivazione

Note

Voci correlate

Collegamenti esterni

📚 Artikel Terkait di Wikipedia

Gradient boosting

Funzione di Huber

Percettrone multistrato

Problema dello zaino

Ottimizzazione stocastica

CoffeeScript

Interpolazione

Equazione di Hill (matematica)