
La funzione di attivazione di un nodo in una rete neurale artificiale è una funzione che calcola l'output di un nodo in base ai suoi singoli input e ai loro pesi.[1]
Tra le funzioni di attivazione moderne figurano la funzione logistica (anche detta sigmoide) utilizzata nel modello di riconoscimento vocale del 2012 sviluppato da Hinton et al;[2] la ReLU utilizzata nel modello di visione artificiale AlexNet del 2012 [3][4] e nel modello ResNet del 2015; e la versione derivabile della ReLU, la GELU, che è stata utilizzata nel modello BERT del 2018.
Confronto delle funzioni di attivazione
modificaOltre alle loro prestazioni empiriche, le funzioni di attivazione possono avere proprietà matematiche tra loro differenti:
- Non linearità
- Per funzioni di attivazione non lineari si può dimostrare che una rete neurale a due strati con un sufficiente numero di neuroni può approssimare qualsiasi funzione continua su un insieme compatto.[5] Questo è noto come Teorema di approssimazione universale . La funzione di attivazione dell'identità non soddisfa questa proprietà. Quando più livelli utilizzano la funzione di attivazione dell'identità, l'intera rete equivale a un modello a livello singolo.
- Immagine
- Quando l'immagine della funzione di attivazione è finita, i metodi di addestramento basati sul gradiente tendono a essere più numericamente stabili. Il loro gradiente, però, tende generalmente a 0 per valori in ingresso che tendono a infinito (come per la funzione logistica), creando il problema della scomparsa del gradiente. Funzioni non limitate possono contrastare il fenomeno (ad esempio, la funzione ReLU ℝ).
- Continuità della derivata
- Questa proprietà è auspicabile (ma non necessaria, la funzione ReLU non è differenziabile in modo continuo e presenta alcuni problemi con l'ottimizzazione basata sul gradiente) per abilitare metodi di ottimizzazione basati sul gradiente. La funzione di attivazione a gradino, ad esempio, non è differenziabile a 0 e si differenzia a 0 per tutti gli altri valori, quindi i metodi basati sul gradiente non possono utilizzarla.[6]
Dettagli matematici
modificaFunzioni di attivazione comuni
modificaLe funzioni di attivazione più semplici sono quelle utilizzabili nei layer nascosti di una rete neurale feed-forward:
- Attivazione lineare : ,
- Attivazione ReLU : ,
- Attivazione di Heaviside : ,
- Attivazione logistica : .
Nelle reti neurali ispirate alla biologia, la funzione di attivazione è solitamente un'astrazione che rappresenta la velocità di attivazione del potenziale d'azione nella cellula neuronale.[7] Nella sua forma più semplice, questa funzione è binaria, cioè o il neurone si attiva oppure no. Inoltre, i neuroni hanno una frequenza massima di volte in cui possono attivarsi, il che può essere rappresentato da funzioni di attivazione la cui immagine è finita come la sigmoidea.
Se la funzione di attivazione scelta ha una coefficiente angolare positivo, d'altro canto, ciò potrebbe modellare l'aumento della frequenza di attivazione che si verifica all'aumentare della tensione di ingresso. Una tale funzione sarebbe della forma .

Funzioni di attivazione radiali
modificaNelle reti RBF si utilizza una classe speciale di funzioni di attivazione note come funzioni radiali di base (RBF). Queste attivazioni possono essere di diverso tipo, ma solitamente sono strutturate come una delle seguenti funzioni:
- Gaussiana :
- Multiquadratica:
- Multiquadratica inversa:
- Spline poliarmoniche
dove è il vettore che identifica il centro della funzione mentre E sono due fattori di forma che influenzano la diffusione del raggio.
Funzioni di aggregazione
modificaLe funzioni di aggregazione sono ampiamente utilizzate negli strati di pooling nelle reti neurali convoluzionali e negli strati di output delle reti di classificazione. Queste funzioni eseguono un'aggregazione sui dati ricevuti in input, ad esempio prendendone la media, il minimo o il massimo. Nella classificazione viene spesso utilizzata l'attivazione softmax. Nelle reti regressive, invece, sono di norma assenti.
Tabella delle funzioni di attivazione
modificaLa tabella seguente confronta le proprietà di diverse funzioni di attivazione a livello analitico (si noti che i nomi delle meno comuni non sono state tradotte dall'inglese per scarsità di letteratura scientifica in lingua italiana in materia):
| Nome | Grafico | Funzione, | Derivative of , | Immagine | Classe di continuità |
|---|---|---|---|---|---|
| Identità | |||||
| Gradino | |||||
| Logistica (o sigmoide) | |||||
| Tangente iperbolica (tanh) | |||||
| Soboleva modified hyperbolic tangent (smht)[8] |
|
||||
| Softsign | |||||
| Rettificatore o Rectified linear unit (ReLU)[9] | |||||
| Gaussian Error Linear Unit (GELU)[5] | dove è la funzione degli errori di Gauss. | dove è la densità di probabilità di una distribuzione gaussiana standard. | |||
| Softplus[10] | |||||
| Exponential linear unit (ELU)[11] |
|
||||
| Scaled exponential linear unit (SELU)[12] |
|
|
|||
| Leaky rectified linear unit (Leaky ReLU)[13] | |||||
| Parametric rectified linear unit (PReLU)[14] |
|
||||
| Rectified Parametric Sigmoid Units (flessibile, 5 parametri) |
dove [15] |
||||
| Sigmoid linear unit (SiLU,[5] Sigmoid shrinkage,[16] SiL,[17] o Swish[18]) | |||||
| Exponential Linear Sigmoid SquasHing (ELiSH)[19] | |||||
| Gaussiana | |||||
| Seno |
La tabella seguente elenca invece le funzioni di aggregazione più comuni:
| Nome | Equazione, | Derivata, | Immagine | Classe di continuità |
|---|---|---|---|---|
| Softmax | per i = 1, …, J | |||
| Maxout (massimo)[20] |
- Qui, è il delta di Kronecker.
- Per esempio, potrebbe iterare sui kernels del layer precedente della rete mentre itera sui kernel del layer corrente.
Note
modifica- ^ Neural Network (PDF), su University of Applied Sciences Northwestern Switzerland. URL consultato il 6 ottobre 2018 (archiviato dall'url originale il 6 ottobre 2018).
- ^ Geoffrey Hinton, Li Deng e Dong Yu, Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups, in IEEE Signal Processing Magazine, vol. 29, n. 6, 2012-11, pp. 82–97, DOI:10.1109/MSP.2012.2205597. URL consultato il 27 maggio 2025.
- ^ (EN) Alex Krizhevsky, Ilya Sutskever e Geoffrey E. Hinton, ImageNet classification with deep convolutional neural networks, in Communications of the ACM, vol. 60, n. 6, 24 maggio 2017, pp. 84–90, DOI:10.1145/3065386. URL consultato il 27 maggio 2025.
- ^ Norah A. Al-johania e Lamiaa A. Elrefaei, Dorsal Hand Vein Recognition by Convolutional Neural Networks: Feature Learning and Transfer Learning Approaches, in International Journal of Intelligent Engineering and Systems, vol. 12, n. 3, 2019, DOI:10.22266/ijies2019.0630.19.
- ^ a b c (EN) G. Cybenko, Approximation by superpositions of a sigmoidal function, in Mathematics of Control, Signals and Systems, vol. 2, n. 4, 1º dicembre 1989, pp. 303–314, DOI:10.1007/BF02551274. URL consultato il 27 maggio 2025.
- ^ Practical Mathematical Optimization: An Introduction to Basic Optimization Theory and Classical and New Gradient-Based Algorithms, collana Applied Optimization, Springer Science+Business Media, Inc, 2005, ISBN 978-0-387-24348-1.
- ^ (EN) A. L. Hodgkin e A. F. Huxley, A quantitative description of membrane current and its application to conduction and excitation in nerve, in The Journal of Physiology, vol. 117, n. 4, 1952, pp. 500–544, DOI:10.1113/jphysiol.1952.sp004764. URL consultato il 27 maggio 2025.
- ^ (RU) Elena Vladimirovna Soboleva e Vladimir Valentinovich Beskorovainyi, Функция для оценки полезности альтернатив в задачах структурной оптимизации территориально распределенных объектов., in Четверта наукова конференція Харківського університету Повітряних Сил імені Івана Кожедуба, 2008.
- ^ Vinod Nair e Geoffrey E. Hinton, Rectified linear units improve restricted boltzmann machines, in Proceedings of the 27th International Conference on International Conference on Machine Learning, Omnipress, 21 giugno 2010, pp. 807–814. URL consultato il 27 maggio 2025.
- ^ Xavier Glorot, Antoine Bordes e Yoshua Bengio, Deep Sparse Rectifier Neural Network (PDF).
- ^ Djork-Arné Clevert, Thomas Unterthiner e Sepp Hochreiter, Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs), 22 febbraio 2016, DOI:10.48550/arXiv.1511.07289. URL consultato il 27 maggio 2025.
- ^ Günter Klambauer, Thomas Unterthiner e Andreas Mayr, Self-Normalizing Neural Networks, 7 settembre 2017, DOI:10.48550/arXiv.1706.02515. URL consultato il 27 maggio 2025.
- ^ Andrew L. Maas, Rectifier Nonlinearities Improve Neural Network Acoustic Models, 2013.
- ^ (EN) Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification, su arXiv.org, 6 febbraio 2015. URL consultato il 27 maggio 2025.
- ^ vol. 160, DOI:10.1016/j.neunet.2022.12.019, PMID 36592526.
- ^ Abdourrahmane M. Atto, Dominique Pastor e Gregoire Mercier, Smooth sigmoid wavelet shrinkage for non-parametric estimation, in 2008 IEEE International Conference on Acoustics, Speech and Signal Processing, 2008-03, pp. 3265–3268, DOI:10.1109/ICASSP.2008.4518347. URL consultato il 27 maggio 2025.
- ^ Stefan Elfwing, Eiji Uchibe e Kenji Doya, Sigmoid-weighted linear units for neural network function approximation in reinforcement learning, in Neural Networks, vol. 107, 1º novembre 2018, pp. 3–11, DOI:10.1016/j.neunet.2017.12.012. URL consultato il 27 maggio 2025.
- ^ Prajit Ramachandran, Barret Zoph e Quoc V. Le, Searching for Activation Functions, 27 ottobre 2017, DOI:10.48550/arXiv.1710.05941. URL consultato il 27 maggio 2025.
- ^ Mina Basirat e Peter M. Roth, The Quest for the Golden Activation Function, 2 agosto 2018, DOI:10.48550/arXiv.1808.00783. URL consultato il 27 maggio 2025.
- ^ Ian J. Goodfellow, David Warde-Farley e Mehdi Mirza, Maxout Networks, 20 settembre 2013, DOI:10.48550/arXiv.1302.4389. URL consultato il 27 maggio 2025.
Voci correlate
modificaCollegamenti esterni
modifica- Vladimír Kunc e Jiří Kléma, Three Decades of Activations: A Comprehensive Survey of 400 Activation Functions for Neural Networks, 14 febbraio 2024, arXiv:2402.09092.
- Nwankpa et al., Activation Functions: Comparison of trends in Practice and Research for Deep Learning, 8 novembre 2018, arXiv:1811.03378.
- Shiv Ram Dubey, Satish Kumar Singh e Bidyut Baran Chaudhuri, Activation functions in deep learning: A comprehensive survey and benchmark, 7 settembre 2022, arXiv:arXiv:2109.14545.



