Nell'ambito dell'apprendimento supervisionato e discipline affini, l'algoritmo k-nearest neighbors (traducibile come dei k vicini più prossimi), abbreviato in algoritmo k-NN, è un metodo non parametrico di classificazione o regressione che si basa direttamente sul dataset di addestramento e su una misura di similarità per decidere il valore di una variabile di output, rispettivamente categorica o continua [1][2][3]. In entrambi i casi, per ogni nuovo esempio x* si trovano i k esempi di addestramento (k numero intero positivo) più simili / vicini nello spazio determinato dalle feature ossia le variabili di input utilizzate per descrivere gli esempi. L'output y* dipende dal problema da risolvere:
- Nella classificazione k-NN, l'output è l'etichetta di una classe. L'oggetto x* viene classificato attraverso un voto di maggioranza, ossia l'oggetto sarà assegnato alla classe corrispondente all'etichetta più comune tra i suoi k vicini più prossimi.
- Nella regressione k-NN, l'output è il valore y* della variabile di output per l'oggetto x* calcolato come media dei valori dei k vicini più prossimi.
Caratteristiche principali
modificaÈ l'algoritmo più semplice fra quelli utilizzati nell'apprendimento automatico.
Il parametro k
modificaUn oggetto è classificato in base alla maggioranza dei voti dei suoi k vicini. k è un intero positivo tipicamente non molto grande. Se k=1 allora l'oggetto viene assegnato alla classe del suo vicino. In caso di problema di classificazione binario, ossia in cui sono previste esclusivamente due classi, è opportuno scegliere k dispari per evitare di ritrovarsi in situazioni di parità.
Questo metodo può essere utilizzato per la tecnica di regressione assegnando all'oggetto la media dei valori dei k oggetti suoi vicini.
Considerando solo i voti dei k oggetti vicini c'è l'inconveniente dovuto alla predominanza delle classi con più oggetti. In questo caso può risultare utile pesare i contributi dei vicini in modo da dare, nel calcolo della media, maggior importanza in base alla distanza dall'oggetto considerato.
Scelta del parametro k
modificaLa scelta di k dipende dalle caratteristiche dei dati. Generalmente all'aumentare di k si riduce il rumore che compromette la classificazione, ma il criterio di scelta per la classe diventa più labile. La scelta può esser presa attraverso tecniche di euristica, come ad esempio la convalida incrociata.
L'algoritmo
modificaFase di apprendimento
modificaLo spazio viene partizionato in regioni in base alle posizioni e alle caratteristiche degli oggetti di apprendimento. Questo può essere considerato come l'insieme d'apprendimento per l'algoritmo, anche se esso non è esplicitamente richiesto dalle condizioni iniziali.
Calcolo della distanza
modificaAi fini del calcolo della distanza gli oggetti sono rappresentati attraverso vettori di posizione in uno spazio multidimensionale. Di solito viene usata la distanza euclidea, ma anche altri tipi di distanza sono ugualmente utilizzabili, ad esempio la distanza Manhattan. Nel caso in cui si debbano manipolare stringhe e non numeri si possono usare altre distanze quali ad esempio la distanza di Hamming. L'algoritmo è sensibile alla struttura locale dei dati.
Fase di classificazione
modificaUn punto (che rappresenta un oggetto) è assegnato alla classe C se questa è la più frequente fra i k esempi più vicini all'oggetto sotto esame, la vicinanza si misura in base alla distanza fra punti. I vicini sono presi da un insieme di oggetti per cui è nota la classificazione corretta. Nel caso della regressione per il calcolo della media (classificazione) si usa il valore della proprietà considerata.
Esempio di utilizzo
modifica
In figura è rappresentato un esempio di classificazione mediante kNN. Il punto sotto osservazione è il pallino verde. Le classi sono due:
- quella dei triangolini rossi;
- quella dei quadratini blu.
Se k = 3 (cioè vengono considerati i 3 oggetti più vicini), allora il pallino verde viene inserito nella stessa classe dei triangolini rossi perché sono presenti 2 triangolini e 1 quadratino. Se k = 5 allora viene inserito nella stessa classe dei quadratini blu perché sono presenti 3 quadratini e 2 triangolini.
Valutazioni
modificaInconvenienti
modificaIl calcolo delle distanze è computazionalmente oneroso e proporzionale alla taglia dell'insieme di dati sotto esame. Gli algoritmi proposti che migliorano questo inconveniente cercano principalmente di diminuire il numero di distanze da calcolare per la decisione. In alcuni casi si cerca di partizionare lo spazio vettoriale e si calcolano solo le distanze tra volumi dello spazio vettoriale.
Algoritmi simili
modificaDi seguito sono elencati alcuni algoritmi della tipologia k-NN:
- Finestre di Parzen
- k-Most Similar Neighbour (k-MSN)
- Large Margin Nearest Neighbor
- Linear scan
- Kd-trees
- Balltrees
- Metric trees
- Locality-sensitive hashing (LSH)
- Agglomerative-Nearest-Neighbour
- Redundant Bit Vectors (RBV)
Pregi
modificaAl tendere della quantità di dati all'infinito l'algoritmo non supera mai di due volte il Bayes error rate (il minimo errore dovuto alla distribuzione dei dati). Per alcuni valori di k, con k che cresce in funzione della mole di dati, l'algoritmo raggiunge il Bayes error rate.
Variabili continue
modificak-NN può essere utilizzato, con opportuni adattamenti, per stimare variabili continue. Questo tipo di implementazione utilizza una media pesata basata sull'inverso della distanza.
Note
modifica- ^ (EN) Fix, Evelyn; Hodges, Joseph L., Discriminatory Analysis. Nonparametric Discrimination: Consistency Properties (Tech. Report) (PDF), su apps.dtic.mil, 1951. URL consultato il 27 settembre 2025 (archiviato dall'url originale il 15 settembre 2020).
- ^ T. Cover e P. Hart, Nearest neighbor pattern classification, in IEEE Transactions on Information Theory, vol. 13, n. 1, 1967-01, pp. 21–27, DOI:10.1109/TIT.1967.1053964.
- ^ Tom M. Mitchell, Ch. 8 (PDF), in Machine learning, McGraw-Hill, 2013, ISBN 978-0-07-042807-2.
Bibliografia
modifica- (EN) Belur V. Dasarathy (a cura di), Nearest neighbor (NN) norms: nn pattern classification techniques, IEEE Computer Society Press ; IEEE Computer Society Press Tutorial, 1991, ISBN 978-0-8186-8930-7.
- (EN) G. Shakhnarovish, T. Darrell, P. Indyk (a cura di), Nearest-neighbor methods in learning and vision: theory and practice, collana Neural information processing series, MIT Press, 2005, ISBN 978-0-262-19547-8.
- Trevor Hastie, Robert Tibshirani e Jerome Friedman, 13. Prototype Methods and Nearest-Neighbors, in The Elements of Statistical Learning, collana Springer Series in Statistics, Springer New York, 2009, DOI:10.1007/978-0-387-84858-7, ISBN 978-0-387-84857-0.
Collegamenti esterni
modifica- Eda Kavlakoglu, Che cos'è l'algoritmo KNN?, su ibm.com, IBM. URL consultato l'8 aprile 2026.
- (EN) Bharani Kumar, KNN Classifier, su 360digitmg.com, 360DigiTMG, 17 luglio 2024. URL consultato l'8 aprile 2026.
- (EN) Paul Lammertsma, K-nearest neighbour algorithm in Visual Basic and Java, su paul.luminos.nl (archiviato dall'url originale il 29 settembre 2007).
- (EN) Roberto Paredes Palacios, CPW: Class and Prototype Weights learning, su dsic.upv.es (archiviato dall'url originale il 15 dicembre 2007).