L'apprentissage profond[1],[2] ou apprentissage en profondeur[1] (en anglais : deep learning) est un sous-domaine de l’intelligence artificielle qui utilise des réseaux neuronaux artificiels composés de nombreuses couches pour résoudre des tâches complexes. L'apprentissage profond permet des progrès importants et rapides dans les domaines de l'analyse du signal sonore ou visuel, notamment de la reconnaissance faciale, de la reconnaissance vocale, de la vision par ordinateur, du traitement automatisé du langage. Les développements de l'apprentissage profond sont portés par des investissements privés et publics importants depuis les années 2010, notamment de la part des géants du Web[3].

Apprentissage profond
Partie de
Méthode d'apprentissage automatique (d)Voir et modifier les données sur Wikidata
Personne clé
Michal Valko (d)Voir et modifier les données sur Wikidata

Définition

modifier

Pour créer un modèle informatique prédictif de manière classique, on modélise les données par extraction de caractéristiques, cette dernière étant souvent effectuée au moyen d'un algorithme. Selon la méthode de l'apprentissage profond, l'extraction de caractéristiques résulte elle-même d'un processus d'apprentissage : on parle donc d'apprentissage de représentations. En pratique, la machine apprend des représentations hiérarchisées, souvent dans les couches cachées de réseaux de neurones artificiels, chacune étant définie à partir de représentations plus simples[DLB2016 1]. Ces représentations étant apprises directement à partir des données, cela évite que les humains aient à expliciter la manière de les construire au moyen d'un algorithme. Si l'on représente la manière dont ces représentations sont construites les unes à partir des autres au moyen d'un graphe, celui-ci contiendra de multiples couches, justifiant ainsi la qualification de « profond ».

 
Un exemple de réseau de neurones avec une seule couche cachée (en bleu) entre les couches d'entrée (en vert) et de sortie (en jaune).


 
Les premières couches d'un réseau neuronal convolutif identifient des motifs relativement simples, comme des contours, et les couches suivantes identifient des motifs de plus en plus complexes.

Historique

modifier

L'apprentissage profond est considéré comme « la troisième vague » de développement, après le « cybernétique » des années 1940-1960, puis le « connexionniste » des années 1980, chacun ayant été suivi par un hiver de l'intelligence artificielle[DLB2016 2]. Le concept d'apprentissage profond prend forme dans les années 2010, avec la convergence de trois facteurs[DLB2016 3] :

  • des avancées théoriques, notamment dues à Geoffrey Hinton, qui a proposé des approches de pré-entraînement permettant d'apprendre des architectures profondes[DLB2016 4] ;
  • le phénomène de Big data, qui a permis la mise à disposition de volumes colossaux de données numériques, nécessaires pour apprendre les architectures profondes[DLB2016 5] ;
  • l'avènement du GPGPU, consistant à effectuer des calculs génériques et utiles pour l'apprentissage d'architectures profondes au moyen de processeurs graphiques qui accélèrent les calculs[DLB2016 6].

En 2012, le modèle AlexNet, conçu par Alex Krizhevsky, Ilya Sutskever et leur directeur de thèse Geoffrey Hinton[4], obtient les meilleures performances lors de la campagne d'évaluation internationale ImageNet de reconnaissance d'images. Le réseau surpasse largement le deuxième[5] et popularise ainsi les approches par apprentissage profond en vision par ordinateur.

En 2015, le programme AlphaGo, un modèle neuronal profond qui a « appris » à jouer au jeu de go grâce à l'apprentissage par renforcement, bat le champion européen Fan Hui[6] par cinq parties à zéro. En mars 2016, le même programme bat le champion du monde Lee Sedol par 4 parties à 1[7]. Ces matches ont eu un fort retentissement dans le grand public, en particulier en Asie.

En 2017, à la conférence NIPS, des chercheurs travaillant pour la plupart dans des équipes de recherche de Google proposent l'architecture transformeur[8], qui servira peu de temps après de base aux grands modèles de langage. L'année suivante, l'entreprise propose le modèle BERT, basée sur la partie « encodeur » du transformeur. Ce modèle de langage permettra une amélioration significative des performances en traitement automatique des langues. La même année, OpenAI propose le modèle GPT, qui est pour sa part fondé sur la partie « décodeur » des transformeurs.

En 2018, Yann Le Cun, Yoshua Bengio et Geoffrey Hinton sont récipiendaires du prix Turing « Pour les percées conceptuelles et techniques qui ont fait des réseaux neuronaux profonds une composante essentielle de l'informatique[9] ». En 2024, Geoffrey Hinton et John Joseph Hopfield sont co-lauréats du prix Nobel de physique pour « leurs découvertes fondamentales et inventions qui ont rendu possible l'apprentissage automatique et les réseaux de neurones artificiels »[10]

En 2019, OpenAI publie GPT-2, un modèle de fondation capable de générer du texte. Tout en exprimant leurs inquiétudes sur les détournements possibles de ce type de technologie, les chercheurs de l'association renoncent à partager la version complète[11].

Domaines d'application

modifier

L'apprentissage profond s'applique à divers secteurs des NTIC, notamment :

Dans le système de santé, l'apprentissage profond peut aussi[3] :

En physique, l'apprentissage profond est utilisé pour la recherche sur les particules exotiques[43].

Réactions

modifier

Sont pointés de possibles usages malveillants de l'apprentissage profond. Il est devenu possible avec les hypertrucages d'incruster le visage d'une personne sur une autre, à son insu, et de lui faire faire ou dire des choses qu'elle n'a pas faites (comme dans le film Running Man de 1986), l'apprentissage profond recréant les mouvements du visage en rendant l'incrustation ressemblante. Ainsi, plusieurs actrices comme Gal Gadot, Emma Watson, Cara Delevingne, Emma Stone, Natalie Portman ou Scarlett Johansson se sont retrouvées avec leur visage incrusté sur celui d'une actrice pornographique, soulevant des craintes quant à la généralisation d'un tel usage, permettant à n'importe qui de nuire à la réputation d'une autre personne[44]. Face à ce danger, plusieurs plates-formes telles que Pornhub, Twitter et Reddit ont réagi en interdisant la publication de telles vidéos, et l'utilisateur « deepfakes », créateur du logiciel éponyme permettant à tout usager de créer des fausses vidéos à caractère pornographique, a été banni de Reddit et son fil dédié supprimé[45].

Notes et références

modifier
  1. a et b « apprentissage profond », Grand Dictionnaire terminologique, Office québécois de la langue française (consulté le 28 janvier 2020).
  2. Commission d'enrichissement de la langue française, « Vocabulaire de l’intelligence artificielle (liste de termes, expressions et définitions adoptés) », Journal officiel de la République française no 0285 du 9 décembre 2018 [lire en ligne] [PDF].
  3. a et b "Deep learning" : les dessous d'une technologie de rupture, analyse prospective, Futurible.
  4. (en) Alex Krizhevsky, Ilya Sutskever et Geoffrey E. Hinton, « ImageNet classification with deep convolutional neural networks », International Conference on Neural Information Processing System,‎ 2012 (lire en ligne [PDF]).
  5. « ImageNet Large Scale Visual Recognition Competition 2012 (ILSVRC2012) », sur Image-net (consulté le 12 mars 2024).
  6. David Larousserie et Morgane Tual, « Première défaite d’un professionnel du go contre une intelligence artificielle », Le Monde,‎ 27 janvier 2016 (lire en ligne).
  7. William Audureau, « Jeu de go : pour Lee Sedol, la victoire de la machine est moins tactique que psychologique », Le Monde,‎ 15 mars 2016 (ISSN 1950-6244, lire en ligne, consulté le 16 mars 2016).
  8. (en) Ashish Vaswani, « Attention Is All You Need », 2017.
  9. « Yann LeCun, lauréat du prix Turing : « L’IA continue de faire des progrès fulgurants » », Le Monde,‎ 27 mars 2019 (lire en ligne, consulté le 27 mars 2019).
  10. Denis Delbecq, « Le Nobel de physique récompense les pionniers de l'intelligence artificielle », Le Temps,‎ 8 octobre 2024 (lire en ligne, consulté le 31 janvier 2026).
  11. « OpenAI lance une version allégée de son générateur automatisé de textes GPT-2 », sur Le Monde informatique, 18 février 2019 (consulté le 9 octobre 2024).
  12. (en) Dan Cireşan, Ueli Meier, Jonathan Masci et Jürgen Schmidhuber, « Multi-column deep neural network for traffic sign classification », Neural Networks, vol. 32 « Selected Papers from IJCNN 2011 »,‎ août 2012, p. 333-338 (ISSN 0893-6080, e-ISSN 1879-2782, PMID 22386783, DOI 10.1016/j.neunet.2012.02.023).
  13. (en-US) lmunoz, « Dissecting Artificial Intelligence to Better Understand the Human Brain », sur Cognitive Neuroscience Society, 25 mars 2018 (consulté le 16 mars 2023).
  14. (en) Matthew Veres, Griffin Lacey et Graham W. Taylor, « Deep Learning Architectures for Soil Property Prediction », dans 2015 12th Conference on Computer and Robot Vision (CRV), 2015 (ISBN 978-1-4799-1986-4, DOI 10.1109/CRV.2015.15  , lire en ligne [PDF]).
  15. (en) D. Held, S. Thrun et S. Savarese (2015), « Deep Learning for Single-View Instance Recognition », arXiv preprint arXiv:1507.08286.
  16. (en) I. Mariolis, G. Peleka, A. Kargakos et S. Malassiotis, « Pose and category recognition of highly deformable objects using deep learning », International Conference on Advanced Robotics (ICAR), juillet 2015, p. 655-662, IEEE (résumé).
  17. M. Oberweger, P. Wohlhart et V. Lepetit (2015), « Hands Deep in Deep Learning for Hand Pose Estimation », arXiv preprint arXiv:1502.06807.
  18. A. Kendall et R. Cipolla (2015), « Modelling Uncertainty in Deep Learning for Camera Relocalization », arXiv preprint arXiv:1509.05909 (résumé).
  19. (en) Rose Moskolai, Wahabou Abdou, Albert Dipanda et Kolyang, « Application of Deep Learning Architectures for Satellite Image Time Series Prediction: A Review », Remote Sensing, vol. 13, no 23,‎ 2021, p. 4822 (lire en ligne).
  20. « DeepArt, l'ordinateur qui peint votre portrait », sur actu.epfl.ch, 11 avril 16 (consulté le 5 juillet 2016).
  21. (en) M. Cai, Y. Shi et J. Liu (2013), « Deep maxout neural networks for speech recognition », Automatic Speech Recognition and Understanding (ASRU), 2013 IEEE Workshop, p. 291-296, IEEE, 198.
  22. (en) W. Y. Lim, A. Ong, L. L. Soh et A. Sufi (2016), « Teachers' Voices and Change: The Structure and Agency Dialectics that Shaped Teachers' Pedagogy Toward Deep Learning », Future Learning in Primary Schools, p. 147-158, Springer Singapore.
  23. (en) S. E. Kahou, X. Bouthillier, P. Lamblin, C. Gulcehre, V. Michalski, K. Konda, … et Y. Bengio (2015). EmoNets: Multimodal deep learning approaches for emotion recognition in video. arXiv preprint arXiv:1503.01800.
  24. a et b (en) Jian Zhou et Olga G Troyanskaya, « Predicting effects of noncoding variants with deep learning–based sequence model », Nature Methods, vol. 12, no 10,‎ octobre 2015, p. 931–934 (ISSN 1548-7091 et 1548-7105, PMID 26301843, PMCID PMC4768299, DOI 10.1038/nmeth.3547).
  25. a et b B. Alipanahi, A. Delong, M. T. Weirauch et B. J. Frey (2015), « Predicting the sequence specificities of DNA-and RNA-binding proteins by deep learning », Nature Biotechnology (résumé).
  26. (en) John Jumper, Richard Evans, Alexander Pritzel et Tim Green, « Highly accurate protein structure prediction with AlphaFold », Nature, vol. 596, no 7873,‎ 26 août 2021, p. 583–589 (ISSN 0028-0836 et 1476-4687, PMID 34265844, PMCID PMC8371605, DOI 10.1038/s41586-021-03819-2).
  27. David Louapre, Le Labo du jeu vidéo, Paris, Albin Michel, coll. « Sciences », 2026, 432 p. (ISBN 978-2-226-49023-0), 1 – Du pixel au photon, chap. 7 (« Des effets comme au cinéma »), p. 101-102.
  28. (en) A. Halpern et J. R. Smith (octobre 2015), « Deep Learning, Sparse Coding, and SVM for Melanoma Recognition in Dermoscopy Images », dans Machine Learning in Medical Imaging: 6th International Workshop, MLMI 2015, organisé en conjunction avec MICCAI 2015, Munich, Allemagne, 5 octobre 2015, Proceedings (Vol. 9 352, p. 118), Springer (résumé).
  29. (en) Andre Esteva, Brett Kuprel, Roberto A. Novoa et Justin Ko, « Dermatologist-level classification of skin cancer with deep neural networks », Nature, vol. 542, no 7639,‎ 2 février 2017, p. 115–118 (ISSN 0028-0836 et 1476-4687, PMID 28117445, PMCID PMC8382232, DOI 10.1038/nature21056, lire en ligne, consulté le 3 février 2024).
  30. (en) Laetitia Jeancolas, Dijana Petrovska-Delacrétaz, Graziella Mangone, Badr-Eddine Benkelfat, Jean-Christophe Corvol, Marie Vidailhet, Stéphane Lehéricy et Habib Benali, « X-Vectors: New Quantitative Biomarkers for Early Parkinson's Disease Detection From Speech », Frontiers in Neuroinformatics, vol. 15,‎ 2021 (ISSN 1662-5196, DOI 10.3389/fninf.2021.578369, lire en ligne).
  31. (en) Varun Gulshan, Lily Peng, Marc Coram et Martin C. Stumpe, « Development and Validation of a Deep Learning Algorithm for Detection of Diabetic Retinopathy in Retinal Fundus Photographs », JAMA, vol. 316, no 22,‎ 13 décembre 2016, p. 2402 (ISSN 0098-7484, DOI 10.1001/jama.2016.17216, lire en ligne, consulté le 3 février 2024).
  32. « NASA/ADS », sur ui.adsabs.harvard.edu (consulté le 3 février 2024).
  33. (en) Travers Ching, Daniel S. Himmelstein, Brett K. Beaulieu-Jones et Alexandr A. Kalinin, « Opportunities and obstacles for deep learning in biology and medicine », Journal of The Royal Society Interface, vol. 15, no 141,‎ avril 2018, p. 20170387 (ISSN 1742-5689 et 1742-5662, PMID 29618526, PMCID PMC5938574, DOI 10.1098/rsif.2017.0387, lire en ligne, consulté le 3 février 2024).
  34. (en) Patrick Schwab, Gaetano Scebba, Jia Zhang et Marco Delai, « Beat by Beat: Classifying Cardiac Arrhythmias with Recurrent Neural Networks », 2017.
  35. (en) G. S. Collins, J. B. Reitsma, D. G. Altman et K. G. M. Moons, « Transparent reporting of a multivariable prediction model for individual prognosis or diagnosis (TRIPOD): the TRIPOD statement », BMJ, vol. 350, no jan07 4,‎ 7 janvier 2015, g7594–g7594 (ISSN 1756-1833, DOI 10.1136/bmj.g7594, lire en ligne, consulté le 3 février 2024).
  36. (en) Alvin Rajkomar, Eyal Oren, Kai Chen et Andrew M. Dai, « Scalable and accurate deep learning with electronic health records », npj Digital Medicine, vol. 1, no 1,‎ 8 mai 2018 (ISSN 2398-6352, PMID 31304302, PMCID PMC6550175, DOI 10.1038/s41746-018-0029-1, lire en ligne, consulté le 3 février 2024).
  37. (en) Riccardo Miotto, Fei Wang, Shuang Wang et Xiaoqian Jiang, « Deep learning for healthcare: review, opportunities and challenges », Briefings in Bioinformatics, vol. 19, no 6,‎ 27 novembre 2018, p. 1236–1246 (ISSN 1467-5463 et 1477-4054, PMID 28481991, PMCID PMC6455466, DOI 10.1093/bib/bbx044, lire en ligne, consulté le 3 février 2024).
  38. (en) Riccardo Miotto, Li Li, Brian A. Kidd et Joel T. Dudley, « Deep Patient: An Unsupervised Representation to Predict the Future of Patients from the Electronic Health Records », Scientific Reports, vol. 6, no 1,‎ 17 mai 2016 (ISSN 2045-2322, PMID 27185194, PMCID PMC4869115, DOI 10.1038/srep26094, lire en ligne, consulté le 3 février 2024).
  39. Olivier Lascar, « Le système de reconnaissance visuelle Horus destiné aux aveugles doit tout au "deep learning" », sur Sciences et Avenir.fr, 9 janvier 2017 (consulté le 21 février 2018).
  40. (en) H. Tembine, « Deep Learning Meets Game Theory: Bregman-Based Algorithms for Interactive Deep Generative Adversarial Networks », IEEE Transactions on Cybernetics,‎ 2018, p. 1–14 (DOI 10.1109/TCYB.2018.2886238, lire en ligne, consulté le 14 octobre 2019).
  41. P. Baldi et S. Brunak (1998), « Bioinformatics, the Machine Learning Approach », MIT Press, 579.
  42. (en) Anindya Gupta, Philip J. Harrison, Håkan Wieslander et Nicolas Pielawski, « Deep Learning in Image Cytometry: A Review », Cytometry Part A, vol. 95, no 4,‎ 2019, p. 366–380 (ISSN 1552-4930, DOI 10.1002/cyto.a.23701, lire en ligne, consulté le 23 avril 2019).
  43. (en) P. Baldi, P. Sadowski et D. Whiteson (2014), « Searching for exotic particles in highenergy physics with deep learning », Nature Communications, 5, 23.
  44. (en-US) « Facial Recognition for Porn Stars Is a Privacy Nightmare Waiting to Happen », Motherboard,‎ 11 octobre 2017 (lire en ligne, consulté le 26 janvier 2018).
  45. « Le porno avec des stars incrustées dedans n’est pas le bienvenu sur Internet », Madmoizelle,‎ 8 février 2018 (lire en ligne, consulté le 8 février 2018).
  1. Deep learning book, p. 1.
  2. p. 13.
  3. Deep learning book, p. 18 à 23.
  4. p. 18 et 19
  5. p. 19
  6. p. 20 et 23

Voir aussi

modifier

Articles connexes

modifier

Notions

modifier

Logiciels

modifier

Théoriciens

modifier

Liens externes

modifier

Bibliographie

modifier

📚 Artikel Terkait di Wikipedia

Dilemme biais-variance

élevé et une variance faible (voir ci-dessous). Avec la méthode d'Instance-based learning (en), la régularisation peut être obtenue en variant le mélange

Cryptographie post-quantique

Waters, « Homomorphic Encryption from Learning with Errors: Conceptually-Simpler, Asymptotically-Faster, Attribute-Based », Crypto,‎ 2013 (DOI 10.1007/978-3-642-40041-4_5

Weka (informatique)

Pfahringer and E. Frank, « Proper: A Toolbox for Learning from Relational Data with Propositional and Multi-Instance Learners », 17th Australian Joint Conference

Apprentissage fondé sur l'explication

L'apprentissage fondé sur l'explication (en anglais explanation-based learning (EBL)) est une forme d'apprentissage automatique reposant sur la théorie

Fonction de coût par triplet

Ailon et Elad Hoffer, « Deep metric learning using Triplet network », International Workshop on Similarity-Based Pattern Recognition (conférence),‎ 20

YOLO (You Only Look Once)

« Comprehensive review of recent developments in visual object detection based on deep learning », Electrical & Electronic Engineering, Physics, and Computational

Apprentissage actif

Wrobel, « Multi-class Ensemble-Based Active Learning », ECML'06 Proceedings of the 17th European conference on Machine Learning,‎ 2006, p. 687 - 694 (lire

Détection d'anomalies

soft computing et l'apprentissage par induction (en anglais inductive learning). ELKI (en) est un logiciel Java d'exploration de données open source qui