L'Optimisation bayésienne est une stratégie de conception séquentielle pour l'optimisation globale de fonctions boîte noire[1],[2],[3], qui ne présume aucune forme fonctionnelle. Elle est généralement employée pour optimiser des fonctions coûteuses à évaluer. Avec l'essor de l'intelligence artificielle au XXIe siècle, les optimisations bayésiennes trouvent une utilisation marquante dans des problèmes d'apprentissage automatique pour optimiser les valeurs d'hyperparamètre[4],[5].
Historique
modifierLe terme est généralement attribué à Jonas Mockus et se trouve dans son travail issu d'une série de publications sur l'optimisation globale dans les années 1970 et 1980[6],[7],[1]
Stratégie
modifierL'optimisation bayésienne est typiquement utilisée pour des problèmes de la forme , où est un ensemble de points, , qui reposent sur au plus 20 dimensions ( ) et dont l'appartenance s'évalue facilement. L'optimisation bayésienne présente un avantage particulier pour des problèmes où est difficile à évaluer en raison de son coût computationnel. La fonction objectif, , est continue et prend la forme d'une structure inconnue, qualifiée de "boîte noire". Lors de son évaluation, seule s'observe et ses dérivées ne s'évaluent pas[9].
Puisque la fonction objectif est inconnue, la stratégie bayésienne consiste à la traiter comme une fonction aléatoire et à lui appliquer un prior. Le prior capte les croyances concernant le comportement de la fonction. Après la collecte des évaluations de la fonction, traitées comme des données, le prior se met à jour pour former la distribution a posteriori sur la fonction objectif. La distribution a posteriori s'utilise ensuite pour construire une fonction d'acquisition (souvent également appelée critère d'échantillonnage complémentaire) qui détermine le prochain point d'interrogation.
Il existe plusieurs méthodes pour définir la distribution a priori/a posteriori sur la fonction objectif. Les deux méthodes les plus courantes utilisent des processus gaussiens dans une méthode appelée krigeage. Une autre méthode moins coûteuse s'emploie avec l'estimation par arbre de Parzen pour construire deux distributions pour les points « élevés » et « bas », puis trouve l'emplacement qui maximise l'amélioration attendue[10].
L'optimisation bayésienne standard repose sur la facilité d'évaluation de chaque et les problèmes qui dévient de cette hypothèse sont connus sous le nom de problèmes d'« optimisation bayésienne exotique ». Les problèmes d'optimisation deviennent exotiques s'il s'avère qu'il existe du bruit, que les évaluations s'effectuent en parallèle, que la qualité des évaluations repose sur un compromis entre difficulté et précision, sur la présence de conditions environnementales aléatoires ou si l'évaluation implique des dérivées[9].
Fonctions d'acquisition
modifierDes exemples de fonctions d'acquisition comprennent
- la probabilité d'amélioration,
- l'amélioration attendue,
- les pertes bayésiennes attendues,
- les bornes de confiance supérieures (UCB) ou inférieures,
- échantillonnage de Thompson,
et leurs hybrides[11]. Elles équilibrent le dilemme exploration–exploitation afin de minimiser le nombre d'interrogations de la fonction. Ainsi, l'optimisation bayésienne convient particulièrement aux fonctions coûteuses à évaluer.
Méthodes de résolution
modifierLe maximum de la fonction d'acquisition se trouve typiquement en recourant à la discrétisation ou par l'intermédiaire d'un optimiseur auxiliaire. Les fonctions d'acquisition se maximisent en utilisant une technique d'optimisation numérique, telle que la méthode de Newton en optimisation ou des méthodes quasi-Newton comme l'algorithme Broyden–Fletcher–Goldfarb–Shanno.
Applications
modifierL'approche s'applique à une large gamme de problèmes[12], y compris l'apprentissage par classement[13], l'infographie et design visuel[14],[15],[16], la robotique[17],[18],[19],[20], les réseaux de capteurs[21],[22] ; la configuration automatique d'algorithmes[23],[24], l'AutoML[25],[26],[27], l'apprentissage par renforcement[28] ; planification, attention visuelle, configuration d'architecture dans l'apprentissage profond, analyse statique de programme, physique expérimentale des particules[29],[30] ; optimisation de la diversité-qualité[31],[32],[33] ; chimie, conception de matériaux et développement de médicaments[34],[35].
L'optimisation bayésienne s'applique dans le domaine de la reconnaissance faciale[36]. La performance de l'algorithme Histogram of Oriented Gradients (HOG), méthode populaire d'extraction de caractéristiques, repose fortement sur ses paramètres[36]. Optimiser ces paramètres s'avère difficile mais crucial pour atteindre une haute précision[36]. Une approche novatrice pour optimiser les paramètres de l'algorithme HOG et la taille d'image pour la reconnaissance faciale, utilisant une technique d'optimisation bayésienne basée sur l'estimation par arbre de Parzen (TPE), est proposée[36]. Cette approche optimisée a le potentiel d'être adaptée à d'autres applications en vision par ordinateur et contribue au développement continu des algorithmes d'extraction de caractéristiques élaborés manuellement en vision par ordinateur[36].
Voir aussi
modifierRéférences
modifier- (en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Bayesian optimization » (voir la liste des auteurs).
- J. Močkus, Bayesian Approach to Global Optimization, Dordrecht, Kluwer Academic, 1989 (ISBN 0-7923-0115-3)
- ↑ Roman Garnett, Bayesian Optimization, Cambridge University Press, 2023 (ISBN 978-1-108-42578-0, lire en ligne)
- ↑ Hennig, P., Osborne, M. A. et Kersting, H. P., Probabilistic Numerics, Cambridge University Press, 2022, 243–278 p. (ISBN 978-1107163447, lire en ligne)
- ↑ Jasper Snoek, « Practical Bayesian Optimization of Machine Learning Algorithms », Advances in Neural Information Processing Systems 25 (NIPS 2012), vol. 25, 2012 (arXiv 1206.2944, lire en ligne)
- ↑ Aaron Klein, « Fast bayesian optimization of machine learning hyperparameters on large datasets », Proceedings of the 20th International Conference on Artificial Intelligence and Statistics, PMLR, 2017, p. 528–536 (arXiv 1605.07079, lire en ligne)
- ↑ Jonas Močkus, Optimization Techniques IFIP Technical Conference Novosibirsk, July 1–7, 1974, vol. 27, coll. « Lecture Notes in Computer Science », 1975, 400–404 p. (ISBN 978-3-540-07165-5, DOI 10.1007/3-540-07165-2_55 ), « On bayesian methods for seeking the extremum »
- ↑ Jonas Močkus, « On Bayesian Methods for Seeking the Extremum and their Application », IFIP Congress, 1977, p. 195–200
- ↑ Samuel Wilson, ParBayesianOptimization R package, 22 novembre 2019 (lire en ligne)
- (en) Peter I. Frazier, « A Tutorial on Bayesian Optimization », 8 juillet 2018.
- ↑ J. S. Bergstra, R. Bardenet, Y. Bengio, B. Kégl: Algorithms for Hyper-Parameter Optimization. Advances in Neural Information Processing Systems: 2546–2554 (2011)
- ↑ Matthew W. Hoffman, Eric Brochu, Nando de Freitas: Portfolio Allocation for Bayesian Optimization. Uncertainty in Artificial Intelligence: 327–336 (2011)
- ↑ Eric Brochu, Vlad M. Cora, Nando de Freitas: A Tutorial on Bayesian Optimization of Expensive Cost Functions, with Application to Active User Modeling and Hierarchical Reinforcement Learning. CoRR abs/1012.2599 (2010)
- ↑ Eric Brochu, Nando de Freitas, Abhijeet Ghosh: Active Preference Learning with Discrete Choice Data. Advances in Neural Information Processing Systems: 409-416 (2007)
- ↑ Eric Brochu, Tyson Brochu, Nando de Freitas: A Bayesian Interactive Optimization Approach to Procedural Animation Design. Symposium on Computer Animation 2010: 103–112
- ↑ Yuki Koyama, Issei Sato, Daisuke Sakamoto, Takeo Igarashi: Sequential Line Search for Efficient Visual Design Optimization by Crowds. ACM Transactions on Graphics, Volume 36, Issue 4, pp.48:1–48:11 (2017). DOI: https://doi.org/10.1145/3072959.3073598
- ↑ Yuki Koyama, Issei Sato, Masataka Goto: Sequential Gallery for Interactive Visual Design Optimization. ACM Transactions on Graphics, Volume 39, Issue 4, pp.88:1–88:12 (2020). DOI: https://doi.org/10.1145/3386569.3392444
- ↑ Daniel J. Lizotte, Tao Wang, Michael H. Bowling, Dale Schuurmans: Automatic Gait Optimization with Gaussian Process Regression« https://web.archive.org/web/20170812175417/http://www.aaai.org/Papers/IJCAI/2007/IJCAI07-152.pdf »(Archive.org • Wikiwix • Google • Que faire ?), 12 août 2017
- ↑ Ruben Martinez-Cantin, Nando de Freitas, Eric Brochu, Jose Castellanos and Arnaud Doucet. A Bayesian exploration-exploitation approach for optimal online sensing and planning with a visually guided mobile robot. Autonomous Robots. Volume 27, Issue 2, pp.93–103 (2009)
- ↑ Scott Kuindersma, Roderic Grupen, and Andrew Barto. Variable Risk Control via Stochastic Optimization. International Journal of Robotics Research, volume 32, number 7, pp.806–825 (2013)
- ↑ Roberto Calandra, André Seyfarth, Jan Peters, and Marc P. Deisenroth Bayesian optimization for learning gaits under uncertainty. Ann. Math. Artif. Intell. Volume 76, Issue 1, pp.5-23 (2016) DOI:10.1007/s10472-015-9463-9
- ↑ Niranjan Srinivas, Andreas Krause, Sham M. Kakade, Matthias W. Seeger: Information-Theoretic Regret Bounds for Gaussian Process Optimization in the Bandit Setting. IEEE Transactions on Information Theory 58(5):3250–3265 (2012)
- ↑ Roman Garnett, Michael A. Osborne et Stephen J. Roberts « Proceedings of the 9th International Conference on Information Processing in Sensor Networks, IPSN 2010, April 12–16, 2010, Stockholm, Sweden » (2010) (DOI 10.1145/1791212.1791238)
- ↑ Frank Hutter, Holger Hoos, and Kevin Leyton-Brown (2011). Sequential model-based optimization for general algorithm configuration, Learning and Intelligent Optimization
- ↑ J. Snoek, H. Larochelle, R. P. Adams Practical Bayesian Optimization of Machine Learning Algorithms. Advances in Neural Information Processing Systems: 2951-2959 (2012)
- ↑ J. Bergstra, D. Yamins, D. D. Cox (2013). Hyperopt: A Python Library for Optimizing the Hyperparameters of Machine Learning Algorithms. Proc. SciPy 2013.
- ↑ Chris Thornton, Frank Hutter, Holger H. Hoos, Kevin Leyton-Brown: Auto-WEKA: combined selection and hyperparameter optimization of classification algorithms. KDD 2013:847–855
- ↑ Jasper Snoek, Hugo Larochelle and Ryan Prescott Adams. Practical Bayesian Optimization of Machine Learning Algorithms. Advances in Neural Information Processing Systems, 2012
- ↑ (en) Felix Berkenkamp, Safe Exploration in Reinforcement Learning: Theory and Applications in Robotics (thèse), ETH Zurich, 2019 (DOI 10.3929/ethz-b-000370833, hdl 20.500.11850/370833, lire en ligne)
- ↑ Philip Ilten, Mike Williams, Yunjie Yang. Event generator tuning using Bayesian optimization. 2017 JINST 12 P04028. DOI: 10.1088/1748-0221/12/04/P04028
- ↑ Evaristo Cisbani et al. AI-optimized detector design for the future Electron-Ion Collider: the dual-radiator RICH case 2020 JINST 15 P05009. DOI: 10.1088/1748-0221/15/05/P05009
- ↑ (en) Paul Kent, Adam Gaier, Jean-Baptiste Mouret et Juergen Branke, « BOP-Elites, a Bayesian Optimisation Approach to Quality Diversity Search with Black-Box descriptor functions », 19 juillet 2023. Preprint: Arxiv.
- ↑ Paul Kent et Juergen Branke, Proceedings of the Genetic and Evolutionary Computation Conference, New York, NY, USA, Association for Computing Machinery, coll. « GECCO '23 », 12 juillet 2023, 1019–1026 p. (ISBN 979-8-4007-0119-1, DOI 10.1145/3583131.3590486, S2CID 259833672, lire en ligne), « Bayesian Quality Diversity Search with Interactive Illumination »
- ↑ Adam Gaier, Alexander Asteroth et Jean-Baptiste Mouret, « Data-Efficient Design Exploration through Surrogate-Assisted Illumination », Evolutionary Computation, vol. 26, no 3, 1er septembre 2018, p. 381–410 (ISSN 1063-6560, PMID 29883202, DOI 10.1162/evco_a_00231 , arXiv 1806.05865, S2CID 47003986)
- ↑ Gomez-Bombarelli et al. Automatic Chemical Design using a Data-Driven Continuous Representation of Molecules. ACS Central Science, Volume 4, Issue 2, 268-276 (2018)
- ↑ Griffiths et al. Constrained Bayesian Optimization for Automatic Chemical Design using Variational Autoencoders Chemical Science: 11, 577-586 (2020)
- Mohammed Mehdi Bouchene: Bayesian Optimization of Histogram of Oriented Gradients (Hog) Parameters for Facial Recognition. SSRN (2023)