Model językowy – model zdolności ludzkiego mózgu do tworzenia języka naturalnego[1]. Modele językowe są przydatne w przypadku wielu zadań, w tym rozpoznawania mowy[2], tłumaczenia maszynowego[3], generowania języka naturalnego (generowania tekstu bardziej przypominającego tekst pisany przez człowieka), optycznego rozpoznawania znaków, optymalizacji tras[4], rozpoznawania pisma ręcznego[5], inferencji gramatyki[6] i wyszukiwania informacji[7][8].
Duże modele językowe (LLM), obecnie najbardziej zaawansowana forma modeli językowych, opierają się głównie na transformerach trenowanych na większych zbiorach danych (często przy użyciu danych pozyskanych z publicznego Internetu). Zastąpiły one modele oparte na rekurencyjnych sieciach neuronowych, które wcześniej zastąpiły modele czysto statystyczne, takie jak model n-gramowy.
Historia
edytujNoam Chomsky w latach 50. XX wieku przeprowadził pionierską pracę nad modelami języka, opracowując teorię gramatyk formalnych[9].
W 1980 roku zaczęto badać podejścia statystyczne i odkryto, że są one dla wielu celów bardziej przydatne niż gramatyki formalne oparte na regułach. Dyskretne reprezentacje, takie jak modele językowe n-gram, stały się najbardziej popularne[10].
W latach 2000. ciągłe reprezentacje słów, takie jak osadzenia słów, zaczęły zastępować reprezentacje dyskretne[11].
Przypisy
edytuj- ↑ Speech and Language Processing [online], web.stanford.edu [dostęp 2025-06-09] [zarchiwizowane z adresu 2022-05-22].
- ↑ R. Kuhn, R. De Mori, A cache-based natural language model for speech recognition, „IEEE Transactions on Pattern Analysis and Machine Intelligence”, 12 (6), 1990, s. 570–583, DOI: 10.1109/34.56193, ISSN 1939-3539 [dostęp 2025-06-09].
- ↑ Jacob Andreas, Andreas Vlachos, Stephen Clark, Semantic Parsing as Machine Translation, „ACL Anthology”, sierpień 2013 [dostęp 2025-06-09] [zarchiwizowane z adresu 2020-08-15] (ang.).
- ↑ Yang Liu i inni, Can language models be used for real-world urban-delivery route optimization?, „The Innovation”, 4 (6), 2023, DOI: 10.1016/j.xinn.2023.100520, ISSN 2666-6758, PMID: 37869471, PMCID: PMC10587631 [dostęp 2025-06-09] (ang.).
- ↑ Pham i inni, Dropout improves Recurrent Neural Networks for Handwriting Recognition, „arXiv.org”, 5 listopada 2013, arXiv:1312.4569 [dostęp 2025-06-09] [zarchiwizowane 2020-11-11] (ang.).
- ↑ Phu Mon Htut, Kyunghyun Cho, Samuel R. Bowman, Grammar Induction with Neural Language Models: An Unusual Replication, „arXiv”, 2018, DOI: 10.48550/arXiv.1808.10000, arXiv:1808.10000 [dostęp 2025-06-09].
- ↑ Jay M. Ponte, W. Bruce Croft, A language modeling approach to information retrieval, „Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval”, SIGIR '98, New York, NY, USA: Association for Computing Machinery, 1998, s. 275–281, DOI: 10.1145/290941.291008, ISBN 978-1-58113-015-7 [dostęp 2025-06-09].
- ↑ Djoerd Hiemstra, A Linguistically Motivated Probabilistic Model of Information Retrieval, Christos Nikolaou, Constantine Stephanidis (red.), „Research and Advanced Technology for Digital Libraries”, Berlin, Heidelberg: Springer, 1998, s. 569–584, DOI: 10.1007/3-540-49653-X_34, ISBN 978-3-540-49653-3 [dostęp 2025-06-09] (ang.).
- ↑ N. Chomsky, Three models for the description of language, „IRE Transactions on Information Theory”, 2 (3), 1956, s. 113–124, DOI: 10.1109/TIT.1956.1056813, ISSN 2168-2712 [dostęp 2025-06-09].
- ↑ R. Rosenfeld, Two decades of statistical language modeling: where do we go from here?, „Proceedings of the IEEE”, 88 (8), 2000, s. 1270–1278, DOI: 10.1109/5.880083, ISSN 1558-2256 [dostęp 2025-06-09].
- ↑ The Nature Of Life, The Nature Of Thinking: Looking Back On Eugene Charniak’s Work And Life [online], 22 lutego 2022 [dostęp 2025-06-09] [zarchiwizowane z adresu 2024-11-03] (ang.).