Векторное представление столиц мира. Каждое слово — это точка в некотором пространстве. Векторное представление позволяет, например, найти столицу Германии, если известен вектор Франция→Париж.
Двумерное изображение 500 баскских слов

Векторное представление (векторное вложение слов, вложение слов или эмбеддинги[1]) — общее название для различных подходов к моделированию языка и обучению представлений в обработке естественного языка, направленных на сопоставление словам (и, возможно, фразам) из некоторого словаря векторов из для , значительно меньшего количества слов в словаре. Теоретической базой для векторных представлений является дистрибутивная семантика.

Существует несколько методов для построения такого сопоставления. Так, используют нейронные сети[2] , методы снижения размерности в применении к матрицам совместных упоминаний слов (word co-occurrence matrices)[3] и явные представления, обучающиеся на контекстах упоминаний слов (explicit representations)[4].

Продемонстрировано, что векторные представления слов и фраз способны значительно улучшить качество работы некоторых методов автоматической обработки естественного языка (например, синтаксический анализ[5] и анализ тональности[6]).

Примеры эмбеддингов

править

В настоящее время существует большое количество моделей векторного представления слов и алгоритмов, для их эффективного обучения. К наиболее известным относятся:

  • Word2vec — разработанный в 2013 году в компании Google набор инструментов для эффективного обучения моделей эмбеддингов[7][8]
  • GloVe[англ.] — модель и алгоритм обучения без учителя для получения векторных представлений слов, разработанный в 2014 году в Стэнфордском университете[9]
  • FastText[англ.] — модель, разработанная компанией Facebook в 2015 году[10]. Её особенностью является использование эмбеддингов не только для целых слов, но и для их частей.[11]

Примечания

править
  1. жизнь, Редакция журнала Наука и. Что такое эмбеддинги и как они помогают искусственному интеллекту понять мир людей. www.nkj.ru (17 апреля 2019). Дата обращения: 14 апреля 2024. Архивировано 8 июня 2023 года.
  2. Mikolov, Tomas; Sutskever, Ilya; Chen, Kai; Corrado, Greg; Dean, Jeffrey (2013). Distributed Representations of Words and Phrases and their Compositionality. arXiv:1310.4546 [cs.CL].
  3. Lebret, Rémi; Collobert, Ronan (2013). Word Emdeddings through Hellinger PCA. arXiv:1312.5542 [cs.CL].
  4. Levy, Omer; Goldberg, Yoav. Linguistic Regularities in Sparse and Explicit Word Representations (англ.) // Proceedings of the Eighteenth Conference on Computational Natural Language Learning, Baltimore, Maryland, USA, June. Association for Computational Linguistics. 2014 : journal. Архивировано 14 августа 2014 года.
  5. Socher, Richard; Bauer, John; Manning, Christopher; Ng, Andrew. Parsing with compositional vector grammars // Proceedings of the ACL conference. 2013. Архивировано 11 августа 2016 года.
  6. Socher, Richard; Perelygin, Alex; Wu, Jean; Chuang, Jason; Manning, Chris; Ng, Andrew; Potts, Chris. Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank (англ.) // Conference on Empirical Methods in Natural Language Processing : journal. Архивировано 28 декабря 2016 года.
  7. Google Code Archive - Long-term storage for Google Code Project Hosting. code.google.com. Дата обращения: 14 апреля 2024. Архивировано 3 ноября 2020 года.
  8. Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean. Efficient Estimation of Word Representations in Vector Space (англ.) // arXiv. — 2013. Архивировано 16 февраля 2023 года.
  9. GloVe: Global Vectors for Word Representation. nlp.stanford.edu. Дата обращения: 14 апреля 2024. Архивировано 28 апреля 2024 года.
  10. facebookresearch/fastText. — 2024-04-14. Архивировано 15 апреля 2024 года.
  11. Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean. Efficient Estimation of Word Representations in Vector Space (англ.) // arXiv. — 2013. Архивировано 19 апреля 2024 года.

Ссылки

править

📚 Artikel Terkait di Wikipedia

Глубокое обучение

A. Emergence of simple-cell receptive field properties by learning a sparse code for natural images (англ.) // Nature : journal. — 1996. — Vol. 381, no

Sparse Voxel Octree

Gregory J. Ward. efficient-sparse-voxel-octrees Open-source implementation of "Efficient Sparse Voxel Octrees" (англ.). Google Code. Дата обращения: 8 марта

Большая языковая модель

продемонстрировали его применение в своих трансформерах. Sparse Mixture of Experts (Sparse MoE) — дальнейшее развитие архитектуры Mixture of Experts

Свёрточная нейронная сеть

conference}}: Неизвестный параметр |authors= игнорируется (справка) Deep sparse rectifier neural networks (PDF). AISTATS. 2011. Архивировано (PDF) 13 декабря

Дерево Фенвика

английский как A fast on-line code, in Soviet Math. Dokl. 39 (1989), no. 3, 533–537. B.Ya Ryabko; A fast on-line adaptive code. IEEE Trans.on Inform.Theory

Нейронное кодирование

Machine Nature neuroscience 17 (6), 752-753. Vinje, WE; Gallant, JL (2000). "Sparse coding and decorrelation in primary visual cortex during natural vision"

Scilab

инструментов: 2D- и 3D-графики, анимация Линейная алгебра, разреженные матрицы (sparse matrices) Полиномиальные и рациональные функции Интерполяция, аппроксимация

Октодерево

использованием октодеревьев Color Quantization using Octrees in Dr. Dobb's Source Code (недоступная ссылка) Обзор октодеревьев Parallel implementation of octtree