Word2Vec: количество измерений

Я использую Word2Vec с набором данных примерно из 11 000 000 токенов, стремясь сделать сходство обоих слов (как часть извлечения синонимов для последующей задачи), но у меня нет четкого представления о том, сколько измерений я должен использовать с Word2Vec. Есть ли у кого-нибудь хорошая эвристика для диапазона измерений, которые следует учитывать в зависимости от количества токенов/предложений?

machine-learning nlp word2vec

Vin Diesel 26.10.2014 источник

comment

Можно попробовать с размерами в диапазоне 100 лайков, 100 200 300. Это то, что, как было доказано, дает хорошие результаты. См. arxiv.org/pdf/1301.3781.pdf. - Irshad Bhat 26.10.2014

comment

Интересно, уместны ли здесь результаты и ограничения по упаковке сфер долгожданное-решение-самой-плотной-упаковки-проблемы-в-размерах-8-и-24/" rel="nofollow noreferrer">gilkalai.wordpress.com/2016/03/23/ - arivero 27.04.2016

Ответы (3)

arrow_upward
21
arrow_downward

Типичный интервал составляет от 100 до 300. Я бы сказал, что вам нужно как минимум 50D для достижения самой низкой точности. Если вы выберете меньшее количество измерений, вы начнете терять свойства многомерных пространств. Если время обучения не имеет большого значения для вашего приложения, я бы придерживался размеров 200D, поскольку это дает хорошие возможности. Чрезвычайную точность можно получить с 300D. После 300D слов характеристики не улучшатся кардинально, а обучение будет крайне медленным.

Я не знаю теоретического объяснения и строгих границ выбора измерений в многомерных пространствах (и для этого может не быть независимого от приложения объяснения), но я бы отослал вас к Pennington et. al, рисунок 2a, где ось x показывает размерность вектора, а ось y показывает полученную точность. Это должно обеспечить эмпирическое обоснование вышеуказанного аргумента.

Cylonmath 28.10.2014

comment

Ссылка GloVe: Global Vectors for Word Representation в настоящее время недоступна по ссылке, но она наверняка доступна в другом месте в Интернете. - arivero; 27.04.2016

comment

Похоже, это версия записи: aclweb.org/anthology/D14-1162. А вот поиск всех версий статьи в Scholar: scholar.google. ком/ - Dan Hicks; 09.07.2017

comment

Есть ли какие-нибудь обученные 200d word2vec, я вижу, у нас есть перчатки с 200d, но можем ли мы использовать перчатки с word2vec? - bicepjai; 16.08.2017

comment

@Cyclonmath, меня заинтриговали ваши слова о том, что если вы выберете меньшее количество измерений, вы начнете терять свойства многомерных пространств. Есть ли у вас какие-либо ожидания относительно того, как это будет выглядеть, если мы полностью перейдем к 2D? Я пытаюсь объяснить, что я вижу, последнее изображение — это 2D-встраивание, обученное на основе text8. - zyxue; 29.03.2018

arrow_upward
0
arrow_downward

Я думаю, что количество измерений из word2vec зависит от вашего приложения. Наиболее эмпирическое значение составляет около 100. Тогда он может работать хорошо.

Xianyong Jia 18.08.2017

arrow_upward
0
arrow_downward

Количество размеров отражает чрезмерную/недостаточную посадку. 100-300 измерений - это общеизвестно. Начните с одного числа и проверьте точность вашего тестового набора по сравнению с тренировочным. Чем больше размер измерения, тем легче он будет переобуваться на тренировочном наборе и иметь плохие результаты в тесте. Настройка этого параметра требуется, если у вас высокая точность на тренировочном наборе и низкая точность на тестовом наборе, это означает, что размер измерения слишком велик, и его уменьшение может решить проблему переоснащения вашей модели.

Ayman Salama 14.09.2018

Word2Vec: количество измерений

Ответы (3)

Вопросы по теме