Word2Vec: количество измерений

Я использую Word2Vec с набором данных примерно из 11 000 000 токенов, стремясь сделать сходство обоих слов (как часть извлечения синонимов для последующей задачи), но у меня нет четкого представления о том, сколько измерений я должен использовать с Word2Vec. Есть ли у кого-нибудь хорошая эвристика для диапазона измерений, которые следует учитывать в зависимости от количества токенов/предложений?


person Vin Diesel    schedule 26.10.2014    source источник
comment
Можно попробовать с размерами в диапазоне 100 лайков, 100 200 300. Это то, что, как было доказано, дает хорошие результаты. См. arxiv.org/pdf/1301.3781.pdf.   -  person Irshad Bhat    schedule 26.10.2014
comment
Интересно, уместны ли здесь результаты и ограничения по упаковке сфер долгожданное-решение-самой-плотной-упаковки-проблемы-в-размерах-8-и-24/" rel="nofollow noreferrer">gilkalai.wordpress.com/2016/03/23/   -  person arivero    schedule 27.04.2016


Ответы (3)


Типичный интервал составляет от 100 до 300. Я бы сказал, что вам нужно как минимум 50D для достижения самой низкой точности. Если вы выберете меньшее количество измерений, вы начнете терять свойства многомерных пространств. Если время обучения не имеет большого значения для вашего приложения, я бы придерживался размеров 200D, поскольку это дает хорошие возможности. Чрезвычайную точность можно получить с 300D. После 300D слов характеристики не улучшатся кардинально, а обучение будет крайне медленным.

Я не знаю теоретического объяснения и строгих границ выбора измерений в многомерных пространствах (и для этого может не быть независимого от приложения объяснения), но я бы отослал вас к Pennington et. al, рисунок 2a, где ось x показывает размерность вектора, а ось y показывает полученную точность. Это должно обеспечить эмпирическое обоснование вышеуказанного аргумента.

person Cylonmath    schedule 28.10.2014
comment
Ссылка GloVe: Global Vectors for Word Representation в настоящее время недоступна по ссылке, но она наверняка доступна в другом месте в Интернете. - person arivero; 27.04.2016
comment
Похоже, это версия записи: aclweb.org/anthology/D14-1162. А вот поиск всех версий статьи в Scholar: scholar.google. ком/ - person Dan Hicks; 09.07.2017
comment
Есть ли какие-нибудь обученные 200d word2vec, я вижу, у нас есть перчатки с 200d, но можем ли мы использовать перчатки с word2vec? - person bicepjai; 16.08.2017
comment
@Cyclonmath, меня заинтриговали ваши слова о том, что если вы выберете меньшее количество измерений, вы начнете терять свойства многомерных пространств. Есть ли у вас какие-либо ожидания относительно того, как это будет выглядеть, если мы полностью перейдем к 2D? Я пытаюсь объяснить, что я вижу, последнее изображение — это 2D-встраивание, обученное на основе text8. - person zyxue; 29.03.2018

Я думаю, что количество измерений из word2vec зависит от вашего приложения. Наиболее эмпирическое значение составляет около 100. Тогда он может работать хорошо.

person Xianyong Jia    schedule 18.08.2017

Количество размеров отражает чрезмерную/недостаточную посадку. 100-300 измерений - это общеизвестно. Начните с одного числа и проверьте точность вашего тестового набора по сравнению с тренировочным. Чем больше размер измерения, тем легче он будет переобуваться на тренировочном наборе и иметь плохие результаты в тесте. Настройка этого параметра требуется, если у вас высокая точность на тренировочном наборе и низкая точность на тестовом наборе, это означает, что размер измерения слишком велик, и его уменьшение может решить проблему переоснащения вашей модели.

person Ayman Salama    schedule 14.09.2018