Анализ настроений с использованием Альберта

Анализ настроений с использованием ALBERT

Давайте настроим последнюю модель НЛП Google для задачи анализа настроений.

Каждый исследователь или практик НЛП хорошо знает о BERT, появившейся в 2018 году. С тех пор индустрия НЛП изменилась в гораздо большей степени.

Альберт, который является Lite BERT, был сделан в фокусе, чтобы сделать его как можно более легким за счет уменьшения размера параметра.

Огромное преимущество глубокого обучения для задачи анализа настроений состоит в том, что количество этапов предварительной обработки данных сокращается. Требуется только предварительная обработка, чтобы преобразовать их в нижний регистр. Если мы используем методы машинного обучения, такие как логистическая регрессия с TF-IDF, вам нужно будет лемматизировать слова, а также удалить ненужные слова. Если вы думаете об удалении стоп-слов, прочтите эту статью.



Если вы хотите узнать о последних шагах предварительной обработки текста, ознакомьтесь с этой статьей.



Тонкая настройка

  1. Сначала клонируйте это репозиторий GitHub.
  2. Подготовьте набор данных. Требуется файл с разделителями табуляции (.tsv). Набор данных необходимо поместить в папку в том же каталоге.
  3. В наборе данных будет 2 столбца. Один будет содержать текст, а другой - метку.
  4. Написать команду поезда
$ python run_glue.py --data_dir data --model_type albert --model_name_or_path albert-base-v2 --output_dir output --do_train --task_type sst-2

аргументы командной строки

data-dir - где находится файл train.tsv

model_type - модель, которую вы хотите использовать для задачи анализа настроений. Здесь мы используем АЛЬБЕРТ.

имя_модели_или_путь - вариант модели, которую вы хотите использовать. Здесь мы используем albert-base-v2.

output-dir- Каталог, в котором вы хотите сохранить модель. Скрипт автоматически создаст папку.

do-train - Потому что мы выполняем поездку.

task_type - Могут быть выполнены две задачи - SST-2 и SST-5.

Вот список различных моделей, которые вы можете использовать

5. После обучения модели все файлы модели будут внутри папки.

6. Замените каталог модели в файле api.py.

7. Запустите файл api.py

$ python api.py

8. Если вы хотите вызвать его метод прогнозирования, тогда

$ from api import SentimentAnalyzer
$ classifier = SentimentAnalyszer()
$ classifier.predict('It was a good movie')

использованная литература

  1. Https://github.com/google-research/google-research/tree/master/albert
  2. Https://github.com/huggingface/transformers