Битва LLM: найдите подходящую модель

Добро пожаловать в мир языковых моделей, где оживает магия понимания и создания человеческого языка. Эти модели превосходно улавливают нюансы шаблонов, семантики и контекста из обширных резервуаров текста, образуя основу новаторских диалоговых возможностей, наблюдаемых в ChatGPT и Bard.

ChatGPT, управляемый GPT-3.5 и GPT-4, создает естественные диалоги, в то время как Бард танцует с LaMDA для творческого самовыражения. Клод 2 от Anthropic дополняет эту картину инноваций, намекая на будущее, полное лингвистических возможностей. В этом сообщении блога мы углубимся в разнообразие этих замечательных языковых моделей, подробно изучая их возможности и приложения.

ChatGPT против Барда против Клода 2: чем они отличаются?

Давайте рассмотрим два простых примера, чтобы лучше понять различия между моделями больших языков (LLM).

Я задал вопрос ChatGPT, Барду и Клоду 2: «Кто премьер-министр Израиля?»

ChatGPT ответил Нафтали Беннетту, отметив прекращение передачи данных в конце 2021 года.

Между тем, Клод полагает, что это Яир Лапид, поскольку его данные остаются актуальными до конца 2022 года. Наконец, Бард, имеющий возможность подключения к самым последним данным, дал ответ: Биньямин Нетаньяху, который в настоящее время занимает должность премьер-министра. На данный момент очевидно, что Бард обладает доступом к соответствующим данным, которые оказываются очень ценными в конкретных сценариях.

Во втором сценарии я поручил чат-ботам имитировать профессиональных продавцов смартфонов из 2020 года. Моя цель заключалась в том, чтобы модели рекомендовали подходящие устройства покупателям, посещающим магазин, особенно ищущим телефон с увеличенным временем автономной работы.

Вот результаты:

ChatGPT рекомендовал несколько устройств с аккумулятором большой емкости, включая Samsung Galaxy S20 Ultra, Google Pixel 4a, iPhone 11 Pro Max и iPhone SE (2020).

Когда Клод вышел на сцену, он предложил устройства с меньшей емкостью аккумулятора, такие как iPhone 11 и Samsung Galaxy S20 FE.

Наконец, Бард создал хорошо организованный список результатов, сопровождаемый изображениями. Однако в инструкциях требовались некоторые разъяснения, возможно, из-за того, что устройства были более новыми моделями (например, iPhone 14 Pro Max 2022 года).

Роль токенов в LLM

Хорошо, мы рассмотрели два простых примера. Готовы ли мы выбрать идеальный вариант для моего варианта использования? Еще не совсем. Прежде чем углубляться в метрики, различия и оценки, нам необходимо понять концепцию токенов. Токены служат основными текстовыми единицами для ввода LLM. Например, документ из 750 слов содержит примерно 1000 токенов. Возьмем слово «есть», разложив его на «есть» и «инг». Поскольку цены и лимиты часто указаны за 1000 токенов, понимание этой концепции имеет решающее значение, прежде чем продолжить.

Выбор подходящей модели для задачи

При выборе модели необходимо учитывать несколько факторов, в том числе:

Использование. Буду ли я использовать чат-бота, например ChatGPT, или API?
Ограничение токенов. Какие типы вопросов я буду задавать? Или, возможно, работаете с большими документами?
Стоимость. Какова цена за 1 тыс. токенов или за подписку?
Время обработки. Важно ли, чтобы ответы генерировались мгновенно?

Продолжая исследование больших языковых моделей, мы теперь представим и сравним Llama 2, Jurassic, Titan и PaLM 2, продемонстрировав их уникальные сильные стороны наряду с GPT, LaMDA и Claude 2 в различных контекстах.

Мы начнем с трех вариантов использования базовых показателей:

Написание контента. Учитывайте свои потребности с точки зрения креативности и качества. Выбирайте GPT-3.5 или GPT-4 для более важных потребностей и Llama 2 для простого контента в социальных сетях.
Чат-боты. Учитывайте количество пользователей и сложность. Llama 2 соответствует ограниченным запросам и бюджету, а GPT-3.5 отвечает более высоким требованиям. Зарезервируйте GPT-4 для таких экспертных областей, как медицинская диагностика.
Для личного использования. Для творческих задач GPT — отличный выбор. Для более длинных текстов рассмотрите эффективность Клода 2. Если вас больше всего беспокоит актуальность, Бард — более точный вариант.

Сравнение и оценка моделей

Помимо лимита токенов, стоимости и времени обработки, нам могут помочь следующие показатели:

Размер модели. Общее количество параметров, на которых модель обучалась.
Общие знания: Знание широкого спектра информации.
Логическое рассуждение: Способность выводить логические взаимосвязи.
Способности в кодировании: способность создавать код и помогать в его написании.
Доступность. Где модель доступна и может быть развернута (Azure, AWS, OpenAI и т. д.).

Сравнение по размеру модели

Как правило, более крупные модели лучше справляются со сложными задачами.

Б = миллиард.

T = триллион (= 1000 миллиардов)

Сравнение моделей по лимиту токенов

Модели с большим лимитом токенов превосходно справляются с обработкой более длинных текстов. Например, представьте себе ситуацию, когда вам необходимо сформулировать вопросы на основе нескольких обширных документов. Claude преуспевает в этом контексте, эффективно и быстро обрабатывая документы благодаря замечательному лимиту токенов в 100 тысяч.

Оценка моделей по времени обработки

В сценариях, где время обработки имеет решающее значение, такие модели, как Jurassic от AI21 и PaLM 2 от Google, демонстрируют впечатляющую эффективность. Большинство моделей, которые я тестировал, дали быстрый отклик.

Как владелец бордер-колли, я оценивал время обработки и количество слов, предлагая моделям создать сообщение в блоге объемом менее 100 слов, используя подсказку «Сообщение в блоге о бордер-колли на 100 слов».

Jurassic был самым быстрым, сгенерировав 65 слов за 2,28 секунды.
Клод оказался самым медленным: на 103 слова ему потребовалось 6,62 секунды.
Другие модели находились между ними: от 3 до 6 секунд, производя более 120 слов.

После перехода к теме о бордер-колли из 500 слов результаты были такими:

PaLM 2 (5,62 секунды) опередил Jurassic (9,89 секунды), набрав 473 слова против 336.
GPT-3.5, Титану и Клоду потребовалось более 20 секунд.
Только Клод 2 удержался ниже 500 слов.

В попытке написать 1000 слов Юрский снова лидировал, но набрал всего 196 слов. PaLM усвоил 508 слов за 8,29 секунды. GPT-3.5, Титану и Клоду потребовалось более 20 секунд, что дало около 550 слов каждый.

Оценка моделей с помощью логических рассуждений

Я разработал тест для оценки логических рассуждений, состоящий из двух утверждений и двух выводов. Используя эти элементы, модели должны были выбрать правильный ответ из четырех вариантов. Хотя некоторые модели столкнулись с трудностями при выборе правильного ответа, GPT-3.5, GPT-4 и Llama2 дали точные ответы. Последние два (GPT-4 и Llama 2) объяснили основные взаимоотношения.

Пример:

Утверждения: 1. У всех млекопитающих есть легкие. 2. Дельфины – млекопитающие.

Выводы:1. У дельфинов есть легкие. 2. Все животные, имеющие легкие, являются млекопитающими.

Параметры:

А. Оба вывода верны.

Б. Оба вывода неверны.

C. Только вывод I верен.

D. Верен только вывод II.

Оценка моделей по общим знаниям

В викторине на общие знания я задавал такие вопросы, как «Розовые дамы» и «Грэнни Смитс» — это виды каких фруктов? и «Какой единственный флаг не имеет четырех сторон?» GPT выделялся среди остальных наиболее точными ответами, тогда как Titan и Jurassic работали наименее точно.

Оценка моделей путем кодирования оценки

Тест HumanEval включает в себя задачи программирования, а баллы определяются точностью сгенерированных ответов.

Вот результаты:

Кроме того, я решил краткий вопрос по программированию, в котором моделям было поручено разработать метод подсчета слов в строке.

Вот два примера:

Первоначальное решение Ламы было превосходным. Однако он попытался стать умнее, но в ошибочном случае обнаружил семь слов в тексте, содержащем всего шесть. В дальнейшем второй метод, предполагавший подсчет знаков препинания, не дал эффективных результатов.

С другой стороны, ответ Клода был особенно ясным и прямым. Прежде чем представить решение, он включал пояснения и примеры.

Оценка моделей по доступности

Этот аспект имеет решающее значение, поскольку модели доступны с различных платформ.

GPT может оказаться очень полезным, если вы используете Azure. Вы можете развернуть модель с помощью службы Azure OpenAI.

Claude, Titan и Jurassic подходят для тех, кто использует AWS, поскольку они доступны через AWS Bedrock. Важно отметить, что Bedrock в настоящее время находится на стадии закрытого бета-тестирования, а не в производстве.

Llama 2 доступна как в Azure ML, так и в AWS SageMaker. Кроме того, некоторые модели являются автономными, например GPT от OpenAI и Jurassic от AI21.

Резюме всех оценок модели

Давайте все закрепим:

GPT-4 становится наиболее эффективной моделью для логических рассуждений и общих знаний. PaLM и Jurassic демонстрируют исключительную скорость. Claude может похвастаться невероятным лимитом токенов в 100 тысяч, что делает его оптимальным выбором для задач кодирования.

Не существует одной лучшей модели для всех

С моей точки зрения, концепция «лучшей модели» не имеет однозначного ответа. Вместо этого наш выбор должен основываться на модели, которая лучше всего соответствует нашим потребностям. Очень важно внимательно следить за ценами, поскольку неправильное использование может привести к значительным затратам. К счастью, ChatGPT, Claude и Bard доступны бесплатно. Лично я считаю полезным использовать все три модели.