Считайте свои токены и избегайте банкротства из-за использования API OpenAI

Многие мои знакомые заинтересованы в том, чтобы поиграть с большими языковыми моделями OpenAI (LLM). Но размещение LLM обходится дорого, и поэтому сервисы логических выводов, такие как интерфейс прикладного программирования (API) OpenAI, не бесплатны. Но ввод вашей платежной информации, не зная, к чему приведут затраты на вывод, может быть немного пугающим.

Обычно я предпочитаю включать в пошаговые обзоры своих статей небольшой индикатор затрат на API, чтобы мои читатели знали, чего ожидать, и могли получить представление о затратах на логические выводы.

В этой статье вы познакомитесь с библиотекой tiktoken, которую я использую для оценки затрат на логические выводы для базовых моделей OpenAI.

Что такое тиктокен?

tiktoken — это токенизатор кодирования пар байтов (BPE) с открытым исходным кодом, разработанный OpenAI, который используется для токенизации текста в их LLM. Это позволяет разработчикам подсчитывать количество токенов в тексте, прежде чем совершать вызовы конечной точки OpenAI.

Таким образом, это помогает оценить связанные с этим затраты на использование API OpenAI, поскольку его стоимость выставляется в счет за 1000 токенов в соответствии со страницей цен OpenAI [1].



Токены и токенизация

Токены – это обычные последовательности символов в тексте, а разметка – это разделение текстовой строки на список токенов. Токен может быть равен слову, но обычно слово состоит из нескольких токенов.

Модели обработки естественного языка (NLP) обучаются на токенах и понимают отношения между ними. Таким образом, входной текст токенизируется до того, как модель NLP обработает его.

Но то, как токенизированы слова, зависит от используемого токенизатора.

Ниже вы можете увидеть пример того, как текст

«У Алисы есть попугай.

Какое животное является домашним животным Алисы?