OPENAI В РЕАЛЬНОМ МИРЕ

Бесплатно конвертируйте речь в текст с помощью OpenAI Whisper

Используйте Google Colab для расшифровки любой формы речи или аудио за считанные секунды

OpenAI недавно запустил Whisper, новый инструмент для преобразования речи в текст, и он работает лучше, чем большинство людей.

Если вы не слышали об OpenAI, это та же компания, которая стоит за чрезвычайно популярным ChatGPT, который позволяет вам общаться с компьютером.

Они также являются компанией, стоящей за DALL·E 2, где вы можете ввести какой-либо текст и создать изображение на основе этого текста.

Whisper — это их новый продукт и средство преобразования аудиофайлов в текст. Whisper можно использовать с английским и 96 другими языками.

Он работает с фоновым шумом, и его не отпугивает даже самый густой акцентный акцент. Самое приятное то, что это абсолютно бесплатно, а также с открытым исходным кодом.

Несмотря на то, что вы можете установить Whisper непосредственно на свой компьютер, мы сэкономим место на диске и решим использовать блокнот Google Colaboratory, который позволит нам запускать код непосредственно в веб-браузере, поэтому не имеет большого значения, какой тип компьютера у вас есть.

Как использовать Google Colaboratory для расшифровки аудио

Чтобы использовать Google Colaboratory, перейдите на Google Диск. Вам понадобится учетная запись Google, и если у вас ее еще нет, ее можно настроить совершенно бесплатно.

На Google Диске в верхнем левом углу нажмите кнопку «Создать». В самом низу нажмите «Еще», а затем перейдите к «Подключить другие приложения».

В верхней части этого диалогового окна щелкните поле поиска и здесь введите Google Colaboratory, а затем выполните поиск.

Здесь вы увидите этот результат для Colaboratory. Нажмите на это, а здесь нажмите «Установить».

Далее нажмите Продолжить.

Далее вы должны увидеть сообщение о том, что Google Colaboratory подключен к Google Диску.

Нажмите «ОК».

Вот и все.

Он был успешно установлен. Теперь вы можете закрыть это окно.

Вернитесь в верхний левый угол. Нажмите кнопку «Создать» еще раз. Затем спуститесь к Подробнее. И здесь вы должны увидеть вариант для Google Colaboratory. Нажмите на этот.

Это перенесет вас в пространство Google Colaboratory.

На первый взгляд это может показаться немного пугающим. Но поверьте мне, вам не понадобится больше 10 строк кода.

Затем щелкните меню «Среда выполнения», и прямо здесь есть опция «Изменить тип среды выполнения».

Нажмите на это, и откроется диалоговое окно, в котором вы можете выбрать аппаратный ускоритель.

Обязательно выберите GPU или видеокарту. Выяснилось, что видеокарты работают с этими моделями очень хорошо. Далее нажмите Сохранить.

Установка OpenAI Whisper и зависимостей

Далее нам нужно установить модель OpenAI Whisper.

В первую ячейку Google Colab введите:

!pip install git+https://github.com/openai/whisper.git

Это установит Whisper с GitHub.

После этого мы собираемся установить ffmpeg, который позволит нам работать с аудио и видео файлами.

Опять же, мы ничего не устанавливаем на ваш компьютер, так как мы находимся в блокноте Google Colab.

!sudo apt update && sudo apt install ffmpeg

От речи к тексту с помощью OpenAI Whisper

Затем щелкните значок папки в левой части блокнота Google Colab.

Теперь нам нужен аудиофайл. Я просто собираюсь скачать один из YouTube, чтобы упростить его. Вот тот, который я использую.

Загрузите версию в формате MP3 и загрузите ее в папку.

После того, как файл был успешно загружен, мы готовы извлечь текст из этого аудиофайла.

Скопируйте этот код:

!whisper "Sample.mp4" --model medium.en

В приведенном выше коде мы вызываем Whisper AI API для работы с файлом, из которого вы хотите извлечь текст. Мой называется Sample.mp4. Ваш может быть другим.

Здесь я использую среднюю модель, но у вас есть 5 разных моделей на выбор. Вы можете прочитать больше о различных типах моделей здесь, но просто знайте, что есть компромисс между скоростью и точностью.

Как только вы закончите вводить код, запустите его!

После небольшого ожидания вы должны увидеть что-то вроде следующего:

Как видите, транскрипции очень точные, и вы даже можете скачать их в разных форматах (включая SRT и VTT).

Как вы будете использовать Google Colaboratory для преобразования речи в текст?

Как только вы покинете Google Colaboratory, ваша среда выполнения завершится, и она автоматически удалит все ваши файлы.

Поэтому, если вы записали какое-то аудио, я бы порекомендовал сначала загрузить его, прежде чем уйти.

Разве эта технология не безумна?

Он правильно понимает все слова. Он применяет заглавные буквы. Он заботится о пунктуации. Все, что вам нужно сделать, это, возможно, внести некоторые незначительные изменения.

Я хотел бы услышать в комментариях, как вы планируете использовать OpenAI Whisper.

Если вам понравилось это читать, я планирую рассказать о других применениях ИИ в реальном мире, так что подпишитесь на меня, и я обещаю продолжать наполнять вашу ленту соусом, который сделает вас суперзвездой ИИ.

Дополнительные материалы на PlainEnglish.io.

Подпишитесь на нашу бесплатную еженедельную рассылку новостей. Подпишитесь на нас в Twitter, LinkedIn, YouTube и Discord.

Повысьте узнаваемость и признание вашего технического стартапа с помощью Circuit.