OPENAI В РЕАЛЬНОМ МИРЕ
Бесплатно конвертируйте речь в текст с помощью OpenAI Whisper
Используйте Google Colab для расшифровки любой формы речи или аудио за считанные секунды
OpenAI недавно запустил Whisper, новый инструмент для преобразования речи в текст, и он работает лучше, чем большинство людей.
Если вы не слышали об OpenAI, это та же компания, которая стоит за чрезвычайно популярным ChatGPT, который позволяет вам общаться с компьютером.
Они также являются компанией, стоящей за DALL·E 2, где вы можете ввести какой-либо текст и создать изображение на основе этого текста.
Whisper — это их новый продукт и средство преобразования аудиофайлов в текст. Whisper можно использовать с английским и 96 другими языками.
Он работает с фоновым шумом, и его не отпугивает даже самый густой акцентный акцент. Самое приятное то, что это абсолютно бесплатно, а также с открытым исходным кодом.
Несмотря на то, что вы можете установить Whisper непосредственно на свой компьютер, мы сэкономим место на диске и решим использовать блокнот Google Colaboratory, который позволит нам запускать код непосредственно в веб-браузере, поэтому не имеет большого значения, какой тип компьютера у вас есть.
Как использовать Google Colaboratory для расшифровки аудио
Чтобы использовать Google Colaboratory, перейдите на Google Диск. Вам понадобится учетная запись Google, и если у вас ее еще нет, ее можно настроить совершенно бесплатно.
На Google Диске в верхнем левом углу нажмите кнопку «Создать». В самом низу нажмите «Еще», а затем перейдите к «Подключить другие приложения».
В верхней части этого диалогового окна щелкните поле поиска и здесь введите Google Colaboratory, а затем выполните поиск.
Здесь вы увидите этот результат для Colaboratory. Нажмите на это, а здесь нажмите «Установить».
Далее нажмите Продолжить.
Далее вы должны увидеть сообщение о том, что Google Colaboratory подключен к Google Диску.
Нажмите «ОК».
Вот и все.
Он был успешно установлен. Теперь вы можете закрыть это окно.
Вернитесь в верхний левый угол. Нажмите кнопку «Создать» еще раз. Затем спуститесь к Подробнее. И здесь вы должны увидеть вариант для Google Colaboratory. Нажмите на этот.
Это перенесет вас в пространство Google Colaboratory.
На первый взгляд это может показаться немного пугающим. Но поверьте мне, вам не понадобится больше 10 строк кода.
Затем щелкните меню «Среда выполнения», и прямо здесь есть опция «Изменить тип среды выполнения».
Нажмите на это, и откроется диалоговое окно, в котором вы можете выбрать аппаратный ускоритель.
Обязательно выберите GPU или видеокарту. Выяснилось, что видеокарты работают с этими моделями очень хорошо. Далее нажмите Сохранить.
Установка OpenAI Whisper и зависимостей
Далее нам нужно установить модель OpenAI Whisper.
В первую ячейку Google Colab введите:
!pip install git+https://github.com/openai/whisper.git
Это установит Whisper с GitHub.
После этого мы собираемся установить ffmpeg, который позволит нам работать с аудио и видео файлами.
Опять же, мы ничего не устанавливаем на ваш компьютер, так как мы находимся в блокноте Google Colab.
!sudo apt update && sudo apt install ffmpeg
От речи к тексту с помощью OpenAI Whisper
Затем щелкните значок папки в левой части блокнота Google Colab.
Теперь нам нужен аудиофайл. Я просто собираюсь скачать один из YouTube, чтобы упростить его. Вот тот, который я использую.
Загрузите версию в формате MP3 и загрузите ее в папку.
После того, как файл был успешно загружен, мы готовы извлечь текст из этого аудиофайла.
Скопируйте этот код:
!whisper "Sample.mp4" --model medium.en
В приведенном выше коде мы вызываем Whisper AI API для работы с файлом, из которого вы хотите извлечь текст. Мой называется Sample.mp4. Ваш может быть другим.
Здесь я использую среднюю модель, но у вас есть 5 разных моделей на выбор. Вы можете прочитать больше о различных типах моделей здесь, но просто знайте, что есть компромисс между скоростью и точностью.
Как только вы закончите вводить код, запустите его!
После небольшого ожидания вы должны увидеть что-то вроде следующего:
Как видите, транскрипции очень точные, и вы даже можете скачать их в разных форматах (включая SRT и VTT).
Как вы будете использовать Google Colaboratory для преобразования речи в текст?
Как только вы покинете Google Colaboratory, ваша среда выполнения завершится, и она автоматически удалит все ваши файлы.
Поэтому, если вы записали какое-то аудио, я бы порекомендовал сначала загрузить его, прежде чем уйти.
Разве эта технология не безумна?
Он правильно понимает все слова. Он применяет заглавные буквы. Он заботится о пунктуации. Все, что вам нужно сделать, это, возможно, внести некоторые незначительные изменения.
Я хотел бы услышать в комментариях, как вы планируете использовать OpenAI Whisper.
Если вам понравилось это читать, я планирую рассказать о других применениях ИИ в реальном мире, так что подпишитесь на меня, и я обещаю продолжать наполнять вашу ленту соусом, который сделает вас суперзвездой ИИ.
Дополнительные материалы на PlainEnglish.io.
Подпишитесь на нашу бесплатную еженедельную рассылку новостей. Подпишитесь на нас в Twitter, LinkedIn, YouTube и Discord.
Повысьте узнаваемость и признание вашего технического стартапа с помощью Circuit.