Используйте бесплатные аналитические записные книжки, чтобы попрактиковаться в алгоритмах искусственного интеллекта в Python.

Если вы хотите изучать или практиковать алгоритмы искусственного интеллекта на основе Python, не тратя ни доллара на модернизацию своего ноутбука или планшета, тогда ноутбук «Google Colab» — ​​лучший вариант. Прием и подготовка данных — очень важные шаги в проекте машинного обучения.

Поскольку данные поступают из разных мест, их нужно очищать и преобразовывать таким образом, чтобы можно было анализировать их вместе с данными из других источников.

Прием данных — это процесс, посредством которого данные перемещаются из одного или нескольких источников в пункт назначения, где они могут храниться и подвергаться дальнейшему анализу.

В этом блоге мы рассмотрим различные варианты переноса данных в облачную аналитическую записную книжку.

Что такое блокнот Google Colab?

Google Colab (сокращенная форма от Colaboratory) — это бесплатная облачная среда для ноутбуков Jupyter от Google Research, которая позволяет вам:

1. Пишите и выполняйте код на Python
2. Документируйте свой код, который поддерживает математические уравнения
3. Создавайте/загружайте/делитесь блокнотами
4.Импортируйте/сохраняйте блокноты из/в Google Диск
5. Импорт/публикация записных книжек из GitHub
6. Импорт внешних наборов данных, например от Kaggle
7. Интегрируйте PyTorch, TensorFlow, Keras, OpenCV
8. Бесплатный облачный сервис с бесплатным GPU и TPU

Наличие бесплатной среды выполнения — GPU, TPU — это действительно лучшее, что есть в блокнотах Google Colab, возможность обучать эти модели за считанные минуты или секунды. Для получения более подробной информации о спецификациях процессора и графического процессора, пожалуйста, обратитесь к ссылке на исследование Google Colab. Есть несколько незначительных неудач при попытке подключения к среде выполнения графического процессора или пока не поддерживается R/Scala. До сих пор я не сталкивался с какими-либо серьезными проблемами при работе с алгоритмами машинного обучения в Python. Еще одна замечательная функция — публикация блокнотов на GitHub. Это действительно помогло мне поддерживать и получать доступ к моему хранилищу кода из любого места.

Давайте визуализируем общую картину, прежде чем мы начнем с нашего дизайна.

Предпосылки:

Выполните следующие предварительные требования, прежде чем изучать методы загрузки.
A. Войдите в Google Colab
B. Установите и импортируйте пакеты Python
C. Смонтируйте свой Google Диск

А. Как войти в Google Colab?

Следующий шаг для создания новой или открытия существующей записной книжки:

Шаг 1. Войдите в систему, используя свои учетные данные Gmail.

Шаг 2: Нажмите «Открыть новый блокнот» в меню «Файл».

Шаг 3: Переименуйте блокнот.

Б. Установка и импорт пакетов Python

Jupyter Notebook от Anaconda поставляется с несколькими предустановленными библиотеками данных. Кроме того, Google Colab предоставляет еще больше предустановленных библиотек машинного обучения и глубокого обучения, таких как Keras, TensorFlow и PyTorch. Для любой установки пользовательской библиотеки выполните команду !pip install, как показано ниже.

Импортируйте следующие пакеты в блокнот Colab.

C.Монтирование вашего Google Диска

Доступ к диску Google можно получить несколькими способами. Один из вариантов — подключить Google Диск к виртуальной машине среды выполнения.

После запуска следующего сценария щелкните ссылку, чтобы получить код авторизации. Вставьте код в текстовое поле и выполните.

После того, как вы закончите, вы сможете получить доступ к своим файлам на Google Диске в разделе: «/content/gdrive/».

Методы приема данных:

Существуют различные способы получения данных в блокноте Google Colab. Здесь я перечислил некоторые из них.

  1. Импорт файлов с Google Диска
  2. Получение данных из GitHub
  3. Получение наборов данных машинного обучения UCI из веб-адреса
  4. Прием наборов данных Kaggle
  5. Импорт данных с локального диска
  6. Импорт данных из базы данных

Помните: используемый метод, размер файла данных и формат файла могут влиять на прием и производительность запросов.

1.Импорт файлов с Google Диска

В зависимости от вашего варианта использования вы можете сохранить исходный набор данных на Google Диске и использовать приведенные ниже сценарии для импорта данных в свои блокноты Colab.

2. Получение данных с GitHub

Я загрузил набор данных «Housing» в соответствии с инструкциями из книги Орельена по машинному обучению с помощью Scikit-Learn и TensorFlow.

Я загрузил набор данных «Housing» в соответствии с инструкциями из книги Орельена по машинному обучению с помощью Scikit-Learn и TensorFlow.

Вы должны предоставить информацию о токене для доступа к вашему частному репозиторию GitHub.

3. Получение наборов данных машинного обучения UCI из Интернета

Вы также найдете удивительные наборы данных в Хранилище машинного обучения UCI. В приведенном ниже примере я использовал pandas для импорта набора данных IRIS.

4. Загрузка наборов данных Kaggle

Если у вас есть API набора данных Kaggle для загрузки, выполните следующие действия. Важным предварительным условием является сохранение файла Kaggle Jason (ключ API) на диске Google, а затем подключение диска к Google Colab.

Разархивируйте файлы на вашем текущем диске, а затем удалите zip-файл. Используйте pandas для чтения наборов данных для дальнейшего анализа.

5. Импорт данных с локального диска

После импорта пакета files выполните files.upload и выберите файлы из локального каталога. Он возвращает словарь загруженных файлов. Используйте pandas, чтобы прочитать нужный файл.

Файлы сохраняются в папке colab.

6. Импорт данных из базы данных

SQLAlchemy предоставляет питонический способ взаимодействия с базами данных. Подход одинаков для всех баз данных SQL, таких как — MySQL, Oracle, PostgreSQL. Шаги следующие:

1. Создайте строку подключения
2. Установите соединение, «Engine»
3. Определите и выполните запрос SQL
4. Используйте метод выборки «.fetchall()» для получения данных.

Выполните приведенный ниже код последовательно:

Другие советы:

Советы по блокнотам Colab и скрипты приема данных можно найти в этом блокноте на моем GitHub.

Вывод:

Наконец, мы успешно создали блокнот Google Colab всего за несколько минут. В зависимости от требований вашего проекта и улучшения архитектуры данных вы можете применить описанные выше методы приема данных, прежде чем начать практиковать свои алгоритмы машинного обучения (скрипты Python).

Google Colab добавляет совместную работу, бесплатные GPU и TPU, облачные функции и дополнительные предустановленные библиотеки машинного обучения. С помощью вышеуказанных методов приема данных вы можете читать данные из исходного источника или копировать наборы данных на свой Google Диск для своей практики.

Google действительно помогает снизить входной барьер для глубокого обучения или запуска сложных многоуровневых моделей машинного обучения. Итак, используйте блокноты Colab.

Я буду обновлять этот пост, если буду изучать и изучать новые способы загрузки наборов данных в Google Colab.

Надеюсь, этот пост был полезен, берегите себя!

Высказанные здесь мнения отражают мои собственные, а не мнения моих нынешних или предыдущих работодателей.