Как Google объединяет BigQuery API и Python

Google только что анонсировал BigQuery DataFrames — эта функция сейчас находится в предварительной версии. BigQuery DataFrames — это API Python, который можно использовать для анализа данных и выполнения задач машинного обучения в BigQuery[1].

BigQuery DataFrames сочетает в себе возможности анализа данных и обработки данных, предоставляя вам следующие возможности[1]:

  • bigframes.pandas реализует API DataFrame (с частичной совместимостью с Pandas) поверх BigQuery.
  • bigframes.ml реализует API Python для BigQuery ML (с частичной совместимостью с scikit-learn).

DataFrames — это пакет с открытым исходным кодом, который вы можете запустить pip install --upgrade bigframes для установки последней версии — вот небольшой план его использования[2]:

import bigframes.pandas as bpd

bpd.options.bigquery.project = your_gcp_project_id
df1 = bpd.read_gbq("project.dataset.table")
df2 = bpd.read_gbq("SELECT a, b, c, FROM `project.dataset.table`")

Так что это снова неплохая новость, если вы работаете с Google Cloud и BigQuery на предприятии, но также хотите делать больше с Python и выполнять задачи по науке о данных и машинному обучению без каких-либо дополнительных интерфейсов. В качестве альтернативы Google также предлагает BigQuery ML, альтернативу машинному обучению через SQL. Если вы хотите начать работу с BigQuery DataFrames, Google также предоставляет Краткое руководство по BigQuery DataFrames[2].



Итак, как я уже сказал, действительно очень полезная новая функция от Google для ее флагманского BigQuery, который на этой неделе также был оснащен другими интересными новыми функциями — одна из них BigQuery Studio — читайте больше в статье по ссылке ниже.



Источники и дополнительная литература

[1] Google, Примечания к выпуску BigQuery (2023 г.)

[2] Google, BigQuery DataFrames (2023 г.)