Как Google объединяет BigQuery API и Python
Google только что анонсировал BigQuery DataFrames — эта функция сейчас находится в предварительной версии. BigQuery DataFrames — это API Python, который можно использовать для анализа данных и выполнения задач машинного обучения в BigQuery[1].
BigQuery DataFrames сочетает в себе возможности анализа данных и обработки данных, предоставляя вам следующие возможности[1]:
bigframes.pandas
реализует API DataFrame (с частичной совместимостью с Pandas) поверх BigQuery.bigframes.ml
реализует API Python для BigQuery ML (с частичной совместимостью с scikit-learn).
DataFrames — это пакет с открытым исходным кодом, который вы можете запустить pip install --upgrade bigframes
для установки последней версии — вот небольшой план его использования[2]:
import bigframes.pandas as bpd bpd.options.bigquery.project = your_gcp_project_id df1 = bpd.read_gbq("project.dataset.table") df2 = bpd.read_gbq("SELECT a, b, c, FROM `project.dataset.table`")
Так что это снова неплохая новость, если вы работаете с Google Cloud и BigQuery на предприятии, но также хотите делать больше с Python и выполнять задачи по науке о данных и машинному обучению без каких-либо дополнительных интерфейсов. В качестве альтернативы Google также предлагает BigQuery ML, альтернативу машинному обучению через SQL. Если вы хотите начать работу с BigQuery DataFrames, Google также предоставляет Краткое руководство по BigQuery DataFrames[2].
Итак, как я уже сказал, действительно очень полезная новая функция от Google для ее флагманского BigQuery, который на этой неделе также был оснащен другими интересными новыми функциями — одна из них BigQuery Studio — читайте больше в статье по ссылке ниже.
Источники и дополнительная литература
[1] Google, Примечания к выпуску BigQuery (2023 г.)
[2] Google, BigQuery DataFrames (2023 г.)