Статьи по теме spark-dataframe

Публикации по теме 'spark-dataframe'

Предварительная обработка данных Python с использованием Pyspark

Apache Spark — это платформа, позволяющая быстро обрабатывать большие объемы данных. Предварительная обработка данных является необходимым шагом в машинном обучении, поскольку качество данных влияет на результат и производительность модели машинного обучения, которую мы применили к данным. Поэтому чрезвычайно важно, чтобы мы предварительно обработали наши данные, прежде чем вводить их в нашу модель. Задача предварительной обработки данных также выполняется пандами и Pyspark. Здесь мы..

Вопросы по теме 'spark-dataframe'

Как рассчитать процентиль столбца в DataFrame в искре?

Я пытаюсь вычислить процентиль столбца в DataFrame? Я не могу найти ни одной функции percentile_approx в функциях агрегирования Spark. Например, в Hive у нас есть percentile_approx, и мы можем использовать его следующим образом...

14670 просмотров

09.04.2024

Можно ли хранить массив numpy в столбце Spark Dataframe?

У меня есть dataframe , и я применяю к нему функцию. Эта функция возвращает numpy array , код выглядит так: create_vector_udf = udf(create_vector, ArrayType(FloatType())) dataframe = dataframe.withColumn('vector', create_vector_udf('text'))...

2937 просмотров

numpy pyspark spark-dataframe

10.04.2024