Публикации по теме 'spark-dataframe'


Предварительная обработка данных Python с использованием Pyspark
Apache Spark — это платформа, позволяющая быстро обрабатывать большие объемы данных. Предварительная обработка данных является необходимым шагом в машинном обучении, поскольку качество данных влияет на результат и производительность модели машинного обучения, которую мы применили к данным. Поэтому чрезвычайно важно, чтобы мы предварительно обработали наши данные, прежде чем вводить их в нашу модель. Задача предварительной обработки данных также выполняется пандами и Pyspark. Здесь мы..

Вопросы по теме 'spark-dataframe'

Как рассчитать процентиль столбца в DataFrame в искре?
Я пытаюсь вычислить процентиль столбца в DataFrame? Я не могу найти ни одной функции percentile_approx в функциях агрегирования Spark. Например, в Hive у нас есть percentile_approx, и мы можем использовать его следующим образом...
14670 просмотров

Можно ли хранить массив numpy в столбце Spark Dataframe?
У меня есть dataframe , и я применяю к нему функцию. Эта функция возвращает numpy array , код выглядит так: create_vector_udf = udf(create_vector, ArrayType(FloatType())) dataframe = dataframe.withColumn('vector', create_vector_udf('text'))...
2937 просмотров
schedule 10.04.2024