Публикации по теме 'spark-dataframe'
Предварительная обработка данных Python с использованием Pyspark
Apache Spark — это платформа, позволяющая быстро обрабатывать большие объемы данных.
Предварительная обработка данных является необходимым шагом в машинном обучении, поскольку качество данных влияет на результат и производительность модели машинного обучения, которую мы применили к данным. Поэтому чрезвычайно важно, чтобы мы предварительно обработали наши данные, прежде чем вводить их в нашу модель.
Задача предварительной обработки данных также выполняется пандами и Pyspark. Здесь мы..
Вопросы по теме 'spark-dataframe'
Как рассчитать процентиль столбца в DataFrame в искре?
Я пытаюсь вычислить процентиль столбца в DataFrame? Я не могу найти ни одной функции percentile_approx в функциях агрегирования Spark.
Например, в Hive у нас есть percentile_approx, и мы можем использовать его следующим образом...
14670 просмотров
schedule
09.04.2024
Можно ли хранить массив numpy в столбце Spark Dataframe?
У меня есть dataframe , и я применяю к нему функцию. Эта функция возвращает numpy array , код выглядит так:
create_vector_udf = udf(create_vector, ArrayType(FloatType()))
dataframe = dataframe.withColumn('vector', create_vector_udf('text'))...
2937 просмотров
schedule
10.04.2024