У меня есть dataframe
, и я применяю к нему функцию. Эта функция возвращает numpy array
, код выглядит так:
create_vector_udf = udf(create_vector, ArrayType(FloatType()))
dataframe = dataframe.withColumn('vector', create_vector_udf('text'))
dmoz_spark_df.select('lang','url','vector').show(20)
Теперь искра, кажется, недовольна этим и не принимает ArrayType(FloatType())
Я получаю следующее сообщение об ошибке: net.razorvine.pickle.PickleException: expected zero arguments for construction of ClassDict (for numpy.core.multiarray._reconstruct)
Я мог бы просто numpyarray.tolist()
вернуть его версию в виде списка, но, очевидно, мне всегда придется воссоздавать array
, если я хочу использовать его с numpy
.
так есть ли способ сохранить numpy array
в dataframe
column
?