Вопросы по теме 'apache-spark-sql'

Ограничения формата имен временных таблиц Spark SQL?
Есть ли ограничение на формат имен временных таблиц, разрешенный в Spark SQL? Я спрашиваю это, потому что когда я использую: json_RDD.registerTempTable("tweet_data") trends_data=hiveCtx.sql("SELECT * FROM tweet_data") Я получил следующее...
2397 просмотров
schedule 27.04.2024

Как рассчитать процентиль столбца в DataFrame в искре?
Я пытаюсь вычислить процентиль столбца в DataFrame? Я не могу найти ни одной функции percentile_approx в функциях агрегирования Spark. Например, в Hive у нас есть percentile_approx, и мы можем использовать его следующим образом...
14670 просмотров

Как создать хэш-карту определенных полей из RDD[String]?
Как создать хэш-карту определенных полей из RDD[String]? { count: 1, itemId: "1122334", country: { code: { preferred: "USA" }, name: { preferred: "America" } }, states:...
209 просмотров

Как читать десятичные данные с точностью 38 и шкалой 18 в Scala
У меня есть данные типа Decimal (38,16) в СУБД. Я импортирую эти данные в HDFS (Hadoop) в формате паркетного файла. После этого я читаю этот файл паркета в код Spark. val df = spark.read.parquet(<path>) После загрузки данных в фрейм...
4586 просмотров

Применение UDF к подмножествам фрейма данных pyspark
У меня есть Dataframe, подобный следующему, содержащий два отсортированных списка строк для каждой возможной комбинации key1 и key2 . df= +----+------------+-------+-------+ |key1| key2| value1| value2|...
264 просмотров
schedule 16.04.2024

Проблема при разборе коллекции монго, в которой мало схем в искре
Я перемещаю данные из одной коллекции в другую в другом кластере с помощью Spark. схема данных не согласована (я имею в виду, что в одной коллекции есть несколько схем с разными типами данных с небольшими вариациями). Когда я пытаюсь прочитать...
2236 просмотров
schedule 13.04.2024

как разобрать CLOB в pyspark?
Я взял данные из Oracle, и в таблице был столбец с типом данных CLOB, я сделал его строковым, чтобы получить данные в HDFS. Теперь мне нужно разобрать данные CLOB и создать для них отдельную таблицу в Hive . У меня есть файл HDFS в формате txt....
666 просмотров

сравнение стратегии разбиения искры между датой = дд-мм-гггг и гггг = {xxxx} / мм = {мм} / дд = {xx}
Как выбрать стратегию разделения в Spark on Date. У меня есть столбец во фрейме данных как дата в формате 2020-02-19. следует указать дату в столбцах раздела при записи или создать несколько столбцов с датой в виде дд, мм, гггг в таблице и указать...
162 просмотров

Spark Scala UDF: java.lang.UnsupportedOperationException: схема для типа Any не поддерживается
Я пытаюсь вернуть карту из UDF с помощью if else и получаю приведенное ниже исключение. Любые указатели, пожалуйста? java.lang.UnsupportedOperationException: схема для типа Any не поддерживается import org.apache.spark.sql.functions.{col,...
95 просмотров

Spark DataFrame конвертирует столбец меток времени в миллисекундах в строковом формате в удобочитаемое время с миллисекундами
У меня есть Spark DataFrame со столбцом отметка времени в миллисекундах с начала эпохи. столбец представляет собой строку . Теперь я хочу преобразовать столбец в удобочитаемое для человека время, но сохранить миллисекунды . Например:...
30 просмотров
schedule 21.04.2024