Статьи по теме apache-spark-sql

Вопросы по теме 'apache-spark-sql'

Ограничения формата имен временных таблиц Spark SQL?

Есть ли ограничение на формат имен временных таблиц, разрешенный в Spark SQL? Я спрашиваю это, потому что когда я использую: json_RDD.registerTempTable("tweet_data") trends_data=hiveCtx.sql("SELECT * FROM tweet_data") Я получил следующее...

2397 просмотров

apache-spark apache-spark-sql

27.04.2024

Как рассчитать процентиль столбца в DataFrame в искре?

Я пытаюсь вычислить процентиль столбца в DataFrame? Я не могу найти ни одной функции percentile_approx в функциях агрегирования Spark. Например, в Hive у нас есть percentile_approx, и мы можем использовать его следующим образом...

14670 просмотров

apache-spark apache-spark-sql scala spark-dataframe

09.04.2024

Как создать хэш-карту определенных полей из RDD[String]?

Как создать хэш-карту определенных полей из RDD[String]? { count: 1, itemId: "1122334", country: { code: { preferred: "USA" }, name: { preferred: "America" } }, states:...

209 просмотров

hashmap apache-spark apache-spark-sql scala rdd

04.04.2024

Как читать десятичные данные с точностью 38 и шкалой 18 в Scala

У меня есть данные типа Decimal (38,16) в СУБД. Я импортирую эти данные в HDFS (Hadoop) в формате паркетного файла. После этого я читаю этот файл паркета в код Spark. val df = spark.read.parquet(<path>) После загрузки данных в фрейм...

4586 просмотров

apache-spark hadoop apache-spark-sql scala

12.05.2024

Применение UDF к подмножествам фрейма данных pyspark

У меня есть Dataframe, подобный следующему, содержащий два отсортированных списка строк для каждой возможной комбинации key1 и key2 . df= +----+------------+-------+-------+ |key1| key2| value1| value2|...

264 просмотров

python pyspark apache-spark-sql

16.04.2024

Проблема при разборе коллекции монго, в которой мало схем в искре

Я перемещаю данные из одной коллекции в другую в другом кластере с помощью Spark. схема данных не согласована (я имею в виду, что в одной коллекции есть несколько схем с разными типами данных с небольшими вариациями). Когда я пытаюсь прочитать...

2236 просмотров

mongodb apache-spark apache-spark-sql

13.04.2024

как разобрать CLOB в pyspark?

Я взял данные из Oracle, и в таблице был столбец с типом данных CLOB, я сделал его строковым, чтобы получить данные в HDFS. Теперь мне нужно разобрать данные CLOB и создать для них отдельную таблицу в Hive . У меня есть файл HDFS в формате txt....

666 просмотров

apache-spark pyspark apache-spark-sql pyspark-dataframes pyspark-sql

06.05.2024

сравнение стратегии разбиения искры между датой = дд-мм-гггг и гггг = {xxxx} / мм = {мм} / дд = {xx}

Как выбрать стратегию разделения в Spark on Date. У меня есть столбец во фрейме данных как дата в формате 2020-02-19. следует указать дату в столбцах раздела при записи или создать несколько столбцов с датой в виде дд, мм, гггг в таблице и указать...

162 просмотров

apache-spark pyspark apache-spark-sql data-partitioning

11.05.2024

Spark Scala UDF: java.lang.UnsupportedOperationException: схема для типа Any не поддерживается

Я пытаюсь вернуть карту из UDF с помощью if else и получаю приведенное ниже исключение. Любые указатели, пожалуйста? java.lang.UnsupportedOperationException: схема для типа Any не поддерживается import org.apache.spark.sql.functions.{col,...

95 просмотров

apache-spark apache-spark-sql scala user-defined-functions

16.04.2024

Spark DataFrame конвертирует столбец меток времени в миллисекундах в строковом формате в удобочитаемое время с миллисекундами

У меня есть Spark DataFrame со столбцом отметка времени в миллисекундах с начала эпохи. столбец представляет собой строку . Теперь я хочу преобразовать столбец в удобочитаемое для человека время, но сохранить миллисекунды . Например:...

30 просмотров

apache-spark apache-spark-sql scala

21.04.2024