Вопросы по теме 'apache-spark-sql'
Ограничения формата имен временных таблиц Spark SQL?
Есть ли ограничение на формат имен временных таблиц, разрешенный в Spark SQL? Я спрашиваю это, потому что когда я использую:
json_RDD.registerTempTable("tweet_data")
trends_data=hiveCtx.sql("SELECT * FROM tweet_data")
Я получил следующее...
2397 просмотров
schedule
27.04.2024
Как рассчитать процентиль столбца в DataFrame в искре?
Я пытаюсь вычислить процентиль столбца в DataFrame? Я не могу найти ни одной функции percentile_approx в функциях агрегирования Spark.
Например, в Hive у нас есть percentile_approx, и мы можем использовать его следующим образом...
14670 просмотров
schedule
09.04.2024
Как создать хэш-карту определенных полей из RDD[String]?
Как создать хэш-карту определенных полей из RDD[String]?
{
count: 1,
itemId: "1122334",
country: {
code: {
preferred: "USA"
},
name: {
preferred: "America"
}
},
states:...
209 просмотров
schedule
04.04.2024
Как читать десятичные данные с точностью 38 и шкалой 18 в Scala
У меня есть данные типа Decimal (38,16) в СУБД. Я импортирую эти данные в HDFS (Hadoop) в формате паркетного файла. После этого я читаю этот файл паркета в код Spark.
val df = spark.read.parquet(<path>)
После загрузки данных в фрейм...
4586 просмотров
schedule
12.05.2024
Применение UDF к подмножествам фрейма данных pyspark
У меня есть Dataframe, подобный следующему, содержащий два отсортированных списка строк для каждой возможной комбинации key1 и key2 .
df=
+----+------------+-------+-------+
|key1| key2| value1| value2|...
264 просмотров
schedule
16.04.2024
Проблема при разборе коллекции монго, в которой мало схем в искре
Я перемещаю данные из одной коллекции в другую в другом кластере с помощью Spark. схема данных не согласована (я имею в виду, что в одной коллекции есть несколько схем с разными типами данных с небольшими вариациями). Когда я пытаюсь прочитать...
2236 просмотров
schedule
13.04.2024
как разобрать CLOB в pyspark?
Я взял данные из Oracle, и в таблице был столбец с типом данных CLOB, я сделал его строковым, чтобы получить данные в HDFS. Теперь мне нужно разобрать данные CLOB и создать для них отдельную таблицу в Hive .
У меня есть файл HDFS в формате txt....
666 просмотров
schedule
06.05.2024
сравнение стратегии разбиения искры между датой = дд-мм-гггг и гггг = {xxxx} / мм = {мм} / дд = {xx}
Как выбрать стратегию разделения в Spark on Date. У меня есть столбец во фрейме данных как дата в формате 2020-02-19. следует указать дату в столбцах раздела при записи или создать несколько столбцов с датой в виде дд, мм, гггг в таблице и указать...
162 просмотров
schedule
11.05.2024
Spark Scala UDF: java.lang.UnsupportedOperationException: схема для типа Any не поддерживается
Я пытаюсь вернуть карту из UDF с помощью if else и получаю приведенное ниже исключение. Любые указатели, пожалуйста?
java.lang.UnsupportedOperationException: схема для типа Any не поддерживается
import org.apache.spark.sql.functions.{col,...
95 просмотров
schedule
16.04.2024
Spark DataFrame конвертирует столбец меток времени в миллисекундах в строковом формате в удобочитаемое время с миллисекундами
У меня есть Spark DataFrame со столбцом отметка времени в миллисекундах с начала эпохи. столбец представляет собой строку . Теперь я хочу преобразовать столбец в удобочитаемое для человека время, но сохранить миллисекунды . Например:...
30 просмотров
schedule
21.04.2024