Статьи по теме apache-spark

Публикации по теме 'apache-spark'

Магазин функций Hopsworks для Databricks

TL; DR; Магазины функций стали ключевой частью инфраструктуры данных для платформ машинного обучения. Они управляют всем жизненным циклом функций: от обучения различных моделей до предоставления онлайн-приложений доступа к функциям с малой задержкой для вывода моделей. В этой статье рассказывается о магазине функций Hopsworks для Databricks и о том, как он может ускорить и управлять разработкой вашей модели и операциями на Databricks. Что такое магазин функций? Хранилище функций для..

Как настроить ноутбуки AWS EMR и Jupyter без больших затрат

Разверните распределенную вычислительную среду за считанные минуты с помощью AWS Что такое AWS EMR? AWS EMR — это реализация Amazon распределенной вычислительной платформы Hadoop, предназначенная для обработки больших данных . EMR означает Elastic MapReduce , а эластичность часто используется для описания того, как AWS масштабирует ресурсы. MapReduce относится к модели программирования для распределенных вычислений из оригинальной реализации Google. С тех пор MapReduce..

Элиминар эспасиос

Элиминар эспасиос экспорт SPARK_HOME=/opt/spark экспорт PATH=$SPARK_HOME/bin:$PATH

Вопросы по теме 'apache-spark'

Одновременное использование CQLSSTableWriter

Я пытаюсь создать Cassandra SSTables из результатов пакетного вычисления в Spark. В идеале каждый раздел должен создавать SSTable для хранящихся в нем данных, чтобы максимально распараллелить процесс (и, возможно, даже передать его в кольцо...

1024 просмотров

02.04.2024

Ограничения формата имен временных таблиц Spark SQL?

Есть ли ограничение на формат имен временных таблиц, разрешенный в Spark SQL? Я спрашиваю это, потому что когда я использую: json_RDD.registerTempTable("tweet_data") trends_data=hiveCtx.sql("SELECT * FROM tweet_data") Я получил следующее...

2397 просмотров

apache-spark apache-spark-sql

27.04.2024

Невозможно запустить кластер Spark в автономном режиме с start-all.sh

Я новичок в Spark и пытаюсь установить Spark Standalone в кластер с 3 узлами. Я сделал SSH без пароля от мастера к другим узлам. Я пробовал следующие изменения конфигурации Обновлены имена хостов для 2 узлов в файле conf / slaves.sh. Создал...

730 просмотров

apache-spark

25.03.2024

Автономный кластер Spark на пользовательской JVM

Я пытаюсь развернуть автономный кластер Spark, используя специально созданную JVM. Запуск главного и рабочего процессов Spark — это нормально, но как только драйвер запускается и отправляет работу главному, рабочий процесс падает, потому что он...

122 просмотров

java apache-spark

01.05.2024

Как рассчитать процентиль столбца в DataFrame в искре?

Я пытаюсь вычислить процентиль столбца в DataFrame? Я не могу найти ни одной функции percentile_approx в функциях агрегирования Spark. Например, в Hive у нас есть percentile_approx, и мы можем использовать его следующим образом...

14670 просмотров

apache-spark apache-spark-sql scala spark-dataframe

09.04.2024

Использование профилей учетных данных aws с приложением Spark Scala

Я хотел бы иметь возможность использовать файл ~ / .aws / credentials, который я поддерживаю с разными профилями, с моим приложением Spark Scala, если это возможно. Я знаю, как установить конфигурации hadoop для s3a внутри моего приложения, но я не...

4300 просмотров

intellij-idea amazon-web-services apache-spark hadoop scala

31.05.2024

Как создать хэш-карту определенных полей из RDD[String]?

Как создать хэш-карту определенных полей из RDD[String]? { count: 1, itemId: "1122334", country: { code: { preferred: "USA" }, name: { preferred: "America" } }, states:...

209 просмотров

hashmap apache-spark apache-spark-sql scala rdd

04.04.2024

Строка, пара наборов данных в Spark 2.0

У меня есть набор данных транзакций, где каждая транзакция представляет собой покупку одного предмета. Таким образом, каждый заказ записывается как 3 транзакции, если в заказе было 3 товара. Пример набора данных: User Order, ItemCount,...

643 просмотров

java apache-spark scala data-science

12.04.2024

какая связь между Spark rdd и Spark sql?

Я новичок в Spark! И я запутался в отношениях между Spark rdd и Spark sql . Должен ли Spark sql конвертироваться в Spark rdd в фоновом режиме?

571 просмотров

apache-spark apache-spark-sql

31.05.2024

функция карты никогда не выполняется

Я написал метод, который принимает BlockMatrix и устанавливает все значения, отличные от 0, в 1. public BlockMatrix SetNonZeroesToOnes(BlockMatrix matrix) { // initialize JavaRDD<MatrixEntry> matrixEntries =...

90 просмотров

java apache-spark

29.05.2024

Установка Apache Spark с помощью yum

Я нахожусь в процессе установки искры в коробку HDP моей организации. Я запускаю yum install spark , и он устанавливает Spark 1.4.1. Как установить Spark 2.0? Пожалуйста помоги!

3553 просмотров

apache-spark hadoop hortonworks-sandbox

03.05.2024

Настройка python в воркерах в SPARK YARN с помощью anaconda

Я просмотрел этот пост установка пути python для рабочих/драйверов в автономном режиме искры . По-видимому, самый простой способ — указать переменную среды PYSPARK_PATh в файле ./conf/spark-env.sh, расположенном в папке conf искры, такой как...

641 просмотров

apache-spark pyspark

17.03.2024

Сохранение пары RDD в определенном формате в выходном файле

У меня есть JavaPairRDD, скажем, данные типа <Integer,List<Integer>> когда я делаю data.saveAsTextFile("output") Вывод будет содержать данные в следующем формате: (1,[1,2,3,4]) так далее... Я хочу что-то вроде этого в...

1372 просмотров

apache-spark apache-spark-2.0

11.06.2024

Как проверить с помощью команд оболочки, активен ли мастер искры или находится в режиме ожидания?

Мои требования: Я хочу проверить статус мастера, чтобы мои партии могли автоматически адаптироваться к изменениям мастера, затем я изменю переменную среды и перезапущу задание. Однако, когда я пытаюсь использовать hdfs haadmin...

262 просмотров

apache-spark

02.04.2024

Несоответствие типов дженериков Spark UDAF

Я пытаюсь создать UDAF в Spark (2.0.1, Scala 2.11), как показано ниже. Это по существу агрегирует кортежи и выводит Map import org.apache.spark.sql.expressions._ import org.apache.spark.sql.types._ import org.apache.spark.sql.functions.udf...

367 просмотров

apache-spark scala user-defined-aggregate

22.04.2024

как транслировать из kafka в cassandra и увеличивать счетчики

У меня есть файл журнала доступа apache, и я хочу хранить счетчики доступа (всего/ежедневно/ежечасно) каждой страницы в таблице cassandra. Я пытаюсь сделать это, используя kafka для подключения к потоку из файла журнала в тему kafka. Могу ли я...

1127 просмотров

apache-kafka cassandra apache-spark apache-kafka-connect

17.04.2024

Пользовательское действие скрипта в Azure Data Factory HDInsight Cluster

Есть ли способ запустить настраиваемое действие сценария (или установить пакеты Python) при создании кластера HDInsight по запросу в Azure Data Factory v2? В документации Фабрики данных Azure действия настраиваемых сценариев не указаны в качестве...

126 просмотров

azure apache-spark azure-data-factory-2 azure-hdinsight

12.06.2024

Как читать десятичные данные с точностью 38 и шкалой 18 в Scala

У меня есть данные типа Decimal (38,16) в СУБД. Я импортирую эти данные в HDFS (Hadoop) в формате паркетного файла. После этого я читаю этот файл паркета в код Spark. val df = spark.read.parquet(<path>) После загрузки данных в фрейм...

4586 просмотров

apache-spark hadoop apache-spark-sql scala

12.05.2024

искра обрабатывает данные json внутри файла csv

Как обрабатывать данные json внутри файла csv. Я пытаюсь использовать from_json, но при этом мне нужно указать мою схему, где моя схема продолжает меняться. образец ввода: - userid type data 26594 p.v {}...

509 просмотров

apache-spark

21.03.2024

Java Spark GroupByFailure

Я пытаюсь использовать библиотеки Java Spark с кластером, на котором работает Spark 2.3.0 поверх Hadoop 3.1.0 (и с использованием этих версий библиотек Java). Я столкнулся с проблемой, когда я просто не могу использовать groupByKey, и я не могу...

221 просмотров

java apache-spark

24.03.2024