Публикации по теме 'apache-spark'


Магазин функций Hopsworks для Databricks
TL; DR; Магазины функций стали ключевой частью инфраструктуры данных для платформ машинного обучения. Они управляют всем жизненным циклом функций: от обучения различных моделей до предоставления онлайн-приложений доступа к функциям с малой задержкой для вывода моделей. В этой статье рассказывается о магазине функций Hopsworks для Databricks и о том, как он может ускорить и управлять разработкой вашей модели и операциями на Databricks. Что такое магазин функций? Хранилище функций для..

Как настроить ноутбуки AWS EMR и Jupyter без больших затрат
Разверните распределенную вычислительную среду за считанные минуты с помощью AWS Что такое AWS EMR? AWS EMR — это реализация Amazon распределенной вычислительной платформы Hadoop, предназначенная для обработки больших данных . EMR означает Elastic MapReduce , а эластичность часто используется для описания того, как AWS масштабирует ресурсы. MapReduce относится к модели программирования для распределенных вычислений из оригинальной реализации Google. С тех пор MapReduce..

Элиминар эспасиос
Элиминар эспасиос экспорт SPARK_HOME=/opt/spark экспорт PATH=$SPARK_HOME/bin:$PATH

Вопросы по теме 'apache-spark'

Одновременное использование CQLSSTableWriter
Я пытаюсь создать Cassandra SSTables из результатов пакетного вычисления в Spark. В идеале каждый раздел должен создавать SSTable для хранящихся в нем данных, чтобы максимально распараллелить процесс (и, возможно, даже передать его в кольцо...
1024 просмотров

Ограничения формата имен временных таблиц Spark SQL?
Есть ли ограничение на формат имен временных таблиц, разрешенный в Spark SQL? Я спрашиваю это, потому что когда я использую: json_RDD.registerTempTable("tweet_data") trends_data=hiveCtx.sql("SELECT * FROM tweet_data") Я получил следующее...
2397 просмотров
schedule 27.04.2024

Невозможно запустить кластер Spark в автономном режиме с start-all.sh
Я новичок в Spark и пытаюсь установить Spark Standalone в кластер с 3 узлами. Я сделал SSH без пароля от мастера к другим узлам. Я пробовал следующие изменения конфигурации Обновлены имена хостов для 2 узлов в файле conf / slaves.sh. Создал...
730 просмотров
schedule 25.03.2024

Автономный кластер Spark на пользовательской JVM
Я пытаюсь развернуть автономный кластер Spark, используя специально созданную JVM. Запуск главного и рабочего процессов Spark — это нормально, но как только драйвер запускается и отправляет работу главному, рабочий процесс падает, потому что он...
122 просмотров
schedule 01.05.2024

Как рассчитать процентиль столбца в DataFrame в искре?
Я пытаюсь вычислить процентиль столбца в DataFrame? Я не могу найти ни одной функции percentile_approx в функциях агрегирования Spark. Например, в Hive у нас есть percentile_approx, и мы можем использовать его следующим образом...
14670 просмотров

Использование профилей учетных данных aws с приложением Spark Scala
Я хотел бы иметь возможность использовать файл ~ / .aws / credentials, который я поддерживаю с разными профилями, с моим приложением Spark Scala, если это возможно. Я знаю, как установить конфигурации hadoop для s3a внутри моего приложения, но я не...
4300 просмотров

Как создать хэш-карту определенных полей из RDD[String]?
Как создать хэш-карту определенных полей из RDD[String]? { count: 1, itemId: "1122334", country: { code: { preferred: "USA" }, name: { preferred: "America" } }, states:...
209 просмотров

Строка, пара наборов данных в Spark 2.0
У меня есть набор данных транзакций, где каждая транзакция представляет собой покупку одного предмета. Таким образом, каждый заказ записывается как 3 транзакции, если в заказе было 3 товара. Пример набора данных: User Order, ItemCount,...
643 просмотров
schedule 12.04.2024

какая связь между Spark rdd и Spark sql?
Я новичок в Spark! И я запутался в отношениях между Spark rdd и Spark sql . Должен ли Spark sql конвертироваться в Spark rdd в фоновом режиме?
571 просмотров
schedule 31.05.2024

функция карты никогда не выполняется
Я написал метод, который принимает BlockMatrix и устанавливает все значения, отличные от 0, в 1. public BlockMatrix SetNonZeroesToOnes(BlockMatrix matrix) { // initialize JavaRDD<MatrixEntry> matrixEntries =...
90 просмотров
schedule 29.05.2024

Установка Apache Spark с помощью yum
Я нахожусь в процессе установки искры в коробку HDP моей организации. Я запускаю yum install spark , и он устанавливает Spark 1.4.1. Как установить Spark 2.0? Пожалуйста помоги!
3553 просмотров

Настройка python в воркерах в SPARK YARN с помощью anaconda
Я просмотрел этот пост установка пути python для рабочих/драйверов в автономном режиме искры . По-видимому, самый простой способ — указать переменную среды PYSPARK_PATh в файле ./conf/spark-env.sh, расположенном в папке conf искры, такой как...
641 просмотров
schedule 17.03.2024

Сохранение пары RDD в определенном формате в выходном файле
У меня есть JavaPairRDD, скажем, данные типа <Integer,List<Integer>> когда я делаю data.saveAsTextFile("output") Вывод будет содержать данные в следующем формате: (1,[1,2,3,4]) так далее... Я хочу что-то вроде этого в...
1372 просмотров
schedule 11.06.2024

Как проверить с помощью команд оболочки, активен ли мастер искры или находится в режиме ожидания?
Мои требования: Я хочу проверить статус мастера, чтобы мои партии могли автоматически адаптироваться к изменениям мастера, затем я изменю переменную среды и перезапущу задание. Однако, когда я пытаюсь использовать hdfs haadmin...
262 просмотров
schedule 02.04.2024

Несоответствие типов дженериков Spark UDAF
Я пытаюсь создать UDAF в Spark (2.0.1, Scala 2.11), как показано ниже. Это по существу агрегирует кортежи и выводит Map import org.apache.spark.sql.expressions._ import org.apache.spark.sql.types._ import org.apache.spark.sql.functions.udf...
367 просмотров

как транслировать из kafka в cassandra и увеличивать счетчики
У меня есть файл журнала доступа apache, и я хочу хранить счетчики доступа (всего/ежедневно/ежечасно) каждой страницы в таблице cassandra. Я пытаюсь сделать это, используя kafka для подключения к потоку из файла журнала в тему kafka. Могу ли я...
1127 просмотров

Пользовательское действие скрипта в Azure Data Factory HDInsight Cluster
Есть ли способ запустить настраиваемое действие сценария (или установить пакеты Python) при создании кластера HDInsight по запросу в Azure Data Factory v2? В документации Фабрики данных Azure действия настраиваемых сценариев не указаны в качестве...
126 просмотров

Как читать десятичные данные с точностью 38 и шкалой 18 в Scala
У меня есть данные типа Decimal (38,16) в СУБД. Я импортирую эти данные в HDFS (Hadoop) в формате паркетного файла. После этого я читаю этот файл паркета в код Spark. val df = spark.read.parquet(<path>) После загрузки данных в фрейм...
4586 просмотров

искра обрабатывает данные json внутри файла csv
Как обрабатывать данные json внутри файла csv. Я пытаюсь использовать from_json, но при этом мне нужно указать мою схему, где моя схема продолжает меняться. образец ввода: - userid type data 26594 p.v {}...
509 просмотров
schedule 21.03.2024

Java Spark GroupByFailure
Я пытаюсь использовать библиотеки Java Spark с кластером, на котором работает Spark 2.3.0 поверх Hadoop 3.1.0 (и с использованием этих версий библиотек Java). Я столкнулся с проблемой, когда я просто не могу использовать groupByKey, и я не могу...
221 просмотров
schedule 24.03.2024