Публикации по теме 'apache-spark'
Магазин функций Hopsworks для Databricks
TL; DR; Магазины функций стали ключевой частью инфраструктуры данных для платформ машинного обучения. Они управляют всем жизненным циклом функций: от обучения различных моделей до предоставления онлайн-приложений доступа к функциям с малой задержкой для вывода моделей. В этой статье рассказывается о магазине функций Hopsworks для Databricks и о том, как он может ускорить и управлять разработкой вашей модели и операциями на Databricks.
Что такое магазин функций?
Хранилище функций для..
Как настроить ноутбуки AWS EMR и Jupyter без больших затрат
Разверните распределенную вычислительную среду за считанные минуты с помощью AWS
Что такое AWS EMR?
AWS EMR — это реализация Amazon распределенной вычислительной платформы Hadoop, предназначенная для обработки больших данных . EMR означает Elastic MapReduce , а эластичность часто используется для описания того, как AWS масштабирует ресурсы. MapReduce относится к модели программирования для распределенных вычислений из оригинальной реализации Google. С тех пор MapReduce..
Элиминар эспасиос
Элиминар эспасиос
экспорт SPARK_HOME=/opt/spark экспорт PATH=$SPARK_HOME/bin:$PATH
Вопросы по теме 'apache-spark'
Одновременное использование CQLSSTableWriter
Я пытаюсь создать Cassandra SSTables из результатов пакетного вычисления в Spark. В идеале каждый раздел должен создавать SSTable для хранящихся в нем данных, чтобы максимально распараллелить процесс (и, возможно, даже передать его в кольцо...
1024 просмотров
schedule
02.04.2024
Ограничения формата имен временных таблиц Spark SQL?
Есть ли ограничение на формат имен временных таблиц, разрешенный в Spark SQL? Я спрашиваю это, потому что когда я использую:
json_RDD.registerTempTable("tweet_data")
trends_data=hiveCtx.sql("SELECT * FROM tweet_data")
Я получил следующее...
2397 просмотров
schedule
27.04.2024
Невозможно запустить кластер Spark в автономном режиме с start-all.sh
Я новичок в Spark и пытаюсь установить Spark Standalone в кластер с 3 узлами. Я сделал SSH без пароля от мастера к другим узлам.
Я пробовал следующие изменения конфигурации
Обновлены имена хостов для 2 узлов в файле conf / slaves.sh. Создал...
730 просмотров
schedule
25.03.2024
Автономный кластер Spark на пользовательской JVM
Я пытаюсь развернуть автономный кластер Spark, используя специально созданную JVM. Запуск главного и рабочего процессов Spark — это нормально, но как только драйвер запускается и отправляет работу главному, рабочий процесс падает, потому что он...
122 просмотров
schedule
01.05.2024
Как рассчитать процентиль столбца в DataFrame в искре?
Я пытаюсь вычислить процентиль столбца в DataFrame? Я не могу найти ни одной функции percentile_approx в функциях агрегирования Spark.
Например, в Hive у нас есть percentile_approx, и мы можем использовать его следующим образом...
14670 просмотров
schedule
09.04.2024
Использование профилей учетных данных aws с приложением Spark Scala
Я хотел бы иметь возможность использовать файл ~ / .aws / credentials, который я поддерживаю с разными профилями, с моим приложением Spark Scala, если это возможно. Я знаю, как установить конфигурации hadoop для s3a внутри моего приложения, но я не...
4300 просмотров
schedule
31.05.2024
Как создать хэш-карту определенных полей из RDD[String]?
Как создать хэш-карту определенных полей из RDD[String]?
{
count: 1,
itemId: "1122334",
country: {
code: {
preferred: "USA"
},
name: {
preferred: "America"
}
},
states:...
209 просмотров
schedule
04.04.2024
Строка, пара наборов данных в Spark 2.0
У меня есть набор данных транзакций, где каждая транзакция представляет собой покупку одного предмета. Таким образом, каждый заказ записывается как 3 транзакции, если в заказе было 3 товара.
Пример набора данных:
User Order, ItemCount,...
643 просмотров
schedule
12.04.2024
какая связь между Spark rdd и Spark sql?
Я новичок в Spark! И я запутался в отношениях между Spark rdd и Spark sql . Должен ли Spark sql конвертироваться в Spark rdd в фоновом режиме?
571 просмотров
schedule
31.05.2024
функция карты никогда не выполняется
Я написал метод, который принимает BlockMatrix и устанавливает все значения, отличные от 0, в 1.
public BlockMatrix SetNonZeroesToOnes(BlockMatrix matrix)
{
// initialize
JavaRDD<MatrixEntry> matrixEntries =...
90 просмотров
schedule
29.05.2024
Установка Apache Spark с помощью yum
Я нахожусь в процессе установки искры в коробку HDP моей организации. Я запускаю yum install spark , и он устанавливает Spark 1.4.1. Как установить Spark 2.0? Пожалуйста помоги!
3553 просмотров
schedule
03.05.2024
Настройка python в воркерах в SPARK YARN с помощью anaconda
Я просмотрел этот пост установка пути python для рабочих/драйверов в автономном режиме искры . По-видимому, самый простой способ — указать переменную среды PYSPARK_PATh в файле ./conf/spark-env.sh, расположенном в папке conf искры, такой как...
641 просмотров
schedule
17.03.2024
Сохранение пары RDD в определенном формате в выходном файле
У меня есть JavaPairRDD, скажем, данные типа
<Integer,List<Integer>>
когда я делаю data.saveAsTextFile("output") Вывод будет содержать данные в следующем формате:
(1,[1,2,3,4])
так далее...
Я хочу что-то вроде этого в...
1372 просмотров
schedule
11.06.2024
Как проверить с помощью команд оболочки, активен ли мастер искры или находится в режиме ожидания?
Мои требования:
Я хочу проверить статус мастера, чтобы мои партии могли автоматически адаптироваться к изменениям мастера, затем я изменю переменную среды и перезапущу задание.
Однако, когда я пытаюсь использовать
hdfs haadmin...
262 просмотров
schedule
02.04.2024
Несоответствие типов дженериков Spark UDAF
Я пытаюсь создать UDAF в Spark (2.0.1, Scala 2.11), как показано ниже. Это по существу агрегирует кортежи и выводит Map
import org.apache.spark.sql.expressions._
import org.apache.spark.sql.types._
import org.apache.spark.sql.functions.udf...
367 просмотров
schedule
22.04.2024
как транслировать из kafka в cassandra и увеличивать счетчики
У меня есть файл журнала доступа apache, и я хочу хранить счетчики доступа (всего/ежедневно/ежечасно) каждой страницы в таблице cassandra.
Я пытаюсь сделать это, используя kafka для подключения к потоку из файла журнала в тему kafka. Могу ли я...
1127 просмотров
schedule
17.04.2024
Пользовательское действие скрипта в Azure Data Factory HDInsight Cluster
Есть ли способ запустить настраиваемое действие сценария (или установить пакеты Python) при создании кластера HDInsight по запросу в Azure Data Factory v2?
В документации Фабрики данных Azure действия настраиваемых сценариев не указаны в качестве...
126 просмотров
schedule
12.06.2024
Как читать десятичные данные с точностью 38 и шкалой 18 в Scala
У меня есть данные типа Decimal (38,16) в СУБД. Я импортирую эти данные в HDFS (Hadoop) в формате паркетного файла. После этого я читаю этот файл паркета в код Spark.
val df = spark.read.parquet(<path>)
После загрузки данных в фрейм...
4586 просмотров
schedule
12.05.2024
искра обрабатывает данные json внутри файла csv
Как обрабатывать данные json внутри файла csv. Я пытаюсь использовать from_json, но при этом мне нужно указать мою схему, где моя схема продолжает меняться.
образец ввода: -
userid type data
26594 p.v {}...
509 просмотров
schedule
21.03.2024
Java Spark GroupByFailure
Я пытаюсь использовать библиотеки Java Spark с кластером, на котором работает Spark 2.3.0 поверх Hadoop 3.1.0 (и с использованием этих версий библиотек Java).
Я столкнулся с проблемой, когда я просто не могу использовать groupByKey, и я не могу...
221 просмотров
schedule
24.03.2024