Публикации по теме 'cuda'


Раскрытие потенциала CUDA: иерархия потоков и параллельное выполнение
От иерархических структур к асинхронной симфонии Привет всем, я надеюсь, что у вас все идет хорошо. Это третья глава моей серии CUDA. Если вы еще не читали, первая и вторая главы были опубликованы на прошлой неделе. Рекомендую прочитать их один раз. Их можно найти здесь Введение в CUDA и CUDA за пределами основ . Давайте сразу перейдем к сегодняшней теме. Модель программирования CUDA построена на основе иерархического расположения потоков. В этой модели каждый отдельный..

Графические процессоры приходят в вашу базу данных!
Технологии баз данных для обработки транзакций и для аналитики как бы двигались в разных направлениях. В основном это было сделано с точки зрения «разделения задач». Транзакции зависят от скорости: люди ускоряют базы данных, размещая их в памяти (например, HANA) и/или добавляя возможности столбцов (например, Postgres, Oracle , ну и всем). Аналитика, OTOH, как правило, связаны с объемом — иметь массово параллельные или распределенные серверные части, которые могут очень быстро..

Ускорьте свои алгоритмы, часть 1 - PyTorch
Ускорьте свои алгоритмы, часть 1 - PyTorch Ускорьте ваши модели PyTorch Это первый пост из серии, которую я пишу. Все посты здесь: Ускорьте свои алгоритмы. Часть 1 - PyTorch Ускорьте свои алгоритмы, часть 2 - Numba Ускорьте свои алгоритмы. Часть 3 - Распараллеливание Ускорьте свои алгоритмы. Часть 4 - Dask И это относится к блокнотам Jupyter , доступным здесь: [ Github-SpeedUpYourAlgorithms ] и [ Kaggle ] (Edit -28/11/18) - добавлен раздел..

в firefox есть проблема с форматированием, правильная команда
в firefox есть проблема с форматированием, правильная команда conda create --name tensorflow --clone root

Вопросы по теме 'cuda'

чтение pthread из разделяемой памяти
Исходя из CUDA, меня интересует, как разделяемая память читается из потока и сравнивается с требованиями выравнивания чтения CUDA. В качестве примера я буду использовать следующий код: #include <sys/unistd.h> #include <pthread.h>...
4619 просмотров
schedule 07.05.2024

Как настроить мой код/VS10 для распознавания вызовов функций CUDA в файлах .c?
По сути, у меня есть компилятор, компилирующий мои файлы .cu, и у меня (я думаю) полная работа с этими файлами .cu, но когда я пытаюсь их вызвать ( kernel<<<1,1>>>(void) ), компилятор регистрирует синтаксические ошибки из-за...
2933 просмотров

АЭС CUDA без freeImage
Использует ли библиотека NPP для сборки CUDA только freeImage или я могу использовать другую структуру или просто изображение без знака char * в качестве входных данных в функции NPP. Причина, по которой я задаю этот вопрос, заключается в том, что...
2325 просмотров
schedule 14.04.2024

Повторное использование потоков в CUDA
У меня есть большая серия чисел в массиве, около 150 МБ чисел, и мне нужно найти последовательные последовательности чисел, последовательности могут быть от 3 до 160 чисел. поэтому, чтобы упростить задачу, я решил, что каждый поток должен начинаться,...
225 просмотров
schedule 19.04.2024

Векторное произведение с разреженной матрицей на нескольких графических процессорах
Мне было интересно, каков самый быстрый способ вычисления разреженного произведения матрица-вектор y = Ax в CUDA на нескольких (скажем, n) графических процессорах. Мой наивный подход заключался в том, чтобы разделить вектор x и y на n фрагментов,...
354 просмотров
schedule 22.03.2024

CUDA atomicAdd дает неверный результат даже после инициализации параметра результата
atomicAdd дает неверный результат. Я даже инициализирую результат на устройстве, но все равно не работаю. Почему это? Вот функция, которую я вызываю: __global__ void getHammingDistance(char *str1, char *str2, int *result) { int idx =...
165 просмотров
schedule 09.04.2024

Как включить отдельную компиляцию для проекта CUDA в Visual Studio
Я новичок в CUDA. Я пытаюсь написать приложение, в котором я вызываю одну функцию ядра из другой функции ядра. Но я получаю сообщение об ошибке " запуск ядра с устройства или глобальные функции требуют отдельного режима компиляции " при сборке...
610 просмотров
schedule 21.04.2024

Оптимизирует ли nvcc использование регистров?
У меня есть следующее ядро: void version1(float *X, float *Y, int N) { int n; float x,y; n = blockIdx.x * blockDim.x + threadIdx.x; if (n >= N) return; x=X[n]; x=x+1; X[n]=x;...
92 просмотров
schedule 05.06.2024