Публикации по теме 'cuda'
Раскрытие потенциала CUDA: иерархия потоков и параллельное выполнение
От иерархических структур к асинхронной симфонии
Привет всем, я надеюсь, что у вас все идет хорошо. Это третья глава моей серии CUDA. Если вы еще не читали, первая и вторая главы были опубликованы на прошлой неделе. Рекомендую прочитать их один раз. Их можно найти здесь Введение в CUDA и CUDA за пределами основ .
Давайте сразу перейдем к сегодняшней теме.
Модель программирования CUDA построена на основе иерархического расположения потоков. В этой модели каждый отдельный..
Графические процессоры приходят в вашу базу данных!
Технологии баз данных для обработки транзакций и для аналитики как бы двигались в разных направлениях. В основном это было сделано с точки зрения «разделения задач». Транзакции зависят от скорости: люди ускоряют базы данных, размещая их в памяти (например, HANA) и/или добавляя возможности столбцов (например, Postgres, Oracle , ну и всем). Аналитика, OTOH, как правило, связаны с объемом — иметь массово параллельные или распределенные серверные части, которые могут очень быстро..
Ускорьте свои алгоритмы, часть 1 - PyTorch
Ускорьте свои алгоритмы, часть 1 - PyTorch
Ускорьте ваши модели PyTorch
Это первый пост из серии, которую я пишу. Все посты здесь:
Ускорьте свои алгоритмы. Часть 1 - PyTorch Ускорьте свои алгоритмы, часть 2 - Numba Ускорьте свои алгоритмы. Часть 3 - Распараллеливание Ускорьте свои алгоритмы. Часть 4 - Dask
И это относится к блокнотам Jupyter , доступным здесь:
[ Github-SpeedUpYourAlgorithms ] и [ Kaggle ]
(Edit -28/11/18) - добавлен раздел..
в firefox есть проблема с форматированием, правильная команда
в firefox есть проблема с форматированием, правильная команда
conda create --name tensorflow --clone root
Вопросы по теме 'cuda'
чтение pthread из разделяемой памяти
Исходя из CUDA, меня интересует, как разделяемая память читается из потока и сравнивается с требованиями выравнивания чтения CUDA. В качестве примера я буду использовать следующий код:
#include <sys/unistd.h>
#include <pthread.h>...
4619 просмотров
schedule
07.05.2024
Как настроить мой код/VS10 для распознавания вызовов функций CUDA в файлах .c?
По сути, у меня есть компилятор, компилирующий мои файлы .cu, и у меня (я думаю) полная работа с этими файлами .cu, но когда я пытаюсь их вызвать ( kernel<<<1,1>>>(void) ), компилятор регистрирует синтаксические ошибки из-за...
2933 просмотров
schedule
18.03.2024
АЭС CUDA без freeImage
Использует ли библиотека NPP для сборки CUDA только freeImage или я могу использовать другую структуру или просто изображение без знака char * в качестве входных данных в функции NPP.
Причина, по которой я задаю этот вопрос, заключается в том, что...
2325 просмотров
schedule
14.04.2024
Повторное использование потоков в CUDA
У меня есть большая серия чисел в массиве, около 150 МБ чисел, и мне нужно найти последовательные последовательности чисел, последовательности могут быть от 3 до 160 чисел. поэтому, чтобы упростить задачу, я решил, что каждый поток должен начинаться,...
225 просмотров
schedule
19.04.2024
Векторное произведение с разреженной матрицей на нескольких графических процессорах
Мне было интересно, каков самый быстрый способ вычисления разреженного произведения матрица-вектор y = Ax в CUDA на нескольких (скажем, n) графических процессорах.
Мой наивный подход заключался в том, чтобы разделить вектор x и y на n фрагментов,...
354 просмотров
schedule
22.03.2024
CUDA atomicAdd дает неверный результат даже после инициализации параметра результата
atomicAdd дает неверный результат. Я даже инициализирую результат на устройстве, но все равно не работаю. Почему это?
Вот функция, которую я вызываю:
__global__
void getHammingDistance(char *str1, char *str2, int *result)
{
int idx =...
165 просмотров
schedule
09.04.2024
Как включить отдельную компиляцию для проекта CUDA в Visual Studio
Я новичок в CUDA. Я пытаюсь написать приложение, в котором я вызываю одну функцию ядра из другой функции ядра. Но я получаю сообщение об ошибке " запуск ядра с устройства или глобальные функции требуют отдельного режима компиляции " при сборке...
610 просмотров
schedule
21.04.2024
Оптимизирует ли nvcc использование регистров?
У меня есть следующее ядро:
void version1(float *X, float *Y, int N) {
int n;
float x,y;
n = blockIdx.x * blockDim.x + threadIdx.x;
if (n >= N) return;
x=X[n];
x=x+1;
X[n]=x;...
92 просмотров
schedule
05.06.2024