Использование HDF5 (Hierarchical Data Format Version 5) быстро расширяется в науке о данных. Файлы HDF5 становятся все более распространенным способом хранения больших наборов данных.

Какого размера вы спросите? В наши дни принято работать с наборами данных, размер которых составляет сотни гигабайт или терабайт, а HDF5 может масштабироваться до эксабайт.

Здесь мы обсудим, как обрабатывать файлы HDF5, как их создавать, как их сохранять и т. Д.

Файловая структура HDF5:

Его структура аналогична дереву каталогов файловой системы. Существует три основных типа элементов в файлах HDF5: File, Group и Dataset, и их имена используются в качестве ключей доступа.

Создание файла HDF5:

Давайте сейчас создадим файл HDF5. Итак, мы занимаемся импортом. Мы импортируем numpy, затем импортируем пакет h5py. Теперь мы создадим две случайные матрицы, используя numpy matrix1 и matrix2, как показано ниже:

Итак, здесь мы создали наборы данных matrix1 и matrix2 внутри одного файла, то есть файла hdf5_data.

Чтение файлов HDF5:

Мы можем читать данные очень простым способом. Мы можем использовать функцию hdf.keys (), чтобы узнать все ключи в наборе данных. Мы открываем файл с атрибутом чтения r и восстанавливаем данные, напрямую обращаясь к набору данных под названием dataset1.