Использование HDF5 (Hierarchical Data Format Version 5) быстро расширяется в науке о данных. Файлы HDF5 становятся все более распространенным способом хранения больших наборов данных.
Какого размера вы спросите? В наши дни принято работать с наборами данных, размер которых составляет сотни гигабайт или терабайт, а HDF5 может масштабироваться до эксабайт.
Здесь мы обсудим, как обрабатывать файлы HDF5, как их создавать, как их сохранять и т. Д.
Файловая структура HDF5:
Его структура аналогична дереву каталогов файловой системы. Существует три основных типа элементов в файлах HDF5: File, Group и Dataset, и их имена используются в качестве ключей доступа.
Создание файла HDF5:
Давайте сейчас создадим файл HDF5. Итак, мы занимаемся импортом. Мы импортируем numpy, затем импортируем пакет h5py. Теперь мы создадим две случайные матрицы, используя numpy matrix1 и matrix2, как показано ниже:
Итак, здесь мы создали наборы данных matrix1 и matrix2 внутри одного файла, то есть файла hdf5_data.
Чтение файлов HDF5:
Мы можем читать данные очень простым способом. Мы можем использовать функцию hdf.keys (), чтобы узнать все ключи в наборе данных. Мы открываем файл с атрибутом чтения r и восстанавливаем данные, напрямую обращаясь к набору данных под названием dataset1.