Ранее мы видели, как использовать линейную регрессию для построения прямой линии, которая может предсказать взаимосвязь между прогрессированием диабета, индексом массы тела и артериальным давлением. Набор данных, который мы получили от Scikit-learn, был заранее подготовлен для построения модели, в действительности наборы данных не готовятся таким образом для эффективного построения модели. Нам нужно подготовить набор данных и использовать методы визуализации, чтобы фактически преобразовать набор данных во что-то, что могло бы эффективно использоваться нашей моделью машинного обучения. Качество результата, получаемого моделью, сильно зависит от набора данных, который мы используем.
Пример — набор данных тыквы
Мы собираемся еще раз обратиться к примеру набора данных, чтобы увидеть, как данные подготавливаются, анализируются и визуализируются. Это упражнение основано на руководстве GitHub. Получите CSV по этой ссылке.
В этом примере мы использовали точечный график и гистограмму для визуализации данных. Существуют различные типы методов визуализации, которые можно использовать для более легкого понимания данных.
«Визуализация данных очень важна для понимания природы набора данных, с которым мы работаем».
Вот полезная ссылка для визуализации данных!
Следующая часть серии,
Ссылка,