Ранее мы видели, как использовать линейную регрессию для построения прямой линии, которая может предсказать взаимосвязь между прогрессированием диабета, индексом массы тела и артериальным давлением. Набор данных, который мы получили от Scikit-learn, был заранее подготовлен для построения модели, в действительности наборы данных не готовятся таким образом для эффективного построения модели. Нам нужно подготовить набор данных и использовать методы визуализации, чтобы фактически преобразовать набор данных во что-то, что могло бы эффективно использоваться нашей моделью машинного обучения. Качество результата, получаемого моделью, сильно зависит от набора данных, который мы используем.

Пример — набор данных тыквы

Мы собираемся еще раз обратиться к примеру набора данных, чтобы увидеть, как данные подготавливаются, анализируются и визуализируются. Это упражнение основано на руководстве GitHub. Получите CSV по этой ссылке.



В этом примере мы использовали точечный график и гистограмму для визуализации данных. Существуют различные типы методов визуализации, которые можно использовать для более легкого понимания данных.

«Визуализация данных очень важна для понимания природы набора данных, с которым мы работаем».

Вот полезная ссылка для визуализации данных!



Следующая часть серии,



Ссылка,