Демонстрация 10 основных строительных блоков знаний в области науки о данных.

введение

Если вы пытаетесь проникнуть в науку о данных или даже если вы знакомы с этой областью, перспектива погрузиться в новые знания по этому вопросу, вероятно, пугает. Это разумная эмоциональная реакция, поскольку наука о данных не только сложна, но и включает в себя множество различных дисциплин. Может быть даже трудно получить базовые знания во всех этих областях науки о данных, не говоря уже о том, чтобы последовательно изучать или практиковать все это.

Хотя наука о данных может описывать широкий предмет, все еще есть части этих предметов, которые можно изучать по отдельности, чтобы получить более четкое представление о всей области. При этом, независимо от того, хочет ли кто-то стать специалистом по данным или просто хочет попробовать новые направления в науке о данных, вот 10 вещей, которые я бы назвал отличными фундаментальными строительными блоками на пути к тому, чтобы стать великим специалистом по данным! Я бы сказал, что вы можете называть себя практиком Data Science после понимания этих предметов!

№1: Статистическое представление

Независимо от того, по каким направлениям науки о данных вы пойдете, вам придется работать с формулами. По большей части большая часть математики, связанной с наукой о данных, имеет тенденцию находиться в области статистики, поэтому я выучил представление греческих символов для различных значений в статистике — и это было бы самое первое, что я бы выучил. Это также предполагает твердое понимание линейной алгебры — алгебры в целом — и математики.

Причина, по которой это так важно, заключается в том, что вам нужно будет интерпретировать вещи как из источников информации, так и из других Ученых, и эти источники будут использовать этот язык. Если кто-то дает вам формулу, содержащую кучу символов, а вы понятия не имеете, что они означают, то, вероятно, будет довольно сложно понять, как запрограммировать эту формулу; или понять, что на самом деле делает формула. Тем не менее, это очень фундаментальное понимание и, вероятно, одна из первых вещей, которые, я бы сказал, кто-то должен усвоить, приходя в мир науки о данных. Я совсем забыл, что писал это, но вот старая статья, которую я написал на эту тему:



№2: Общие форматы данных

Следующее, что я хотел бы сделать, приступая к науке о данных, — это узнать о некоторых наиболее часто используемых форматах данных. Это также может означать изучение пакетов, связанных с этими форматами данных, на вашем языке программирования. Некоторыми примерами распространенных форматов файлов являются такие вещи, как JSON, CSV и, возможно, даже Excel. По той же причине может быть важно ознакомиться с такими вещами, как схемы и файлы SQL. Понимание этих различных типов данных и того, как их читать на языке, абсолютно необходимо для большинства анализов данных.

Я бы сказал, что помимо знания о форматах, в которых их нужно читать, также важно иметь хотя бы относительное представление о том, как работает большинство синтаксических анализаторов и средств записи для этих различных форматов.

№3: Типы характеристик

Следующий шаг, который я бы сделал, — получить четкое представление о функциях и типах функций. Вам следует обратить внимание на три основных типа:

  • labels — маркировать вещи.
  • Continuous — данные с числовым расстоянием.
  • Категориальные — данные, описывающие какое-либо свойство.

Все эти различные типы функций могут быть самых разных типов, и только ваше усмотрение может определить, на какой тип функции вы смотрите. При этом твердое понимание этого важно для правильной обработки этих функций. Рассмотрим эту небольшую таблицу:

Date       | Placement | Rating |
11/23/2001     2          9

В приведенном выше примере Placement относится к чьей-либо позиции в круговом соревновании. Рейтинг представляет собой среднее значение рейтинга судьи на круговой диаграмме. Каковы типы каждой из этих функций? Date — это метка, но два других немного сбивают с толку. Размещение кажется непрерывным на поверхности, но так ли это? Я бы сказал, что позиция, которую вы получаете в чем-то, и даже рейтинг могут быть как категориальными, так и непрерывными признаками. Потому что 2-е место — это категория производительности, а также зачет позиции.

Мы могли бы определенно сказать, что между 1 и 10 существует числовое пространство, например. Однако рейтинг может быть только одним из 10 номеров — значит, категорий 10, верно? Именно о таких нюансах я и говорю — категории определенно могут сбивать с толку.

№4: Манипуляции

Как только вы научитесь читать данные и смотреть на них, я бы сказал, что вы можете начать манипулировать данными. Обычно это включает в себя изучение некоторых сред управления данными. Например, в Python было бы важно изучить что-то вроде Pandas. Невозможно заниматься аналитикой или прогнозным моделированием, не умея сначала манипулировать, очищать и предоставлять данные. При этом манипулирование данными, вероятно, является самым важным навыком из всех этих навыков, поскольку мало что можно сделать без возможности манипулировать данными.

Для начала нужно знать не так уж много. Тем не менее, безусловно, есть несколько предметов первой необходимости, таких как

  • Удаление столбцов.
  • Удаление пропущенных значений.
  • Удаление неверных значений.
  • Индексирование, установка индексов (добавление столбцов и доступ к ним)

№5: нормальное распределение



Нормальное распределение является одним из наиболее важных понятий. Есть много разных причин, почему это так, но это распределение является основополагающим принципом в логической статистике. Большая часть нашего статистического понимания построена на этой идее стандартных отклонений от среднего тем или иным образом. Например, даже T-критерий Стьюдента потребует, чтобы данные были нормализованы. Обозначается простой формулой

x = x̄ - µ / σ

Эта формула имеет большой смысл; нормальное распределение представляет собой стандартное отклонение от среднего. Мы получаем разницу между x̄, текущей выборкой, и µ; Значение. Затем мы делим это на стандартные отклонения, чтобы увидеть, сколько стандартных отклонений соответствует разнице между нашей выборкой и средним значением. Более конкретно, это функция плотности вероятности (PDF).



Кроме того, нормальное распределение имеет применение в машинном обучении. Обычно это делается с помощью стандартного скейлера, который помогает снизить дисперсию данных и уменьшить вес выбросов. Просмотр значения как стандартного отклонения от среднего значения, а не самого значения, делает значение инженерной характеристикой остальных данных. Это означает, что нормальное распределение говорит нам гораздо больше о данных и их отношении к остальным данным, а не только о данных.

№6: Т-тест Стьюдента

Говоря о распределениях, я бы сказал, что большой шаг вперед от нормального распределения — это знакомство с t-критерием Стьюдента. Это приведет к основам науки, аналитики и проверки гипотез. По очевидным причинам это очень важно для выяснения фактического результата вашего теста на основе данных. Хотя есть и другие отличные статистические тесты, T-тест остается относительно простым с регуляризованной нижней неполной бета-функцией в качестве CDF.

Если вы новичок, извините, что пишу это.

Все CDF менее доступны, хотя t-тест — один из самых простых, с которыми я знаком, но t-тест также хорошо зарекомендовал себя, что означает, что маловероятно, что вы будете делать этот тест с нуля. К счастью, научное тестирование стало более доступным, чем когда-либо прежде, а это означает, что часто существуют библиотеки, например SciPy, которые отлично справляются с преобразованием этой сложной математики в API высокого уровня. При этом я бы попытался провести Т-тест довольно рано, чтобы войти в дверь.

№7: Типы визуализации

Хотя мы все, вероятно, знакомы со многими различными типами статистической визуализации, от точечной диаграммы до гистограммы, они часто не дают полной картины. При этом существует множество различных типов визуализаций, и я бы сказал, что в какой-то момент было бы неплохо получить относительно приличное представление о различных типах визуализаций, связанных с каждым отдельным типом объектов.

№8: Баш/Общая вычислительная техника

Это может показаться странным для добавления в этот список, но в этом утверждении определенно есть смысл. Программирование и использование компьютера будет намного сложнее, если вы не знаете, как пользоваться компьютером. Если вы работаете в Windows, это означает, что вы можете хорошо просматривать файлы и правильно редактировать настройки операционной системы. Большинство также могут использовать что-то вроде WSL, чтобы получить доступ к Bash.

Существует множество различных ситуаций, когда пригодятся общие знания Bash, Unix и Linux. Bash часто используется при развертывании, учитывая, что большинство серверов работают под управлением Linux, а также это просто удобный инструмент, который можно использовать в системе.

№9: Язык структурированных запросов

Еще одна вещь, с которой я бы познакомился довольно рано, — это язык структурированных запросов (SQL). Хотя вы, возможно, не сможете использовать его сразу, это отличная вещь для практики, потому что почти каждая работа по науке о данных потребует использования SQL. Самое замечательное в приобретении этого навыка относительно рано заключается в том, что вы можете получить некоторое время, чтобы попрактиковаться в работе с ним и освоить сверхурочные запросы!

№10: Примеры приложений

К этому моменту статьи вы, вероятно, поймете, что мы очень мало говорили об искусственном интеллекте или науке о данных. Реальность такова, что это только часть науки о данных, и даже не близкая к целой картине, которая действительно иллюстрирует, как много еще предстоит узнать, поскольку наиболее обсуждаемая тема является лишь одной из многих различных областей, которыми обычно занимаются специалисты по данным. использовать.

При этом, безусловно, есть более важные вещи, на которых следует сосредоточиться, когда вы начинаете. Кроме того, машинному обучению очень трудно существовать без других вещей. При этом, чтобы не полностью отпугнуть себя от науки о данных, я бы сказал, что умеренное понимание упомянутых предметов позволит перейти к машинному обучению. Первое, что нужно усвоить, входя в этот мир, — какие модели и какие нейронные сети применяются к каким типам данных. Одна вещь, которая определенно разрушит любую производительность модели, на которую можно было бы надеяться, — это простое использование неправильной модели или типа сети для прогнозирования вашей функции.

При этом важно понимать применение моделей перед их использованием. Например, линейный регрессор используется для непрерывных данных — кто знает, что произойдет, если его применить к категориальным данным (на самом деле ничего — ошибки, потому что это невозможно). Точка бытия; у вас могут быть удивительные данные, но при этом иметь ужасную модель исключительно из-за выбора. Большинство моделей и типов сетей имеют определенные приложения для определенных типов функций, и лучше оставаться в этих пределах, чтобы поддерживать высокую точность.

заключение

Наука о данных — сложная, запутанная и запутанная тема, состоящая из нескольких областей, объединенных в невероятно интересную область, где всегда есть что-то новое для изучения. Вот некоторые из вещей, с которых лично я бы начал, если бы мне пришлось начинать заново, поскольку я, конечно, выучил все это не по порядку, и даже на занятиях, которые я посещал, я чувствовал, что вещи часто были не по порядку — но это делает Теперь для меня немного больше смысла, так как здесь переплетено много разных доменов, и он часто выбирает один за другим.

Тем не менее, я надеюсь, что эта статья была полезна для тех, кто хочет начать работу с Data Science! Большое спасибо за чтение, и хорошего дня!