Отправная точка науки о данных

Интервьюеры любят начинать свое интервью по науке о данных с этого вопроса. Знаете ли вы ответы на них?

Все мои знакомые, которые давали интервью Data Scientist, утверждали, что все их интервью начинаются с одного из этих вопросов.

Интервьюеры любят начинать с этих основных вопросов, чтобы оценить фундаментальное понимание кандидата и дать толчок процессу собеседования, чтобы подготовить почву для более сложных вопросов.

Если вы новичок в машинном обучении, это поможет вам начать свое путешествие по науке о данных, а если вы являетесь экспертом, это поможет вам освежить свои навыки и гарантировать, что вы начнете свои интервью с правильной ноты.

Ниже приведены некоторые темы, с которых начинается большинство интервью.

Линейная регрессия

Линейная регрессия — это алгоритм, который, по сути, пытается выяснить линейную связь между вашей целевой функцией (зависимой функцией) и другими функциями (независимыми функциями).

Чтобы понять линейную связь данных, вы должны рассмотреть уравнение линии.

Здесь y = зависимая функция

x = независимая функция

m = наклон линии, который представляет отношение между x и y

c = термин смещения

Таким образом, вам нужен только наклон (m) и смещение (c), чтобы извлечь связь между ними. Может быть много значений наклона и смещения, что приводит к различным линиям. Вам нужно найти наилучшую линию соответствия, которая включает в себя большинство точек в ней.

Чтобы найти линию наилучшего соответствия, вам нужна мера, чтобы определить, насколько хорошо линия соответствует точкам.

Функция стоимости

Функция стоимости — это способ указать модели указанную выше цель обучения. Чтобы измерить, насколько хорошо линия соответствует точкам, мы можем вычислить сумму расстояний от всех точек до линии. Линия наилучшего соответствия будет иметь минимальное расстояние, так как она будет ближе всего к точкам, и это ваша функция стоимости.

Для одного независимого признака это уравнение выглядит так.

Эта функция стоимости измеряет сумму разности точек, предсказанных линией, и фактических точек.

Градиентный спуск

Общая идея градиентного спуска заключается в итеративном изменении параметров для минимизации функции стоимости.

Чтобы найти эту наиболее подходящую линию, вам нужно начать со случайного выбора линии и вычислить для нее функцию стоимости. Затем вы итеративно продолжаете изменять параметры на некоторую величину, так что функция стоимости продолжает уменьшаться, пока не достигнет своего минимального значения.

Поскольку график функции стоимости по отношению к параметрам является выпуклой функцией, можно рассчитать наклон функции стоимости при заданных значениях параметров. Как мы знаем, при минимальном значении наклон будет равен 0.

Это дает вам указание увеличить или уменьшить параметры и на какую сумму.

Наклон умножается на скорость обучения (альфа), чтобы определить шаг, на который мы обновляем параметр. Так выглядит финальное обновление параметров.

Вам необходимо выбрать оптимальное значение скорости обучения. Если вы выберете очень высокую скорость обучения, функция стоимости будет обновляться с очень большими шагами и, вероятно, превысит минимальное значение и никогда не установится на минимуме. Если вы выберете очень маленькую скорость обучения, параметры будут обновляться на очень маленькое значение, и, в свою очередь, вам потребуется значительно больше итераций, чтобы достичь минимума.

Метрика производительности

Для каждой модели вам нужна метрика производительности, чтобы измерить, насколько хорошо модель способна распознавать шаблоны в вашем наборе данных. Для модели линейной регрессии вы можете измерить производительность, сравнив свою модель со средней линией, эта мера называется R-квадратом.

R-квадрат дается как -

RSS известен как остаточная сумма квадратов и представляет собой ошибку или разницу между фактическим значением и значением, предсказанным вашей моделью.

В то время как TSS также известен как общая сумма квадратов, и это разница между фактическим значением и линией, обозначающей среднее значение зависимого признака.

Таким образом, R-квадрат определяет, насколько хорошо работает ваша модель по сравнению с угадыванием только среднего значения для всех значений.

Обратите внимание, что когда ваша модель идеально соответствует данным, RSS равен 0, а R-квадрат равен 1.

R-квадрат может быть отрицательным, если ваша модель работает хуже, чем просто предсказание среднего значения.

R-квадрат всегда будет увеличиваться, даже если вы добавляете новые функции, которые на самом деле не способствуют прогнозированию целевой функции. Таким образом, R-квадрат не обеспечивает точного измерения производительности модели.

Вам нужен способ наказать модель, если вы добавляете функции, которые не вносят вклад, и скорректированный R-квадрат является одной из таких метрик.

Здесь R² — это выборочное значение R-квадрата.

p - количество предикторов

N - общий размер выборки

Обратите внимание, что при увеличении количества предикторов, если R-квадрат не увеличивается на определенную величину, скорректированный R-квадрат будет уменьшаться, что означает, что новая функция не вносит такой большой вклад, как нам хотелось бы.

Предположения

Это любимый вопрос интервьюеров, и не все кандидаты хорошо разбираются в предположениях линейной регрессии. Если вы их знаете, то у вас уже есть преимущество перед другими.

1. Линейность

Очевидно, как следует из названия, линейная регрессия предполагает наличие линейной связи между зависимым и независимыми признаками. Если линейной зависимости нет, то вы просто используете неправильную модель для своих данных, и прогнозы, которые вы получаете на основе этой модели, никогда не будут точными.

2. Многомерная нормальность

Остатки, т. е. члены ошибок, должны быть нормально распределены. Если остатки не распределены нормально, это означает, что по какой-то причине ваша модель не может полностью идентифицировать взаимосвязь между вашим зависимым и независимым признаками. Таким образом, вы не можете полагаться на какие-либо прогнозы, сделанные этой моделью.

3. Мультиколлинеарность

Рассмотрим линейное уравнение, состоящее из 2 признаков.

Здесь m1 обозначает изменение y при изменении x1 на единицу, а m2 обозначает изменение y при изменении x2 на единицу.

Если изменение x1 приводит к изменению x2, вышеуказанное требование не выполняется, и поэтому трудно найти линейную связь между двумя коррелирующими признаками. Таким образом, изменение одной зависимой переменной не должно приводить к изменению других.

4. Автокорреляция

Остатки в любой момент времени не должны быть связаны с ранее вычисленными остатками. Если на самом деле такая связь существует, то оценочная ошибка будет занижать истинную ошибку, и ваша модель не сможет обобщить связь между вашими зависимыми и независимыми признаками.

5. Гомоскедастичность

Члены ошибки должны иметь постоянную дисперсию. Это говорит о том, что термины ошибки не должны образовывать шаблон с вашей линией наилучшего соответствия. Если это так, то это указывает на то, что в данных есть некоторые отношения, которые модель не может идентифицировать.

Если какое-либо из приведенных выше предположений нарушается, это означает, что либо данные не подходят для линейной регрессии, либо некоторые функции не очень помогают прогнозировать целевую функцию.

Теперь, когда вы знаете эти концепции, вы можете без колебаний начинать любое интервью по науке о данных. Если вы новичок в науке о данных, эти точные концепции — ваши ворота в удивительный мир науки о данных. Я надеюсь, что это очистило ваши основные понятия.