Человеческое поведение обладает исключительно большими запасами знаний и технологий. Мы пытаемся понять и создать как можно больше из человеческого мозга. Я считаю, что одним из прорывов в управлении человеческим мозгом стала наука о данных. Наука о данных — это история, эволюция человеческого мозга, машин и интуиции.

Чтобы начать эту историю, исследователи данных сопоставили поведение угадывания с основами математики. Самая базовая алгебра начинается с линейной алгебры, поэтому самым основным двигателем машинного обучения стала линейная регрессия.

В этой статье мы увидим основную интуицию и развитие линейной регрессии, а также то, как сегодня мы используем линейную регрессию. Когда я читаю, я нахожу это очень интересным, и я уверен, что вы тоже.

Обладают ли люди линейной интуитивной силой?

Все начинается с наблюдения, что если 1 кг яблок стоит рупий. 100, что 2 кг яблок будут стоить рупий. 200. А если я хороший торговец? Я купил 1 кг за 100 рупий, 2 кг за 200, а 5 кг за 450 рупий, тогда сколько будет стоить 10 кг? Фактическая стоимость может быть любой, но наша интуиция подсказывает, что она может быть около рупий. 900 или около того.

Ясно наблюдение, что когда у нас есть точная линейная зависимость, мы предсказываем точное значение, а когда у нас есть набор точек, которые являются своего рода нелинейными, мы пытаемся придумать линейное уравнение, которое лучше всего соответствует заданным точкам.

«Наилучшее соответствие», сейчас у этого термина может быть много значений и интерпретаций, и кто-то ничего не поймет из этого термина.

«Наилучшее соответствие» просто означает хорошую интуицию. Если мы возьмем пример, рассмотрим набор точек, и нам нужна линия, которая проходит через большинство точек или проходит близко к максимальному количеству точек.

Я думаю, мы все можем сказать, какая линия «лучше всего соответствует» данному набору точек. Это третья, наша первая интуиция, которая соответствует критерию — близко к максимальному количеству баллов.

Это то, что делает модель линейной регрессии. Это основная интуиция, стоящая за линейной регрессией. А затем вступает в действие машинное обучение. С помощью человеческого поведения мы можем создать линию, а машины — улучшить эту линию.

Интуиция к интеллекту

Но нам нужно что-то улучшить, и это называется ошибка. Поэтому мы строим метрику для расчета ошибки, а затем пытаемся минимизировать ее. Проще говоря, ошибка — это сдвиг или отклонение между фактическими и прогнозируемыми значениями. Меньше ошибки, значит отклонения между реальностью и предсказуемостью.

Мы вычисляем ошибку, просто оценивая вертикальную разницу между фактической и прогнозируемой точками.

Теперь мы можем сложить все ошибки, мы можем добавить абсолютную ошибку, но что мы делаем, так это находим сумму квадратов ошибок. Существует множество теорий выбора этой модели ошибок и отказа от других.

Самой базовой теорией является теория противоречия. Каждый раз, когда мы находим лазейку или лучшую технику, мы модифицируем существующую технику.

Взяв сумму ошибок, если у нас есть две ошибки в наборе данных одинаковой величины, но с противоположным знаком, чистая ошибка будет равна нулю. В данном случае мы неправильно оценили точность нашей модели. Итак, мы предлагаем взять абсолютное значение ошибки и добавить их. Добавление абсолютного значения может быть хорошим вариантом, но у нас есть вариант получше.

Взятие некоторой квадратичной ошибки имеет два важных преимущества по сравнению с другим анализом ошибок: во-первых, нет необходимости брать абсолютное значение, потому что оно уже возведено в квадрат, во-вторых, оно наказывает модель, когда она превосходит ее, т.е. в случае выбросов. Возведение в квадрат большой ошибки приведет к большой общей ошибке.

Теперь у нас есть мера ошибки, где yi — фактическое значение, а a0 — a1xi — прогнозируемое значение при входе xiа а0 и а1 — линейные коэффициенты.

Пришло время улучшить модель. Мы хотим минимизировать ошибку, которая является функцией коэффициентов линии. Это просто, Дифференциация.

Как только мы получили дифференциалы, мы приравниваем их к нулю, чтобы получить такие значения коэффициентов, чтобы ошибка была минимальной.

Когда мы приравниваем уравнение к нулю, происходит волшебство. Все дифференциальные уравнения теперь преобразуются в линейное уравнение с переменными, которые являются коэффициентами линии.

Следовательно, решая эти уравнения, мы можем получить такие значения коэффициентов, что значение ошибки будет минимальным, или, другими словами, мы получили наилучшую прямую

Маленькая признательность

Таким образом мы получаем наиболее подходящую линию. Математика, стоящая за линейной регрессией, проста, но заслуживает упоминания, поэтому я называю ее магией математики. Это хорошая отправная точка для более продвинутых подходов, и на самом деле многие причудливые методы статистического обучения можно рассматривать как расширение линейной регрессии. Таким образом, понимание этой простой модели послужит хорошей основой для перехода к более сложным подходам.