Мощные концепции навигации в области науки о данных

Введение

В постоянно развивающейся области науки о данных необработанные технические навыки для обработки и анализа данных, несомненно, имеют решающее значение для любого проекта данных. Помимо набора технических и межличностных навыков, опытный специалист по данным может за несколько лет разработать набор концептуальных инструментов, известных как ментальные модели, которые помогут им ориентироваться в ландшафте данных.

Ментальные модели полезны не только для науки о данных. Джеймс Клир (автор книги Атомные привычки) проделал большую работу по изучению того, как ментальные модели могут помочь нам лучше мыслить, а также их полезности в самых разных областях (бизнес, наука, инженерия). и др.) в этой статье.

Точно так же, как плотник использует разные инструменты для разных задач, специалист по данным использует разные ментальные модели в зависимости от стоящей перед ним проблемы. Эти модели обеспечивают структурированный способ решения проблем и принятия решений. Они позволяют нам упростить сложные ситуации, выделить важную информацию и сделать обоснованные предположения о будущем.

В этом блоге представлены двенадцать ментальных моделей, которые могут помочь в 10 раз увеличить вашу продуктивность в науке о данных. В частности, мы делаем это, иллюстрируя, как эти модели могут применяться в контексте науки о данных, с последующим кратким объяснением каждой из них. Независимо от того, являетесь ли вы опытным специалистом по данным или новичком в этой области, понимание этих моделей может быть полезным в вашей практике в области науки о данных.

1. Мусор на входе, мусор на выходе

Первым шагом к любому анализу данных является обеспечение высокого качества используемых вами данных, поскольку любые выводы, которые вы делаете на их основе, будут основываться на этих данных. Кроме того, это может означать, что даже самый сложный анализ не может компенсировать некачественные данные. В двух словах, эта концепция подчеркивает, что качество продукции определяется качеством ввода. Следовательно, в контексте работы с данными обработка и предварительная обработка набора данных помогут повысить качество данных.

2. Закон больших чисел

Следующим шагом после обеспечения качества ваших данных часто является их сбор. Закон больших чисел объясняет, почему наличие большего количества данных обычно приводит к более точным моделям. Этот принцип предполагает, что по мере увеличения размера выборки ее среднее значение также становится ближе к среднему значению всей совокупности. Это имеет фундаментальное значение в науке о данных, поскольку лежит в основе логики сбора большего количества данных для улучшения обобщения и точности модели.

3. Предвзятость подтверждения

Когда у вас есть данные, вы должны быть осторожны с тем, как вы их интерпретируете. Предвзятость подтверждения — это напоминание о том, что нужно избегать простого поиска данных, подтверждающих ваши гипотезы, и рассматривать все доказательства. В частности, предвзятость подтверждения относится к тенденции искать, интерпретировать, отдавать предпочтение и вспоминать информацию таким образом, чтобы подтвердить ранее существовавшие убеждения или гипотезы. В науке о данных крайне важно знать об этой предвзятости и искать как опровергающие, так и подтверждающие доказательства.

4. П-взлом

Это еще одна важная концепция, о которой следует помнить на этапе анализа данных. Это относится к неправильному использованию анализа данных для выборочного поиска закономерностей в данных, которые могут быть представлены как статистически значимые, что приводит к неверным выводам. Наглядно говоря, идентификация редких статистически значимых результатов (преднамеренно или случайно) может быть представлена ​​выборочно. Таким образом, важно знать об этом, чтобы обеспечить надежный и честный анализ данных.

5. Парадокс Симпсона

Этот парадокс является напоминанием о том, что когда вы просматриваете данные, важно учитывать, как различные группы могут повлиять на ваши результаты. Он служит предупреждением об опасностях пропуска контекста и игнорирования потенциальных смешанных переменных. Это статистическое явление возникает, когда тенденция появляется в разных группах данных, но исчезает или меняется на противоположную при объединении этих групп. Этот парадокс может быть разрешен при правильном рассмотрении причинно-следственных связей.

6. Правило Парето 80/20

После того, как данные изучены и проблема сформулирована, эта модель может помочь расставить приоритеты, на каких функциях следует сосредоточиться в вашей модели, поскольку она предполагает, что небольшое количество причин часто приводит к большей части результатов.

Этот принцип предполагает, что для многих результатов примерно 80% последствий возникают из-за 20% причин. В науке о данных это может означать, что большая часть предсказательной силы модели исходит из небольшого подмножества функций.

7. Бритва Оккама

Этот принцип предполагает, что самое простое объяснение обычно является лучшим. Когда вы начинаете строить модели, Бритва Оккама предлагает вам отдавать предпочтение более простым моделям, когда они работают, а не более сложным. Таким образом, это напоминание о том, чтобы не усложнять свои модели без необходимости.

8. Компромисс смещения и дисперсии

Эта ментальная модель описывает баланс, который должен быть достигнут между предвзятостью и дисперсией, которые являются двумя источниками ошибок в модели. Смещение — это ошибка, вызванная упрощением сложной проблемы, чтобы упростить понимание модели машинного обучения, что, как следствие, приводит к недостаточной подгонке. Дисперсия — это ошибка, возникающая из-за чрезмерного акцента модели на специфике обучающих данных, что, как следствие, приводит к переоснащению. Таким образом, правильный баланс сложности модели для минимизации общей ошибки (сочетание систематической ошибки и дисперсии) может быть достигнут за счет компромисса. В частности, уменьшение систематической ошибки приводит к увеличению дисперсии и наоборот.

9. Переоснащение против недообучения

Эта концепция тесно связана с компромиссом смещения и дисперсии и помогает в дальнейшем настраивать сложность вашей модели и ее способность обобщать новые данные.

Переобучение происходит, когда модель слишком сложна и слишком хорошо изучает обучающие данные, что снижает ее эффективность на новых, невидимых данных. Недостаточное приспособление происходит, когда модель слишком проста для отражения базовой структуры данных, что приводит к снижению производительности как для обучения, так и для невидимых данных.

Таким образом, хорошая модель машинного обучения может быть достигнута путем нахождения баланса между переоснащением и недообучением. Например, этого можно достичь с помощью таких методов, как перекрестная проверка, регуляризация и сокращение.

10. Длинный хвост

Длинный хвост можно увидеть в таких распределениях, как распределение Парето или степенной закон, где можно наблюдать высокую частоту событий с низким значением и низкую частоту событий с высоким значением. Понимание этих распределений может иметь решающее значение при работе с реальными данными, поскольку многие природные явления следуют таким распределениям.

Например, в социальных сетях небольшое количество постов получает наибольшее количество лайков, репостов или комментариев, но есть длинный шлейф постов, которые получают меньше вовлеченности. В совокупности этот длинный хвост может представлять значительную часть общей активности в социальных сетях. Это привлекает внимание к значимости и потенциалу менее популярных или редких событий, которые в противном случае можно было бы упустить из виду, если сосредоточиться только на «голове» распределения.

11. Байесовское мышление

Байесовское мышление относится к динамическому и повторяющемуся процессу обновления наших убеждений на основе новых данных. Изначально у нас есть убеждение или «априорное», которое обновляется новыми данными, формируя пересмотренное убеждение или «апостериорное». Этот процесс продолжается по мере того, как собирается больше доказательств, со временем совершенствуя наши убеждения. В науке о данных байесовское мышление позволяет учиться на данных и делать прогнозы, часто обеспечивая меру неопределенности этих прогнозов. Эта адаптивная система убеждений, открытая для новой информации, может применяться не только в науке о данных, но и в нашем повседневном принятии решений.

12. Теорема об отсутствии бесплатного обеда

Теорема «Нет бесплатных обедов» утверждает, что не существует единого алгоритма машинного обучения, который превосходно решает все проблемы. В результате важно понимать уникальные характеристики каждой проблемы с данными, поскольку не существует универсально превосходного алгоритма. Следовательно, специалисты по данным экспериментируют с различными моделями и алгоритмами, чтобы найти наиболее эффективное решение, учитывая такие факторы, как сложность данных, доступные вычислительные ресурсы и конкретная задача. Теорему можно рассматривать как набор инструментов, полный инструментов, каждый из которых представляет отдельный алгоритм, а опыт заключается в выборе правильного инструмента (алгоритма) для правильной задачи (проблемы).

Заключение

Эти модели обеспечивают надежную основу для каждого из этапов типичного проекта по науке о данных, от сбора и предварительной обработки данных до построения, уточнения и обновления модели. Они помогают ориентироваться в сложном ландшафте принятия решений на основе данных, позволяя нам избегать распространенных ошибок, эффективно расставлять приоритеты и делать осознанный выбор.

Однако важно помнить, что ни одна ментальная модель не содержит всех ответов. Каждая модель — это инструмент, и, как и все инструменты, они наиболее эффективны при правильном использовании. В частности, динамичный и итеративный характер науки о данных означает, что эти модели не просто применяются линейным образом. По мере поступления новых данных или по мере развития нашего понимания проблемы мы можем вернуться к более ранним шагам, чтобы применить другие модели и соответствующим образом скорректировать наши стратегии.

В конце концов, цель использования этих ментальных моделей в науке о данных состоит в том, чтобы извлечь ценную информацию из данных, создать значимые модели и принять более эффективные решения. Таким образом, мы можем раскрыть весь потенциал науки о данных и использовать его для внедрения инноваций, решения сложных проблем и оказания положительного влияния в различных областях (например, в биоинформатике, разработке лекарств, здравоохранении, финансах, и т. д.).



Прочтите следующие…





Следите за этим…