"Часы работы"

Используйте эмпатию данных, чтобы стать лучшим специалистом по данным

Контекст данных имеет значение для успеха ваших проектов данных

Уинстон Черчилль однажды сказал: «Я верю только в статистику, которую я лечил сам». Хотя это может быть крайним заявлением, общая идея верна. Данные могут быть - намеренно или нет - представлены таким образом, чтобы поддержать аргументы, которые не отражают реальность или лежащие в основе данные.

Второй шаг модели CRISP-DM - понимание данных. Этот шаг влечет за собой сбор, описание и исследование данных, а также выявление проблем с качеством данных. Этот приблизительный план понимания данных полезен. Но в нем нет названия важного измерения: эмпатии данных.

Описание того, чем занимаются специалисты по данным, часто фокусируется на профессиональных навыках и технических областях. Это соответствует диаграмме Венна в науке о данных. Специалисты по обработке данных руководствуются знаниями в своей области. С помощью статистических моделей и моделей машинного обучения и инструментов программирования они извлекают знания из данных. Но часто упускаемые из виду мягкие навыки, такие как коммуникативные навыки, скептицизм и особенно сочувствие, играют решающую роль в достижении успешных проектов в области науки о данных и повышении квалификации специалистов по данным.

Определение эмпатии данных

Термин сочувствие относится к

«Действие понимания, осознания, восприимчивости и опосредованного переживания чувств, мыслей и переживаний другого человека в прошлом или настоящем без того, чтобы чувства, мысли и опыт были полностью переданы в объективно явной форме».

Логическая связь между эмпатией и наукой о данных - конечный пользователь или заинтересованное лицо. Понимание их потребностей и желаний через сочувствие поможет вам в анализе данных. Это позволит вам создавать более качественные и полезные продукты для науки о данных. Однако эмпатия данных направлена ​​на понимание данных. Он учитывает субъективность, привнесенную людьми в процесс сбора данных, и выявляет предвзятость.

Согласно Faghmous and Kumar (2014), эмпатия данных означает понимание истории набора данных. Как и почему были собраны данные? Какие предубеждения можно выявить в зависимости от цели и процесса сбора данных? На эти вопросы можно частично ответить с помощью метаданных - структурированной и описательной информации, относящейся к данным. Но, как указывают Brönnimann and Wintzer (2018), эмпатия данных идет дальше. Он описывает рефлексивный, интерпретирующий и качественный процесс:

  • Рефлексивный: мы должны думать о любых неосознанных представлениях о мире, которые могут повлиять на процесс сбора данных. Это относится к предвзятости в искусственном интеллекте. Типичным примером является набор данных классификатора изображений, содержащий преимущественно белые лица. Этот набор данных не отражает разнообразие населения. Любая модель, построенная с использованием этих данных, будет работать плохо.
  • Интерпретирующий. Нам необходимо учитывать контекст, в котором находятся данные. Кто собирал данные, почему, когда и как? Возьмем, к примеру, данные, относящиеся к симптомам болезни. Сообщаемые симптомы могут различаться в зависимости от как минимум трех различных сценариев. (1) Вы называете все свои симптомы, о которых можете вспомнить, без наводящих вопросов со стороны врача (потенциальная систематическая ошибка воспоминаний). (2) Врач спрашивает вас, есть ли у вас потеря обоняния или боль в горле (потенциальная предвзятость подтверждения). (3) Врач осматривает вас и сообщает о симптомах, не задавая вам никаких вопросов (потенциальная ошибка наблюдения). Понимание этих нюансов и выявление этих предубеждений в наборах данных жизненно важно для дальнейшего анализа и получения выводов.
  • Качественные. Мы должны учитывать социальные нормы и ценности, которые могут влиять на качество данных и процесс сбора. Социальные нормы, в частности, могут влиять на данные самооценки. Предубеждение социальной желательности описывает, что люди отвечают на вопросы в соответствии с общественными нормами и ожиданиями.

Согласно Tanweer et al. (2016) .

Важность эмпатии к данным

Эмпатия данных важна по нескольким причинам.

  • Во-первых, предвзятость в данных может остаться незамеченной, если не применяется эмпатия к данным. Это приведет к необъективным моделям и бесполезным результатам. Это может не иметь значения во время соревнований Kaggle, где ваша главная цель - добиться высокой точности. Но у реальных проектов есть последствия. Если вы будете использовать предвзятые данные и модели для принятия решения о найме, последствия будут ужасными.
  • Во-вторых, цель и контекст набора данных могут направлять ваш процесс анализа данных. Обнаруженная систематическая ошибка определит цель ваших действий по изучению и подготовке данных. Это повлияет на ваше решение относительно выбора функций и разработки. Было бы даже целесообразно выбрать одни модели машинного обучения перед другими, чтобы иметь больший контроль над предвзятостью.
  • В-третьих, понимание контекста данных может привести к новым процессам сбора данных и проектам в области науки о данных. После выявления проблем, связанных с процессом сбора данных, подумайте, как можно улучшить набор данных. Как вы можете объяснить врожденные предубеждения? Допустим, вы обнаружили данные о гендерной предвзятости при приеме на работу в вашей компании. Есть ли аналогичная предвзятость или контекст в отношении других данных, которые использует ваша компания? Как можно улучшить данные? Используйте эту возможность, чтобы обнаружить и описать эту предвзятость и способы противодействия ей в своем следующем проекте.

Что это означает для вашего успеха в области науки о данных

Не стоит недооценивать важность шага 2 модели CRISP-DM. Понимание данных, включая этапы сбора данных и понимание контекста вокруг них, является ключевым, если вы хотите, чтобы ваша окончательная модель имела значение. Технические навыки делают вас хорошим специалистом по данным, но социальный аспект данных сделает вас отличным специалистом. Поэтому, чтобы стать лучшим специалистом по данным, используйте эмпатию данных в своих проектах. Взгляните на контекст за пределами набора данных.

Заключение

Эмпатия данных - это процесс понимания контекста, ценностей и намерений, связанных с данными. Использование эмпатии к данным в процессе анализа данных позволяет выявить предубеждения. Он помогает направлять процесс анализа данных и указывает на новые вопросы, на которые вы можете ответить в своем следующем проекте. Хотя нам нравится верить в то, что данные объективно верны или неверны, верны или ложны, в действительности есть более тонкие нюансы. Человеческая субъективность проявляется на этапах сбора данных, исследования данных и интерпретации данных. Ваша задача как специалиста по обработке данных - признать это и учесть это в своем анализе. Только тогда ваша модель и результаты будут иметь значение. И только тогда вы станете лучшим специалистом по данным.

Хотите читать больше качественных историй на Medium? Рассмотрите возможность подписки на членство, которое поддерживает меня и других авторов Medium.



Если вы хотите применить эмпатию к данным прямо сейчас, но в настоящее время у вас нет идеи проекта, ознакомьтесь с моей статьей о разработке новых и уникальных идей для проектов в области науки о данных.