Данные — это человеческое изобретение. Люди определяют явление, которое они хотят измерить, разрабатывают системы для сбора данных о нем, очищают и предварительно обрабатывают его перед анализом и, наконец, выбирают, как интерпретировать результаты. Даже имея один и тот же набор данных, два человека могут прийти к совершенно разным выводам. Это связано с тем, что данные сами по себе не являются «наземной истиной», которую эксперты по машинному обучению определяют как наблюдаемые, доказуемые и объективные данные, отражающие реальность. Если данные были получены из другой информации, основаны на субъективных суждениях, не были собраны тщательным и тщательным образом или имеют сомнительную достоверность, то они не соответствуют действительности.

То, как вы решите концептуализировать явление, определить, что измерять, и решить, как проводить измерения, — все это повлияет на данные, которые вы собираете.

Ваша способность решить проблему с помощью искусственного интеллекта во многом зависит от того, как вы сформулируете свою проблему, а также от того, сможете ли вы установить истину без двусмысленности.

Наземная правда используется в качестве эталона для оценки производительности алгоритмов. Если ваш золотой стандарт неверен, то ваши результаты будут не только неправильными, но и потенциально вредными для вашего бизнеса.

Если вы не принимали непосредственного участия в определении и мониторинге ваших первоначальных целей, инструментов и стратегии сбора данных, вы, вероятно, упускаете важные знания, которые могут привести к неправильной обработке, интерпретации и использованию этих данных.

Распространенные ошибки с данными

То, что люди называют «данными», может быть тщательно отобранными измерениями, выбранными исключительно для поддержки повестки дня, бессистемным сбором случайной информации, не соответствующей действительности, или информацией, которая выглядит разумной, но является результатом бессознательно предвзятых усилий по сбору. Вот ускоренный курс по статистическим ошибкам, с которым должен быть знаком каждый руководитель.

Неопределенные цели

Неспособность определить причину сбора данных означает, что вы упустите возможность сформулировать предположения и определить, что собирать. В результате вы, скорее всего, соберете неверные или неполные данные. Общей тенденцией в области больших данных является сбор предприятиями кучи информации без какого-либо понимания того, зачем она им нужна и как они хотят ее использовать.

Сбор огромных, но запутанных объемов данных только помешает вашей будущей аналитике, поскольку вам придется пробираться через гораздо больше мусора, чтобы найти то, что вы действительно хотите.

Ошибка определения

Допустим, вы хотите узнать, сколько ваши клиенты потратили на ваши услуги в прошлом квартале. Кажется, несложная задача, правда? К сожалению, даже такая простая цель потребует определения ряда предположений, прежде чем вы сможете получить нужную информацию.

Во-первых, как вы определяете «клиента»? В зависимости от ваших целей, возможно, вы не захотите валить всех в одну кучу. Вы можете захотеть сегментировать клиентов по их покупательскому поведению, чтобы соответствующим образом скорректировать свои маркетинговые усилия или характеристики продукта. Если это так, то вам нужно убедиться, что вы включаете полезную информацию о клиенте, такую ​​как демографическая информация или история расходов.

Есть также тактические соображения, например, как вы определяете кварталы. Будете ли вы использовать финансовые кварталы или календарные кварталы? Финансовые годы многих организаций не соответствуют календарным годам. Финансовые годы также различаются на международном уровне: финансовый год в Австралии начинается 1 июля, а финансовый год в Индии начинается 1 апреля. Вам также необходимо будет разработать стратегию учета возвратов или обменов. Что, если клиент купил ваш продукт в одном квартале, но вернул его в другом? Что, если они подали на вас жалобу на качество и получили возмещение? Вы заработали их в прошлом квартале или в этом?

Как видите, определения не так просты. Вам нужно будет обсудить свои ожидания и установить соответствующие параметры, чтобы собрать информацию, которая вам действительно нужна.

Ошибка захвата

После того, как вы определили тип данных, которые хотите собирать, вам нужно разработать механизм для их сбора. Ошибки здесь могут привести к получению неправильных или случайных искажений данных. Например, если вы хотите проверить, является ли продукт А более привлекательным, чем продукт Б, но вы всегда сначала показываете продукт А на своем веб-сайте, тогда пользователи могут не так часто видеть или покупать продукт Б, что приведет вас к неправильному выводу.

Погрешность измерения

Ошибки измерения возникают, когда программное или аппаратное обеспечение, которое вы используете для сбора данных, выходит из строя, либо не собирая полезные данные, либо создавая ложные данные. Например, информация о поведении пользователя в вашем мобильном приложении может быть потеряна, если у пользователя возникают проблемы с подключением, а журналы использования не синхронизируются с вашими серверами. Точно так же, если вы используете аппаратные датчики, такие как микрофон, ваши аудиозаписи могут улавливать фоновый шум или помехи от других электрических сигналов.

Ошибка обработки

Как вы можете видеть из нашей простой попытки рассчитать продажи клиентов ранее, многие ошибки могут возникнуть даже до того, как вы просмотрите свои данные. Многие предприятия владеют данными, которым уже несколько десятков лет, а первоначальная команда, способная объяснить их решения в отношении данных, давно ушла. Многие из их предположений и проблем, скорее всего, не задокументированы, и вам придется делать выводы, что может оказаться сложной задачей.

Вы и ваша команда можете делать предположения, которые отличаются от первоначальных, сделанных во время сбора данных, и получать совершенно разные результаты. Общие ошибки включают отсутствие определенного фильтра, который мог быть использован для данных, например удаление выбросов; использование разных стандартов бухгалтерского учета, как в случае с финансовой отчетностью; и просто делает методологические ошибки.

Ошибка покрытия

Ошибка охвата описывает, что происходит с данными опроса, когда возможности для участия всех целевых респондентов недостаточны. Например, если вы собираете данные о пожилых людях, но предлагаете только опрос на веб-сайте, вы, вероятно, упустите многих респондентов.

В случае с цифровыми продуктами ваши маркетинговые команды могут быть заинтересованы в прогнозировании того, как все пользователи мобильных смартфонов могут вести себя с потенциальным продуктом. Однако, если вы предлагаете только приложение для iOS, но не приложение для Android, пользовательские данные iOS дадут вам ограниченное представление о том, как могут вести себя пользователи Android.

Ошибка выборки

Ошибки выборки возникают, когда вы анализируете данные из небольшой выборки, которая не является репрезентативной для вашей целевой совокупности. Это неизбежно, когда данные существуют только для некоторых групп населения. Выводы, которые вы делаете из нерепрезентативной выборки, вероятно, не будут применимы ко всему. Если вы спрашиваете мнения о своих продуктах только у друзей, а затем предполагаете, что ваша пользовательская группа будет чувствовать то же самое, это классическая ошибка выборки.

Ошибка вывода

Ошибки вывода совершаются статистическими моделями или моделями машинного обучения, когда они делают неверные прогнозы на основе доступной истинной истины. Возможны два типа ошибок вывода: ложноотрицательные и ложноположительные. Ложные срабатывания возникают, когда вы неправильно предсказываете, что элемент относится к категории, хотя это не так, например, если вы говорите, что у пациента рак, когда он здоров. Ложноотрицательные результаты возникают, когда элемент находится в категории, но вы прогнозируете, что это не так, например, когда прогнозируется, что у больного раком не будет рака.

Предполагая, что у вас есть достоверные сведения об истинности, вычисление ошибок вывода поможет вам оценить производительность ваших моделей машинного обучения. Однако реальность такова, что многие наборы данных реального мира зашумлены и могут быть неправильно маркированы, а это означает, что у вас может не быть ясности в отношении точных ошибок вывода, которые делает ваша система ИИ.

Неизвестная ошибка

Реальность может быть неуловимой, и вы не всегда можете с легкостью установить наземную истину. Во многих случаях, например, в случае с цифровыми продуктами, вы можете собирать тонны данных о том, что пользователь делал на вашей платформе, но не о его мотивах для этих действий. Вы можете знать, что пользователь нажал на рекламу, но вы не знаете, насколько это ее раздражало.

В дополнение ко многим известным типам ошибок, во Вселенной есть неизвестные неизвестные, которые оставляют разрыв между вашим представлением реальности в форме данных и самой реальностью.

Первоначально опубликовано на www.metamaven.com 12 февраля 2018 г.

Нравится то, что вы читаете? Присоединяйтесь к сообществу TOPBOTS, чтобы получать лучшие новости о ботах и ​​эксклюзивный отраслевой контент.