Лучший способ справиться с отсутствующими данными

Какой метод вменения дает наилучший результат, когда речь идет об обработке отсутствующих данных в нескольких типах?

Отсутствующие данные — очень распространенная проблема при работе с данными машинного обучения в реальном мире. Датчики могут сломаться. Неверные данные могут быть записаны. Информация об опросе может быть заполнена не полностью. Многое может пойти не так. Так что же нам делать? Мы можем отбросить неполные данные. Но что, если мы получим небольшой набор данных? Что, если мы сбросим очень важные образцы? Когда я работаю с данными, я почти никогда не теряю точки данных. В худшем случае это добавит шума вашему обучению, что, вероятно, в долгосрочной перспективе лучше для построения обобщающих моделей.

Вместо этого я предпочитаю вменение недостающих данных. Это просто означает заполнение недостающих данных по некоторым правилам. Ваша конкретная политика вменения определяется множеством факторов. Авторы статьи Вычислительное исследование методов импутации отсутствующих экологических данных рассматривают 3 различных политики импутации данных, чтобы найти наилучшую. В этой статье я расскажу об интересных выводах из статьи. Я также поделюсь положительными сторонами эксперимента, которые вы должны использовать в своих проектах по машинному обучению. Дайте мне знать, какой из пунктов был вам наиболее интересен в комментариях ниже (или в личных сообщениях). Я хотел бы узнать больше о том, что это торчит для вас, ребята.

Было проведено вычислительное исследование для сравнения метода missForest (MF) с двумя другими методами вменения, а именно многомерным вменением с помощью цепных уравнений (MICE) и методом K-ближайших соседей (KNN). Тесты проводились на 10 предварительно обработанных наборах данных различных типов. Результаты показали, что MF в целом превосходит MICE и KNN с точки зрения ошибок импутации, с более выраженным разрывом в производительности для баз данных смешанного типа, где MF снижает ошибку импутации до 150 % по сравнению с другими методами.

-Подведение итогов работы и ее результатов.

Положительные стороны

Ниже приведены некоторые из вещей, которые сделала команда, и которые вы должны сделать в своих проектах / технических документах.

Четкое определение проблемы + ограничения

Одна из лучших вещей, которую вы можете сделать для своих проектов машинного обучения, — это набросать каждый сложный аспект. Упомяните, в чем проблема, почему она проблематична и какое решение вы считаете приемлемым. Это придает вашему проекту большую ясность. Например, в документе очень хорошо объясняются проблемы работы с данными об окружающей среде. По словам авторов:

«Организация данных об окружающей среде в хорошо структурированных базах данных — сложная задача (Blair et al., 2019). С одной стороны, природная среда подвержена влиянию деятельности человека, и это требует междисциплинарных исследований и анализа. С другой стороны, природные явления охватывают разные временные и пространственные масштабы и, как правило, взаимосвязаны, что затрудняет интеграцию данных. Обычно это приводит к разнородным источникам данных и, как правило, к базам данных смешанного характера, содержащим как качественные, так и количественные записи».

Выявление камней преткновения может помочь в разработке решений. В качестве альтернативы вы можете сделать несколько упрощающих предположений и просто отметить сложности (мы много раз делали это для моей работы по моделированию глобальных цепочек поставок и использованию моделей для прогнозирования риска поставщика на основе прошлого поведения и финансовых/экономических сигналов). Какой бы маршрут вы ни выбрали, наличие четко определенных задач поможет вам найти решение.

Четкое определение ограничений/проблем также помогает другим людям понять ход ваших мыслей при работе в команде. Это делает сотрудничество более эффективным. Это делает его обязательным при интеграции в ваши инструменты асинхронной связи, такие как ваша документация. Если вы хотите создать лучшую документацию, это руководство поможет вам.

Учет отклонений

Наборы данных могут иметь много различий. Как с точки зрения процента отсутствующих, так и с точки зрения характера/распределения отслеживаемых функций. Авторы этой статьи признали это и учли и то, и другое. Описывая фазу 1 статьи, они сказали следующее об установке эксперимента: «мы выбрали 10 наборов данных из различных источников в литературе и искусственно получили различные степени отсутствующих данных, случайно удалив некоторые из записей. Набор выбранных баз данных был выбран с учетом типичных характеристик, обнаруживаемых при анализе данных об окружающей среде, таких как различные размеры, а также разнородные типы данных и структурные особенности.».

Обратите внимание, что они учитывают как различия в степени отсутствия (отбрасывание разных объемов данных), так и в характере (использование разных баз данных). Это очень хорошая практика для ваших собственных проектов. Обратите особое внимание на их практику исключения данных из полных наборов данных. Это позволило им точно сравнивать результаты.

Вы можете подумать, что это тривиально. Но вы будете шокированы тем, насколько случайными могут быть оценки машинного обучения даже на самых высоких уровнях. Взгляните на этот отрывок из прекрасной статьи Учет вариаций в тестах машинного обучения». Это говорит нам о том, что многие из улучшений модели улучшения производительности в конечном итоге являются случайными, а не истинными улучшениями. Это приводит к проблемам, когда люди пытаются интегрировать модель/методику из публикаций в свои собственные проекты и не видят результатов.

Глядя на производительность

Теперь, чтобы ответить на вопрос, ради которого вы нажали на эту статью. Что вы должны сделать? В целом, документ показал, что missForest является лучшей политикой вменения данных (с точки зрения ошибки). Как уже упоминалось, другие методы, которые они использовали, — это многомерное вменение с помощью цепных уравнений (MICE) (Бюрен и Оудшорн, 1999 г.) и метод K-ближайших соседей (KNN) (автор Троянская и др., 2001 г.). В оставшейся части этого раздела будут рассмотрены результаты различных экспериментов и то, как эти модели выстояли друг против друга в смертельной битве в стиле Mortal Kombat.

Качественные наборы данных

Для качественных наборов данных мы видим, что увеличение пропусков увеличивает ошибку (PFC). Это не шокирует. Крестики-нолики являются исключением из этого правила и должны быть изучены из-за их интересного поведения. Если у кого-то из вас есть представление об этом наборе данных, я был бы рад его услышать.

Авторам было что сказать:

«Даже если KNN систематически является наименее эффективным IM, ни MICE, ни MF не выделяются на фоне других IM. В среднем по 1000 симуляций MF является наиболее эффективным IM на «Lanza», тогда как MICE превосходит MF на «Hayes» и «Крестики-нолики». Однако из-за значительного роста ошибок MICE в случае «Крестики-нолики» он теряет свое преимущество по мере увеличения процента недостающих данных».

Количественные наборы данных

Выше приведены расчеты ошибок с использованием NRMSE в качестве нашей метрики для количественных данных. MF, в целом, превосходит другие политики почти во всех случаях. У авторов есть интересные комментарии по поводу колинеарности и тренда. Я бы посоветовал прочитать раздел, чтобы получить их. Я не буду упоминать их здесь, чтобы сделать статью краткой.

Смешанные данные

Для смешанных данных используется комбинация PFC и NRMSE при различных процентах пропуска. Мы видим, что MF выделяется здесь как явный победитель. Цитируя документы: «Сравнение соответствующих характеристик трех IM на графиках на рис. 4 показывает, что MF превосходит MICE и KNN в каждом случае».

Проще говоря, вы почти никогда не ошибетесь, если используете missForest для вменения отсутствующих данных об окружающей среде.

Примечание о времени обработки

Команда также изучила время обработки своего кода. Хотя это, как правило, не вызывает беспокойства (вменение необходимо выполнить только один раз), это все же важный аспект. Если вы крайне ограничены в средствах, вот что они обнаружили:

TL;DR- МЫШИ работают медленно.

Закрытие

Как сторонник превосходства леса, я очень доволен результатами. Если говорить более серьезно, эта статья может многому научить. Я боролся с тем, что написать, потому что я мог бы написать здесь 3 разные статьи. В итоге именно эта тема показалась наиболее ценной. Тем не менее, убедитесь, что вы прочитали статью (особенно тематическое исследование). Авторы проделали очень крутую работу. Если вы хотите продолжение этого, дайте мне знать.

Интересным дополнением к статье могла бы стать оценка сложности используемых политик. Ниже представлено видео, объясняющее байесовский информационный критерий, который мог бы стать здесь полезной базой в качестве альтернативы времени.

Если вам нравится то, что вы читаете, я сейчас на рынке труда. Мое резюме можно найти здесь. Краткий обзор моего набора навыков-

Инженер по машинному обучению. Я работал над различными задачами, такими как генеративный ИИ + обработка текста, моделирование глобальных цепочек поставок, оценка государственной политики (затрагивающей более 200 миллионов человек) и даже разработка алгоритма, который превзойдет Apple в обнаружении болезни Паркинсона.
AI Writer — более 30 тысяч подписчиков по электронной почте, более 2 миллионов показов в LinkedIn, более 600 тысяч читателей сообщений в блогах за 2022 год.

Если вы хотите поговорить подробнее, вы можете связаться со мной через мой LinkedIn здесь.

Это все для этого произведения. Я ценю ваше время. Как всегда, если вы хотите связаться со мной или ознакомиться с другими моими работами, ссылки будут в конце этого письма/сообщения. «Если вам нравится то, что я пишу, я был бы очень признателен за анонимный отзыв. Вы можете бросить его здесь. И если вы нашли ценность в этой статье, я был бы признателен, если бы вы поделились ею с большим количеством людей. Рекомендации из уст в уста, такие как ваши, помогают мне расти.

Свяжитесь со мной

Воспользуйтесь ссылками ниже, чтобы ознакомиться с другим моим контентом, узнать больше о репетиторстве, связаться со мной по поводу проектов или просто поздороваться.

Небольшие фрагменты о технологиях, искусственном интеллекте и машинном обучении здесь

Ознакомьтесь с другими моими статьями на Medium. : https://rb.gy/zn1aiu

Мой Ютуб: https://rb.gy/88iwdd

Свяжитесь со мной в LinkedIn. Подключаемся: https://rb.gy/m5ok2y

Мой Инстаграм: https://rb.gy/gmvuy9

Мой Твиттер: https://twitter.com/Machine01776819