За вами следили с тех пор, как вы прошли мимо входа в торговый центр двадцать минут назад. Вверх по лестнице, за угол, в магазины; крошечными глазками, разбросанными по ничего не подозревающему зданию. Каждое ваше движение порождает новый хаос между этими мини-наблюдателями — вы идете с целью? Не могли бы вы войти в следующую кабинку? Самое главное, это мешает вашему идеальному плану ограбления кондитерской на уровне 3.

Вы сделали еще один поворот, камеры последовали за вами, болтая друг с другом на призрачном языке, которого вы не видите и не слышите. Может ли эта машинная система предсказать ваши намерения до того, как вы сделаете ход?

Вырезка:

Во-первых, камеры в вашем местном торговом центре на данный момент не выполняют эту функцию… пока. Но это взгляд в будущее, где машинное обучение и системы наблюдения работают рука об руку, чтобы не только обеспечить более безопасную среду для граждан, но и защитить активы от мошеннических действий и краж.

Скорость, с которой мы продвигаемся в машинном обучении, сравнима с поездкой на сверхскоростном пассажирском экспрессе, в то время как другие поля прогуливаются на своих велосипедах. Однако с такой скоростью новым участникам и энтузиастам было значительно труднее идти в ногу с последними инновациями. Машинное обучение само по себе является мощной формой искусственного интеллекта, использующей естественные способности алгоритма поиска закономерностей для многократного анализа данных. Система делает это до тех пор, пока не будет разработано универсальное правило, позволяющее делать прогнозы на основе новых пользовательских данных. Этот новый подход к большим данным фокусируется на самостоятельной доработке самого алгоритма со значительно более высокой скоростью по сравнению с искусственными корректировками, которые требуют дополнительных трудозатрат и денег.

Компании обратились к этому «ящику Пандоры», чтобы точно фиксировать тенденцию своих данных и создавать прототипы в соответствии с обнаруженными шаблонами — опрос Deloitte 2020 года показал, что 67% компаний используют машинное обучение, а 97% используют или планируют использовать это в следующем году.

В то время как все переживают поток информации о машинном обучении, людям, не имеющим опыта работы с данными, становится все труднее входить в эту область. С точки зрения активного ученика в сообществе машинного обучения я полностью согласен с профессором компьютерных наук Массачусетского технологического института Александром Мадри, директором Центра развертываемого машинного обучения Массачусетского технологического института, в отношении подхода к преподаванию и изучению машинного обучения.

«Машинное обучение меняет или изменит каждую отрасль, и лидеры должны понимать основные принципы, потенциал и ограничения. Хотя не всем нужно знать технические детали, они должны понимать, что делает технология, что она может и чего не может», — добавил Мадри. «Я не думаю, что кто-то может позволить себе не знать о том, что происходит».

Следовательно, в первой части этой статьи мы сосредоточимся на выражении общей идеи машинного обучения и исследуем его стимулы, которые побуждают больше людей обращаться к ИИ. Точнее,что нас привлекает в сфере общественной безопасности и видеонаблюдения?

Общая идея машинного обучения.

Машинное обучение бывает нескольких видов:

  • Описательный: система использует полученные данные для восстановления того, что произошло. Применение этого может быть в области здравоохранения, где ИИ и глубокое обучение используются для выявления наличия роста на МРТ или КТ.
  • Прогноз. Система делает прогноз на основе данных, которые уже хранятся в ее библиотеке. Это широко используется в области финансов для прогнозирования и анализа акций. Ключевым моментом, который следует отметить здесь, является то, что прогнозирующая система машинного обучения не делает определенных утверждений, а это означает, что нет 100% гарантий, что прогноз верен. Это обычно удерживает компании от внедрения этих прогностических систем в реальных сценариях, где могут быть затронуты человеческие жизни.
  • Предписывающий: система предложит следующие действия в зависимости от полученных данных. Это тип системы, которую мы в настоящее время внедряем, когда дело доходит до полицейского наблюдения, чтобы предсказать намерения человека на основе его действий в данный момент времени.

Однако мы не смогли бы максимизировать эффективность машинного обучения, не связав его с тремя разными подсистемами:

  • Обработка естественного языка
  • Нейронные сети
  • Глубокое обучение

В случае систем наблюдения все три подсистемы работают вместе, чтобы помочь отрасли, однако мне особенно интересны две из этих систем — нейронные сети и глубокое обучение.

Проще говоря, нейронные сети и глубокое обучение усиливают эффективность друг друга при работе с данными. Нейронные сети — это связанные ячейки или узлы, которые обрабатывают входные данные и производят выходные данные, которые отправляются нескольким другим нейронам. В этом процессе помеченные данные передаются через узлы, при этом каждая ячейка применяет к данным разные функции. Например, в обученной нейронной сети разные узлы оценивают информацию и получают результат, соответствующий истинному выводу данных. Затем новый набор данных может быть представлен обученной модели для оценки, в которой точность достижения правильного результата повышается за счет нескольких повторных итераций. (Контролируемое машинное обучение)

Причина, по которой я говорю, что эти две подсистемы тесно взаимодействуют друг с другом, заключается в том, что, по сути, сети глубокого обучения представляют собой многоуровневые нейронные сети. Дополнительные уровни обеспечивают более универсальную систему, которая может принимать большой объем данных и определять, как интерпретировать каждый набор данных. Например, один слой сети глубокого обучения может распознавать положение ног человека, а другой слой может определять, идет ли этот человек, идет или бежит. Чем больше слоев мы добавляем в сеть, тем больше способов мы можем интерпретировать один и тот же набор данных и, следовательно, больше возможностей для усложнения и достижения различных желаемых результатов.

Использование такой системы снижает затраты на выполнение функций, которые обременяют человека-исполнителя как умственно, так и физически, а также финансово. Вот почему опрос 2018 года, проведенный Инициативой Массачусетского технологического института по цифровой экономике, показал, что 67% опрошенных предприятий используют машинное обучение в своих компаниях.

Стимулы очевидны: машинное обучение лучше всего подходит для обработки больших объемов данных и автоматизированного принятия решений, когда в некоторых случаях люди не могут этого сделать. Тем не менее, есть несколько недостатков использования этих систем. Прежде всего, это тот факт, что эти машины обучаются людьми, поэтому в алгоритмах неизбежно учитываются человеческие предубеждения. Эти предубеждения могут привести к предложениям экстремального содержания, что приведет к поляризации мнений населения или ложному обнаружению дискриминационных выражений. В обоих случаях исходы выглядят довольно неприятными. Однако в настоящее время мы создаем правила в нейронных сетях, которые потенциально могут нацеливаться и устранять эти предубеждения, и один из способов сделать это — собирать наборы данных от людей разного происхождения, точно так же, как устранять предубеждения в статистической выборке!

С учетом сказанного справедливо сказать, что машинное обучение — отличный инструмент для индустрии видеонаблюдения, особенно с учетом большого объема данных с огромной изменчивостью, собранных из их библиотек видеоматериалов. В настоящее время машинное обучение может быть применено к анализу изображений и обнаружению объектов, что мне показалось интересным.

Цель фокуса.

Менее 6 месяцев назад мой двоюродный дедушка скончался из-за подозрения на инсульт. В то время он путешествовал с моей двоюродной бабушкой и чувствовал себя немного неловко. Оба они подумали, что это грипп, и решили вернуться в свой родной город, чтобы посетить тамошнюю больницу. Во время транзитного периода в аэропорту моя двоюродная бабушка ходила в ванную, оставив моего двоюродного дедушку на улице без присмотра. К тому времени, когда она вышла, мой двоюродный дедушка рухнул на землю, и никакие эффективные методы реанимации не могли вернуть его мозговую деятельность.

Это заставило меня задуматься о двух вещах — во-первых, были ли какие-либо признаки инсульта до того, как он случился? И, во-вторых, был ли способ обнаружить это и, следовательно, предотвратить до того, как ущерб станет необратимым? Мы узнаем о том, как обнаружить инсульт, глядя на БЫСТРЫЕ симптомы (опущение лица, слабость рук, трудности с речью и время), но я совершенно уверен, что даже если бы моя двоюродная бабушка овладела этими навыками оказания первой помощи, она все равно не смогла бы спасти моего двоюродного дедушку. Наступает время, когда вы подготовились абсолютно ко всем возможным вещам, которые могут пойти не так, практиковали тонны симуляций того, что именно вы могли бы сделать, когда наступит кризис, но вы не можете отрицать тот факт, что все еще может пойти очень плохо в тот момент, когда вы не смотрится. Нет никакой гарантии, что моя двоюродная бабушка сможет оставаться рядом с моим двоюродным дедушкой 24/7, чтобы избежать любой возможности инсульта, даже если это так, усталость и несчастные случаи случаются.

Но интересно, что могло присматривать за моим двоюродным дедушкой в ​​тот период? Камеры наблюдения в аэропорту. Мы все знали, насколько широко эти камеры охватывают такие места, как аэропорт, который требует дополнительной безопасности, но большую часть времени эта система «мини-глаз» игнорируется пассажирами в течение всего дня. Их присутствие кажется нам незамеченным до тех пор, пока не произойдет внезапное нарушение — например, преступление или несчастный случай. В такое время эти камеры становятся нашим самым надежным источником правды и повторным рассказом о том, что произошло.

Но это все, что они могут сделать?

Обзор машинного обучения в системах видеонаблюдения

Мы не используем эти «мини-глаза» по максимуму в этих населенных пунктах. Традиционно мониторинг камер видеонаблюдения в режиме реального времени выполнялся менеджерами по безопасности и операционными менеджерами для обнаружения изменений в поведении или ситуациях в районах, находящихся под наблюдением. Тем не менее, время и ресурсы, необходимые для всестороннего просмотра этих кадров, делают работу практически невозможной для действительного сбора всей важной информации, которую может предоставить один кадр. Предубеждения, такие как человеческие ошибки и отвлечение внимания, делают интерпретацию одной или нескольких камер невероятно неэффективной и неэффективной.

Кроме того, количество используемых систем наблюдения выросло на 80% с 47 миллионов до 85 миллионов только в США за 6 лет. Для сравнения, на каждые четыре человека установлена ​​камера. Потратьте некоторое время на размышления — сколько камер было бы у вас дома прямо сейчас? Этот резкий рост побуждает индустрию видеонаблюдения внедрять программное обеспечение для видеоаналитики, основанное на глубоком обучении, и оно работает, предоставляя компьютерной сети доступ к помеченным данным, что позволяет ей независимо идентифицировать объекты и шаблоны, что делает отснятый материал «доступным для поиска, действенным и поддающимся количественному измерению».

Другое программное обеспечение, использующее VCA (аналитику видеоконтента), может быть интегрировано в существующие системы наблюдения для индексации определенных объектов или людей. После сбора метаданных эти кадры теперь можно использовать для запуска предупреждений в реальном времени при обнаружении ненормального поведения. Одно из реальных применений этой технологии в настоящее время применяется для определения количества людей в определенной области, где отправляется предупреждение, когда это число превышает лимит. Та же технология также может запускаться на основе наличия определенных объектов или распознавания лиц.

Подробный анализ интеллектуальных систем наблюдения с использованием тематического исследования

Теперь вернемся к вашему плану по ограблению кондитерской на третьем этаже.

Эти системы наблюдения, окружающие торговый центр, обучены обнаруживать интересные закономерности в торговом центре и классифицировать их как «подозрительные» и «неопасные». В целях защиты конфиденциальности граждан, а также для экономии места для хранения данных в системе. Любое действие, сначала признанное «безобидным», вскоре после этого будет удалено из библиотеки, что позволит людям путешествовать по торговому центру, не обязательно записывая свое собственное существование с помощью тех камер, которые выглядят более подозрительно, чем вы. Однако любые кадры, помеченные как «подозрительные» в первоначальной записи, будут храниться до тех пор, пока проверенные администраторы не примут соответствующие меры. В настоящее время исследователи изучают, как разработать инструмент, аналогичный обработке естественного языка, но для живых и анимированных видеоматериалов.

Но это слишком далеко от темы. Задача этих камер теперь состоит в том, чтобы извлечь основные функции и придать вашим записанным движениям цель, не изменяя ваше фактическое представление. Например, если вы резко измените направление ходьбы, это внезапное изменение положения вызовет тревогу в системе наблюдения, которая, в зависимости от активности толпы вокруг вас, может быть расценена как «подозрительная». Итак, вы пододвинули край кепки ближе к лицу и продолжили идти вперед.

Видеоматериалы, собранные этими камерами, проходят определенные этапы обработки. Во-первых, он предварительно обработан. Предварительная обработка извлекает кадры из видео, чтобы улучшить качество этих разделов, чтобы шумы и вариации освещения временно позаботились о будущем анализе видео. Некоторые системы используют морфологические операции как открытую систему в MATLAB для повышения эффективности обнаружения движущихся объектов в видео. Мы могли не только настроить вероятность обнаружения движущихся объектов, но и применить несколько фильтров:

A: Фильтр Гаусса + фильтр усреднения удаляют зернистые шумы

B: фильтр Винера улучшает разрешение кадров

Оба этих фильтра обеспечивают более четкое представление ваших движений. Это означает, что теоретически он будет игнорировать любые детализированные отвлекающие факторы, которые вы надели, и вместо этого сосредоточится непосредственно на вашем образе действий.

Затем система запускает ряд алгоритмов обнаружения движения. Это определяет горячие области четырьмя различными способами:

Вычитание фона (BSM): работает путем сравнения движущихся частей видео с фоновым изображением и изображением переднего плана. Вычитая эталонное изображение из входного изображения, система вычитает пороговое значение, которое определяет, есть ли обнаруженное изображение переднего плана или нет. Доказав, что изображение переднего плана является действительным, это может определить местонахождение определенных объектов, которые не оставались неподвижными на протяжении всего кадра.

Временная разность (TD): это класс методов обучения с подкреплением без использования моделей, которые предсказывают ожидаемое значение переменной в последовательности состояний. Это позволяет изученным значениям состояния направлять действия, которые впоследствии изменяют состояние среды.

Статистические методы. Это более сложная система, которая оценивает структурированные и неструктурированные изображения по нескольким критериям. Некоторые из них включают тестирование равномерного освещения.

Система предполагает, что свет равномерно распределен в качестве нулевой гипотезы, а затем проверяет, используя несколько математических моделей, таких как эта:

И решает, достаточно ли доказательств, чтобы отвергнуть или принять нулевую гипотезу. А для отслеживания действия объекта также важно видеть, совпадают ли два изображения в данный момент времени с устранением шумов. Это нужно для того, чтобы сделать прямой вывод о том, двигались ли вы с момента первого и второго изображений в кадре. Используя сравнение изображений Колмогорова-Смирнова, эти формулы устанавливают основные правила, по которым изображения можно считать идентичными, если не очень похожими. Предполагая, что два изображения идентичны, если они имеют одинаковое распределение оттенков серого, модель учитывает появление случайных шумов и пытается сравнить их первичное распределение оттенков серого.

Анализ потока: пиксели сравниваются между изображениями, чтобы увидеть, где и когда перемещался каждый пиксель. При этом весь объект игнорируется, а просто рассматривается изображение с биномиальной точки зрения — они либо сдвинулись, либо остались неподвижными — и, таким образом, сравнивая только граничные пиксели, мы могли бы затем сделать вывод, какая часть изображения сдвинулась.

И, следовательно, во всех четырех системах ваши действия теперь отслеживаются камерами с невероятной вычислительной мощностью.

Теперь ваше движение нужно проанализировать и последовательно классифицировать. Здесь происходит следующий этап обработки видео. Обнаружение и извлечение элементов определяют содержимое видеоряда, например края, углы и пятна. Это метод уменьшения размерности, позволяющий свести большие данные только к наборам, которые система должна учитывать при категоризации ваших действий.

За этим анализом следует классификация, которая группирует эти определенные характеристики в классы. Обычно это используется для применения старых правил к новым наборам данных. Например, сама система может хранить изображение вора за секунды до его действия, это изменение в его движении было зафиксировано системой и использовано для разработки алгоритма, который классифицирует любое движение подобного рода как «подозрительное».

После классификации данные были бы сужены ровно настолько, чтобы система могла сделать звонок — либо немедленно предупредить своего начальника, либо сохранить их как данные с «подозрительной» меткой, чтобы человек мог просмотреть их и сделать свои собственные выводы. Размышляя об этом, вы старались идти как можно ровнее, приближаясь к кондитерской…

Итак, решить мою проблему?

Чтобы найти решение, я решил рассматривать эту статью как миссию «путешествия во времени», чтобы посмотреть, как мы можем отправить моего двоюродного дедушку в больницу, пока не стало слишком поздно.

Для начала давайте вернемся к симптомам FAST и посмотрим, с какими из них мы действительно можем справиться.

Опущение лица:

Говоря о распознавании лиц, ручная загрузка новых лиц в систему наблюдения уже давно устарела. Теперь мы можем маркировать лица на досуге, используя людей или нет. Черт возьми, мы могли бы даже отказаться от идеи ввода новых наборов данных в тот момент, когда появляются новые лица. Давайте воспользуемся нашей текущей системой машинного обучения, которая после развертывания вообще не нуждается в базе данных. Система начинает собирать свои собственные изображения, а затем отслеживает будущие появления тех же медиафайлов, мгновенно обновляя их, не требуя присутствия человека в режиме ожидания.

Первоначальным толчком для обширного развития различных систем распознавания лиц была низкая скорость передачи видео и проблема с хранением видео в течение длительного времени. Качество этих кадров затрудняет точное распознавание лиц, особенно на видеозаписях с камер видеонаблюдения, на которых различное освещение и позы наряду с низким разрешением значительно снижают скорость распознавания любыми системами машинного обучения на рынке. Однако на рынке есть несколько более новых систем, которые используют разные детекторы лиц для достижения довольно желательного результата.

В марте 2018 г. Викрам Мутнея разработал систему распознавания лиц, дополняющую индустрию биометрии. Поскольку на видеозапись сильно влияют такие факторы, как освещение, расстояние, угол проекции и факторы окружающей среды, отследить лица людей невероятно сложно. Однако дальнейшее исследование выделения движения и сегментации на основе цвета кожи позволило выделить «горячие области» и впоследствии привело к распознаванию лиц. С использованием классификаторов Хаара и масштабирования изображения система повышает свою адаптивность в определении более низких и более высоких значений коэффициентов масштабирования, что позволяет выполнять многомасштабное распознавание лиц только на основе движения и цвета кожи. Конечно, будут иметь место предубеждения, такие как различия в оттенке кожи человека в зависимости от расы и, следовательно, недостаточность сети для распознавания правильных частей человеческого тела. Тем не менее, этот алгоритм устанавливает базовый уровень для будущих технологий, чтобы облегчить многомасштабную рекламу обнаружения лиц, способную обнаруживать лица с низким разрешением размером всего 8 на 8 пикселей. Это было проверено на узком диапазоне данных, однако результаты показали точность 98%.

Впоследствии я мог использовать эту нейронную сеть для эффективного обнаружения человеческих лиц на большой территории, например, в аэропорту. Однако распознавание некоторых деталей лиц по-прежнему остается тревожным препятствием. С огромным количеством людей, прибывающих и выезжающих из населенного пункта, такого как аэропорт, требуется слишком много вычислительной мощности, чтобы иметь возможность не только распознавать лица, но и внимательно наблюдать за их чертами лица и делать выводы о появлении симптомов инсульта.

Отсюда мы приходим к нашей проблеме: как сделать эти лица достаточно четкими, чтобы рассмотреть их внимательно?

У нас пока нет ответа.

Слабость рук и проблемы с речью

Хотя камеры не могут уловить трудности с речью, мы могли бы уточнить второй симптом инсульта — слабость рук. Эта слабость распространяется не только на руки, блокировка в определенных частях тела может привести к потере контроля над конечностями, особенно ногами. Это могло привести к пошатыванию или затруднениям в походке пациента, которые могли быть определены тем же методом, что и то, как камеры могли отслеживать вас, грабителя кондитерской на третьем этаже, до вашего преступного деяния.

Вот здесь-то и пригодится модель, о которой я упоминал в первой части статьи, — обучение с учителем. Этот подход к обучению в нейронных сетях обучает модель на основе размеченных данных, а затем позволяет ей применять те же правила, которые она вывела, к новым тестовым данным любой вариации. Это обучение представляет собой двухэтапный процесс. Во-первых, нам нужно обучить модель. Это включает в себя изучение классификатора — в случае обнаружения лиц алгоритм машинного обучения подобрал бы классификаторы Хаара, чтобы успешно определить положение этих лиц с чрезвычайно низким разрешением. Сначала мы можем найти объект или человека на видео и начать применять к ним фильтры. Затем мы переходим ко второму этапу обучения, который заключается в проверке выходных данных машины, чтобы с каждой итерацией точность прогнозирования результатов увеличивалась.

Во-первых, мы вырезаем несколько сцен из отснятого материала и применяем к ним фильтры Гаусса и Вина, чтобы устранить шумы, влияющие на общее различие движения. Как только мы определили местонахождение движущегося объекта, мы могли бы использовать вычитание фона, чтобы увидеть общее направление движения человека. Мы могли бы установить здесь точку обнаружения, где любое изменение в обычном движении человека (скажем, он внезапно начинает идти в другом направлении), эти данные будут помечены и сохранены, в то время как все остальные данные могут быть удалены для сохранения памяти.

Затем мы могли бы использовать анализ потока для отслеживания точного движения граничных пикселей. У человека, идущего в нормальном темпе, должно быть постоянное изменение движения — ритм, который может легко уловить нейронная сеть, анализируя и находя характер ходьбы человека. С началом инсульта эта закономерность должна быть временно нарушена, будь то увеличение времени выполнения одного шага или перенос веса с одной ноги на другую. Это нарушение схемы запускает предупреждение о ненормальной активности, которое должно быть немедленно отправлено окружающим членам экипажа или рабочим, чтобы они немедленно обратились за медицинской помощью.

Поскольку мы применяем тот же алгоритм оценки для обнаружения движения, связанного с инсультом, использование методов Машина опорных векторов (SVM) и HMM также может улучшить это обнаружение.

Модель SVM строит алгоритм, который назначает новые примеры каждой независимой категории, что делает ее невероятностным бинарным линейным классификатором. Он тренируется, чтобы максимизировать ширину разрыва между категориями. В случае обнаружения инсульта, обучаясь на этой модели, система может эффективно распознавать симптомы инсульта и делать более точные выводы. Использование SVM снижает количество ложных срабатываний, что, в свою очередь, повышает доверие и надежность интеллектуальной системы. Этот подход метода показал точность 81% во время обучения. В сочетании с подходом на основе HMM или нейронной сети это обеспечило новаторскую точность распознавания аномального поведения в 99,7% в статье, опубликованной в 2019 году.

Я надеюсь, что с помощью этих интеллектуальных систем наблюдения в будущем мы сможем устранить последний и окончательный симптом инсульта — время. Мгновенное оповещение, инициированное системой наблюдения, может вызвать серию экстренных ответных мер, которые резко сократят время между началом инсульта и оказанием надлежащей медицинской помощи, тем самым спасая гораздо больше жизней.

В будущем я буду более глубоко изучать создание более сильной нейронной сети, которая могла бы дать ответ на требование о необходимости решения, о котором я упоминал в статье: как мы можем лучше анализировать черты лица человека издалека, чтобы такие состояния, как смертельные инсульты, можно было обнаружить до того, как они произойдут?

Библиография:

https://mitsloan.mit.edu/ideas-made-to-matter/machine-learning-explained

https://www.mathworks.com/discovery/machine-learning.html

https://royalsociety.org/topics-policy/projects/machine-learning/videos-and-background-information/#:~:text=Machine%20learning%20is%20used%20in,phones%20such%20as%20voice %20распознавание

https://www.briefcam.com/resources/blog/how-can-machine-learning-be-used-for-cctv-video-surveillance/

https://scholar.google.co.nz/scholar?q=Videos+Surveillance+using+machine+learning&hl=en&as_sdt=0&as_vis=1&oi=scholart

http://www.ijmlc.org/vol9/785-L0182.pdf

https://www.sciencedirect.com/science/article/pii/S1532046420301283

https://ieeexplore.ieee.org/abstract/document/6906721

https://link.springer.com/article/10.1007/s41870-019-00364-0

https://pubmed.ncbi.nlm.nih.gov/34205259/

https://www.nature.com/articles/s41598-019-38748-8

https://dl.acm.org/doi/10.1145/3474121#d1e1956

https://bmcbiol.biomedcentral.com/articles/10.1186/s12915-022-01434-9