Подсчет барж и его проблемы с использованием изображений с низким разрешением

в соавторстве с Athanasios Sdralias и Fiona Chow

Важным ингредиентом машинного обучения и глубокого обучения являются данные. В данном контексте это спутниковые снимки. Изображения Landsat - один из старейших источников изображений наблюдений, который существует уже более 4 десятилетий, начиная с 1972 года. Его 30-метровые мультиспектральные изображения низкого разрешения (низкого разрешения) составляют основу исследований дистанционного зондирования и машинного обучения и такие приложения, как мониторинг растительности.

Доступность спутниковых изображений очень высокого разрешения (с высоким разрешением) менее 50 сантиметров, которые у нас есть сегодня, находятся на начальной стадии в результате того, что правительство США ослабило ограничения на коммерческую продажу таких изображений с высоким разрешением не из США. государственные заказчики в последние годы . Это открыло путь для решения таких проблем, как прогнозирование бедности и помощь при стихийных бедствиях с помощью машинного обучения.

Ключевым фактором, влияющим на разрешение спутникового изображения, является временная частота, в которой можно заметить изменение.

Изменения в последовательных изображениях местоположения заметны в зависимости от их соответствующих сценариев использования. Например, на временных изображениях леса изменения не были бы заметны, если бы изображения были разнесены на 1 или, может быть, даже на 6 месяцев. Точно так же изменения в посевах не были бы заметны, если бы изображения были разделены на один день. Однако в очень динамичных средах, таких как парковки или аэропорты, где автомобили и самолеты постоянно находятся в движении, изменения заметны даже с разницей в час.

Чем динамичнее сцена, тем чаще нужно ее пересматривать. Например, в случае сельскохозяйственных культур изменения можно ощутить за несколько недель, поэтому для анализа потребуется делать еженедельные спутниковые снимки. Этот критерий ограничивает уровень разрешающей способности, который можно использовать, поскольку изображения с более высоким разрешением, как правило, имеют меньшее время просмотра. В результате в большинстве исследований и приложений, связанных с мониторингом сельскохозяйственных культур или прогнозированием урожайности, используются изображения с низким разрешением.

В нашем случае мы заинтересованы в получении информации о транспортировке зерновых товаров через реку.

Баржи - например, та, что слева - обычно используются для перевозки крупногабаритных грузов и тяжелых громоздких грузов по водным путям.

В ходе нашего исследования мы обнаружили, что отслеживание местоположения и передвижения барж по рекам имеет некоторую степень корреляции с фактическими показателями производства зерна. На сегодняшний день лишь несколько стран в мире опубликовали исчерпывающую информацию о производстве зерна в виде открытых данных. Даже если они были опубликованы, обычно ожидается, что до того, как такая информация станет общедоступной, потребуется от нескольких недель до месяцев. Это представляет собой блокиратор для людей, таких как торговцы сырьевыми товарами, которым вовремя требуется такая информация. Таким образом, возможность собирать информацию с барж потенциально может устранить разрыв между доступностью информации и ее своевременностью.

Из-за динамического характера движения барж по рекам мы решили использовать изображения с низким разрешением для обучения наших моделей, которые затем могли бы предсказывать количество барж вдоль речных терминалов с течением времени. Эта проблема решается с помощью метода машинного обучения, известного как обнаружение объектов.

Обнаружение объектов - одна из ключевых задач машинного обучения, выполняемых на изображениях. Проще говоря, это процесс поиска всех экземпляров определенного объекта (или объектов) на данном изображении. Это может показаться тривиальной задачей для человека, но довольно сложной задачей для машины. Это связано с тем, что количество объектов, их размер и вид, которые необходимо обнаружить, неизвестны, и они варьируются от изображения к изображению.

Традиционно эта задача решается с помощью технологий Computer Vision. Классический подход предполагает использование скользящих окон для извлечения деталей из изображения. На сегодняшний день эти методы все еще считаются мощными инструментами, но они требуют больших вычислительных ресурсов и значительного количества времени для прогнозирования. Таким образом, они не являются идеальным решением для решения масштабных задач.

Подход машинного обучения к обнаружению объектов включает использование расширенной сверточной нейронной сети, которая генерирует ограничивающие рамки для локализации объекта, а затем находит наиболее подходящую ограничивающую рамку вокруг объекта. Логическим расширением функции обнаружения объектов является подсчет количества объектов, обнаруженных на изображении.

Модель хороша ровно настолько, насколько хороши данные, которыми она питается. В этом случае данные относятся к изображениям с ограничивающими рамками, нарисованными над баржами. На самом деле это самая трудоемкая и трудная часть обучения.

Мы полагаемся на границы между объектами, чтобы рисовать коробки. Маркировка барж ограничивающими рамками создает дополнительный уровень сложности по сравнению с автомобилями, кораблями или даже самолетами, потому что баржи находятся соединенными вместе, а последние объекты - нет. Следовательно, если бы использовались изображения с более низким разрешением, последние объекты все равно были бы индивидуально различимы и могли быть помечены без сомнения для обучения.

Следующие изображения иллюстрируют это. Слева мы можем четко идентифицировать корабли и их границы. Несмотря на то, что справа изображение крайне низкого разрешения, человеческий глаз может различать самолеты, их форму и границы.

В нашем конкретном случае подсчета барж (см. Ниже) границы между баржами четко видны на изображении с высоким разрешением (слева), но это не относится к изображению с низким разрешением (справа).

На изображении с низким разрешением более мелкие детали не улавливаются. При такой потере информации баржи выглядят не более чем прямоугольником большего размера. Это порождает неопределенность, которую необходимо решить - как маркировать отдельные баржи, когда человеческому глазу трудно различить границы между ними.

Что ж, мы знаем, что баржи часто встречаются прикрепленными вместе на речных буксирах. Таким образом, подход к преодолению этой неопределенности будет заключаться в маркировке связанных барж в целом - 1, 2, 3, 4 и т. Д., Вместо того, чтобы пытаться маркировать их по отдельности. Недостаток маркировки прикрепленных барж в целом заключается в том, что в некоторых случаях модель может ошибочно принимать отражающие крыши за прикрепленные баржи. Поскольку баржи встречаются только на реке, элементы суши можно удалить, создав маску над участками суши на изображении. Это позволяет модели сосредоточиться на обнаружении барж, которые находятся только на реке.

Кроме того, комбинация методов компьютерного зрения, включая классический метод сегментации - пороговое значение, применяется для превращения небарж в черный цвет с последующей серией морфологической обработки для устранения небольших остаточных шумов. Учитывая, что обычные баржи имеют стандартный размер, затем производятся расчеты для оставшейся части баржи для оценки количества.

Это лишь некоторые из множества решений, которые можно применить к этому классу проблем. То, что мы делаем здесь, в Bird.i, чрезвычайно увлекательно и сложно. Мы верим в то, что нужно преодолевать границы и делать проблемы, которые кажутся невозможными и сложными, - возможными. Мы только начали.

Присоединяйтесь к нам, поскольку мы продолжаем открывать мир через нашу работу в области машинного обучения и изображений наблюдений. Так что напишите нам, мы будем рады услышать от вас! В качестве альтернативы, если вы столкнулись с проблемой, связанной с изображениями наблюдений и масштабом, мы можем решить ее за вас.

Мы - Bird.i, и наша миссия - дать возможность каждому использовать изображения как сверху, так и за ее пределами.