Автономные транспортные средства (АВ) интенсивно развиваются, и компании вкладывают в них миллионы. В 2017 году Ford инвестировал в Argo AI, чтобы создать технологию для самостоятельного вождения. Затем компания Argo AI инвестировала 15 миллионов долларов в исследовательский центр AV совместно с Университетом Карнеги-Меллона.

Этому примеру следуют и другие компании, в том числе корейский автопроизводитель Hyundai и японский гигант Toyota, вложившие 1,7 миллиарда долларов и 667 миллионов долларов соответственно.

Mckinsey & Company, консалтинговая компания по вопросам управления, оценивает, что 2015–2030 годы станут первой эрой для коммерческого использования AV, ориентированной на исследования и разработки. Прогнозируется, что с 2030 года и в последующий период потребители будут чаще покупать AV-системы. В настоящее время, имея утомленных покупателей, компании изо всех сил пытаются выйти на целевой рынок, и может пройти некоторое время, прежде чем спрос возрастет.

Интерес к исследованиям и финансирование доступны, поэтому сейчас лучшее время для экспериментов с различными AV-технологиями, такими как системы технического зрения. Современные системы технического зрения действуют как глаза транспортного средства, помогая алгоритмам оценки движения с данными о глубине резкости. Двумя крупнейшими конкурентами являются LIDaR (обнаружение света и дальность) и стереозрение.

Что такое LIDaR и зачем его использовать?

LIDaR - это лазерный сканер, который создает облако точек, обеспечивающее трехмерную реконструкцию окружающей среды, позволяющую оценить глубину и высоту.

LIDaR работает, направляя луч света на вращающееся зеркало, и лучи отражаются во многих направлениях. Как только луч возвращается, он отражается обратно в сканер, который измеряет расстояние до объекта.

Из-за дуальности света волна-частица луч можно представить как синусоидальную функцию. Отправленный луч и тот, который возвращает, приводят к фазовому сдвигу. Расстояние рассчитывается с учетом этого фазового сдвига и известной длины волны луча; процесс повторяется очень быстро и дает подробную карту.

Из-за точности, необходимой для сканера и зеркала, системы LIDaR могут быть дорогими с рыночной ценой от 1 000 до 75 000 долларов в зависимости от требуемого уровня автономности и применения.

Что насчет стереозрения?

Стереозрение - интересная альтернатива, в которой для оценки глубины используется многокамерная установка, основанная, как ни удивительно, на том, как это делают люди!

Время для эксперимента

Попробуйте прямо сейчас: закройте правый глаз, выставьте палец перед собой и сфокусируйтесь на нем. Теперь закройте противоположный глаз и повторите.

Если вам не удается это сделать, не волнуйтесь, есть Wikihow доступно!

Хорошо, теперь, когда вы закончили, ваш палец немного двинулся, не так ли?

Не волнуйтесь, ваши глаза работают нормально, это результат их геометрии. Явление, которое вы испытали, называется ошибкой параллакса, оно возникает, когда изображение рассматривается с двух разных линий зрения и в результате кажется движущимся. В данном случае две линии взгляда - это ваши глаза.

Мотивация к использованию геометрии для устранения ошибки параллакса

Использование обоих глаз и пристальный взгляд на объект создает глубину, потому что наше собственное зрение, кажется, сходится. Это похоже на перспективную фотографию, где все параллельные линии пересекаются в какой-то далекой точке горизонта.

Однако изображения, снятые с камеры, не могут создавать глубины, как наши глаза.

Изображение преобразует трехмерный вид мира в двухмерную проекцию. Более формально это приводит к преобразованию линии в единую точку. В Евклидовом пространстве, которое представляет собой геометрическое пространство, содержащееся в 2D-плоскости, параллельные линии не могут пересекаться, как это происходит в перспективном изображении (которое принадлежит Проективному пространству). На это указывает линия OX, показанная слева, хотя она соответствует уникальным точкам на разных расстояниях, камера не может определить это. С точки зрения камеры он видит одну точку x вместо линии OX.

Камеры не могут связываться друг с другом, как наш мозг, чтобы помочь нашим глазам создавать изображения. В результате получаются две плоские проекции одного и того же изображения, снятые под разными углами. Вся информация о глубине была потеряна. Однако путем триангуляции обеих проекций, применения некоторой геометрии и использования ошибки параллакса камеры могут быть связаны друг с другом для аналитического определения расстояния.

Показанная выше установка с двумя камерами является основой для оценки глубины, это называется стереозрением.

Подробнее о преобразованиях координат и камерах читайте в статье о калибровке камеры.

Математическая оценка глубины

Получение и количественная оценка эффекта параллакса для глубины требует большого количества математических расчетов. Если вас интересует только основная формула, пропустите этот подраздел до конца.

Обратитесь к диаграмме выше в предыдущем подразделе для получения информации.

Предположим, что обе камеры расположены в центрах O и O ’, которые сходятся в точках X.

Линия OX отображается как одна точка x на левой плоскости проекции. Однако, если смотреть с правой плоскости проекции, есть набор соответствующих точек, x ', которые образуют линию на плоскости, называемую эпиполем, l. '. Это указывает глубину и доказывает, что точка x на самом деле является линией OX; теперь задача состоит в том, чтобы определить, где находится x.

Специальные линии, называемые эпилинами, можно провести вдоль OX, чтобы они сходились в точке O ’. Точку x можно найти, проверяя каждый эпилин до тех пор, пока не будет найден тот, который пересекает x, это решение является эпиполярным ограничением. Несколько указаний на X, каждый из которых соответствует определенному эпилину, подразумевает возможные решения для точки x.

Теперь проблему можно перерисовать сверху вниз.

Учитывая конкретное решение эпиполярного ограничения, x, соответствующую ему точку в противоположной плоскости, x ', линию прямой видимости OX и эпиполярная линия для противоположной камеры, O'X, глубина может быть решена.

Точки x и x ’ находятся на разной глубине.

Обе линии, OX и O'X, расположены под разными углами, но могут быть связаны эквивалентными треугольниками, поэтому разница (x - x ') равно параметрам: B, f, Z ( в уравнении ниже). Эта разница (x - x ’) является несоответствием: числовым измерением ошибки параллакса.

Более формально несоответствие относится к расстоянию в координатах двух похожих регионов (как видно из любой проекции изображения). Неравномерность обратно пропорциональна глубине, Z,, доказанной путем решения эквивалентного отношения треугольника.

Для объектов, которые расположены ближе, ошибка параллакса более выражена, что указывает на большое несоответствие, поскольку одна и та же точка появляется в разных местах из обеих проекций. Из-за обратной зависимости он должен соответствовать небольшой глубине.

Проверьте сделанное выше предположение с помощью эксперимента, показанного в предыдущем разделе. Ваше наблюдение должно соответствовать заданному математическому соотношению.

Значение x определяется через эпиполярное ограничение, а значение x ’ известно из проверки проекции изображения противоположной камеры. Учитывая некоторое расстояние между камерами, B и фокусное расстояние, f, затем Z можно посчитать.

Если применить это ко всем пикселям сцены, получится карта несоответствия, которая указывает глубину по цвету.

Для получения дополнительной информации о стереозрении и 3D-реконструкции посетите Документацию OpenCV и Dr. Курс Рича Радке ECE6969 .

Недостатки и улучшения стереозрения

Хотя стереозрение стоит недорого, его основная проблема - время обработки. В идеале в AV большинство систем будет работать в режиме, близком к реальному времени. И все же системы стереозрения не могут работать достаточно быстро из-за длительного времени, необходимого для устранения эпиполярного ограничения. Чтобы сократить время вычислений, проводятся исследования с использованием машинного обучения для улучшения стереосистем и ускорения их.

Стереозрение через машинное обучение

Прежде чем углубляться в подробности нейронных сетей, важно понять, что такое изображения: изображение - это двумерный массив чисел, а каждый элемент массива - значение пикселя.

Благодаря такой структуре сверточные нейронные сети (CNN) являются идеальными, поскольку они применяют скользящие фильтры по изображению, чтобы преобразовать его в один вектор, представляющий его возможные значения. Вектор передается в полностью подключенную сеть, которая назначает вероятности каждому значению и выводит наиболее вероятное совпадение в качестве прогноза.

Чтобы узнать больше о CNN и нейронных сетях, Dr. Майк Паунд предлагает короткие объяснения, а формальные концепции доступны в видеолекциях Стэнфорда .

Что касается стереосистем, изображение разделяется на левую и правую проекции и анализируется по одной небольшой области за раз. Оба прогноза передаются в сиамскую CNN, которая одновременно создает набор возможных вероятностных распределений для несоответствия по соответствующим регионам. в левой и правой проекциях. Затем набор возможностей передается на полностью подключенный уровень, который выводит наиболее вероятное распределение неравенства для одного участка исходное изображение.

Это означает, что сеть выводит диапазон возможных значений для несоответствия в форме непрерывной функции, называемой распределение вероятностей.

Распределения вероятностей представляют вероятность наступления результата, где набор результатов отображается на оси x . Случайная величина содержит эти результаты как возможные значения. Каждому исходу соответствует вероятность, указанная на оси ординат.

Согласно приведенной выше CNN, ось x будет заполнена значениями несоответствия, а ось Y - вероятностью того, что эти несоответствия верны. Форма распределения изучается и предсказывается CNN. Используется отдельный алгоритм для поиска наиболее вероятного несоответствия путем нахождения точки максимума распределения.

Дизайн сиамской CNN позволяет коррелировать различия, соответствующие различным областям изображения, что, возможно, указывает на то, что эти области являются частью одной и той же поверхности.

Расширения для сиамской архитектуры CNN

Предыдущие сети сравнивали левую и правую проекции и оптимизировали сопоставимую стоимость. Это означало, что в обеих проекциях производился поиск пятен, указывающих на одну и ту же часть. После обнаружения каждый фрагмент будет использоваться для расчета несоответствия, учитывая его расположение относительно плоскости. Эти сети работали вокруг процесса решения эпиполярного ограничения, поскольку точная точка уже была найдена.

Сиамский CNN, о котором говорилось выше, является усовершенствованием прошлых сетей. Изменяя параметр оптимизации, чтобы узнать распределение по возможным диспропорциям, необходимость в вычислении несоответствия устраняется. Вместо этого выбирается наиболее вероятное несоответствие, что позволяет архитектуре сиамской CNN работать быстрее, чем ее предшественники.

В прошлом в сетях реализовывались комбинированные решения, в которых распознавание объектов и оценка глубины решались одновременно. Таким образом, обнаружение коррелированных различий может расширить дизайн сиамских CNN, чтобы также разрешить другие задачи видения.

Будущее автономного видения

Лидер отрасли Waymo использует системы LIDaR, а основатель Tesla Илон Маск комментирует:

«... любой, кто полагается на LIDaR, обречен ...»

очевидно, что существует ожесточенная конкуренция и противоречивые взгляды с обеих сторон. Исследователи Корнелла поддерживают стереозрение, несмотря на обеспокоенность общественности его эффективностью и необходимостью обеспечения безопасности в беспилотных автомобилях.

Тесла использует не только стереозрение; его автомобили оснащены стереокамерами, радаром и картографированием для обеспечения конкурентоспособной точности. Хотя требуется больше технологий, эксплуатационные расходы для стереосистем все же ниже, чем у LIDaR.

Хотя безопасность превыше всего, предприятия должны получать прибыль, чтобы продолжать работать. Одним из самых серьезных препятствий для потребителей является рыночная стоимость, которая напрямую коррелирует с технологией, используемой в конструкции автомобиля. Как упоминалось в начале, AV находятся в зачаточном состоянии, и многое может измениться с дальнейшими исследованиями и разработками. Только время покажет, какая система зрения правит лучше.