Этот блог суммирует фантастическую работу Hoeller et. 2023. Это написано в сотрудничестве между человеком и ИИ: P Ни одна из этих работ не является моей собственной. Ни один из рисунков не мой, а еще текст ChatGPTs с некоторыми изменениями :D

Цели и о чем эта статья:

Откройте для себя захватывающий мир паркура, дисциплины, возникшей в конце 80-х и получившей широкую популярность с появлением Интернета. Паркур, также известный как свободный бег, включает в себя выполнение акробатических трюков, чтобы максимально эффективно и элегантно добраться до сложных мест. Это требует навигации по окружающей среде, ходьбы, бега, лазания и прыжков через препятствия, и все это скоординировано с точным временем. Эта требовательная дисциплина требует многолетней практики для развития необходимых навыков и рефлексов, что делает ее рискованной по своей сути.

В то время как роботы с ногами стремятся соответствовать навыкам и ловкости людей и животных, мы все еще раскрываем весь потенциал их возможностей. Изучая и стремясь воспроизвести ловкость бегунов, мы можем получить представление об ограничениях каждого компонента роботизированной системы, преодолеть эти ограничения и улучшить общие возможности наших роботов. Это, в свою очередь, открывает двери для различных применений, таких как поисково-спасательные операции в разрушенных зданиях или сложных природных ландшафтах.

В таких сценариях робот должен эффективно ощущать и понимать свое окружение, выбирать жизнеспособный путь и выполнять последовательность движений на основе своих навыков. При столкновении со значительными и сложными препятствиями робот должен выполнять динамические маневры, сохраняя при этом контроль над своим основанием и конечностями. Принятие решений в режиме реального времени становится решающим, и робот должен полагаться на ограниченную вычислительную мощность и неполную зашумленную информацию от своих датчиков.

Сложность этой задачи усугубляет общие проблемы, с которыми сталкиваются мобильные роботы:

  • Регулятор движения должен адаптироваться к различным препятствиям и не может полагаться на стабильную повторяющуюся походку.
  • Оценка состояния подвержена ошибкам из-за сильных ударных сил и контактов с различными частями тела робота.
  • Восприятие окружающей среды затруднено из-за самоокклюзии и ограниченного поля зрения датчиков, что приводит к неполному пониманию окружающей среды.
  • Планировщик должен учитывать окружающую среду, кинематические и динамические возможности робота, а также ограничения его низкоуровневых контроллеров для создания возможных траекторий.
  • Минимальная задержка необходима, чтобы избежать катастрофических результатов во время быстрых движений, требующих эффективной обработки сенсорных данных и быстрого вывода контроллера.

В этой статье рассматривается сложная взаимосвязь между маневренностью и робототехникой путем решения этих проблем. Изучение мира робототехники, вдохновленной паркуром, открывает новые возможности и прокладывает путь к достижениям в различных практических приложениях.

Метод и некоторые результаты:

Авторы разделили систему на три взаимосвязанных компонента: восприятие, передвижение и навигация. Модуль восприятия обрабатывает входные данные от бортовых камер и LiDAR для анализа местности и создания компактного представления сцены. Модуль передвижения включает в себя навыки, предназначенные для преодоления различных ландшафтов, таких как ходьба по неровным поверхностям, перепрыгивание через пропасти, преодоление препятствий и маневрирование в узких проходах. Модуль навигации использует информацию о восприятии, чтобы управлять модулем передвижения, выбирая соответствующие навыки и предоставляя промежуточные команды.

Для обучения этих модулей авторы используют симуляцию, создавая случайные сценарии препятствий с лестницами, наклонными поверхностями, ящиками, проемами и столами. Политики передвижения отрабатываются на отдельных препятствиях. , а модули восприятия и навигации обучаются на различном расположении этих препятствий. Наконец, мы развертываем все модули в реальных условиях после успешного симуляционного обучения.

Авторы провели экспериментальную проверку, чтобы продемонстрировать автономные возможности своей системы, продемонстрировав беспрецедентное поведение платформы. Робот успешно перемещается по сложной местности со скоростью до 2 м/с и принимает точные решения для своевременного достижения цели. Контроллеры движения демонстрируют точные и быстрые движения даже на узких поверхностях, едва ли более значительных, чем след робота. Они используют весь диапазон движений робота для преодоления более высоких препятствий. Несмотря на высокую скорость робота, конвейер картирования обеспечивает точную реконструкцию сцены, несмотря на шум от оценки состояния и обнаружения. Планировщик эффективно использует доступную информацию и знания о возможностях каждого навыка, чтобы вести робота по возможному пути. Система разработана для повышения эффективности, хорошо масштабируется при симуляционном обучении и работает в режиме реального времени на физическом роботе. Авторы успешно развернули весь конвейер в режиме моделирования, добившись удивительной гибкости в сложных реальных условиях.

Вклад авторов можно резюмировать следующим образом:

  1. Они представляют новый подход к навигации, который использует состояние убеждений сети реконструкции местности для планирования путей в сложных сценах при выборе из библиотеки навыков передвижения. Архитектура позволяет быстро делать выводы, занимая всего миллисекунды. Они модифицируют алгоритм PPO для включения гибридного вывода актера с распределением по Гауссу для низкоуровневых команд и категориальным распределением для выбора навыков.
  2. Они улучшают навыки передвижения, расширяя формулировку на основе положения. Они вводят новые ландшафты, включают команду направления и используют увеличение симметрии для улучшения эффективности политики.
  3. Они разрабатывают метод реконструкции нейронного ландшафта, способный работать в сложных условиях. Они улучшают существующий подход с помощью схемы с несколькими разрешениями, которая сочетает точную реконструкцию рядом с роботом с более грубой картой большего масштаба для более широкого понимания сцены. Архитектура сети изменена, чтобы обеспечить эффективный вывод с большими размерами пакетов во время обучения с подкреплением. Они демонстрируют эффективность метода в сложных сценах с нависающими препятствиями.
  4. Они успешно развертывают все модули робота ANYmal D в реальных условиях. Система тестируется на различных препятствиях как в помещении, так и на улице.

В целом их работа демонстрирует замечательные достижения в области автономной навигации, навыков передвижения, реконструкции местности и и развертывания системы в реальных условиях.

Ограничения:

Как отмечают авторы, конвейер, описанный в документе, имеет определенные ограничения, которые необходимо учитывать при развертывании в реалистичных и неструктурированных сценариях. Во-первых, масштабируемость метода для более разнообразных сценариев тщательно не тестировалась. Авторы демонстрируют возможности системы в ограниченном диапазоне сценариев, используя несколько отдельных модулей в среде. Однако для того, чтобы система могла адаптироваться к сложным условиям, таким как разрушенные здания или сложные паркурные поля, ей необходимо было бы воспринимать, перемещаться и преодолевать различные препятствия. Хотя можно обучить дополнительным низкоуровневым навыкам и предоставить больше данных модулям восприятия и навигации, степень, в которой эти модули могут обобщаться на совершенно новые сценарии, остается неопределенной.

Кроме того,обучение всего конвейера может занять много времени, так как оно включает восемь отдельных нейронных сетей, каждая из которых требует индивидуальной настройки. Некоторые сети взаимозависимы, а это означает, что модификация одной требует переобучения других. Например, навигационный модуль опирается на конкретный модуль восприятия, на котором он был обучен, и вынужден использовать одни и те же правила передвижения. Точно так же, если навык принимает другое движение или вводит новое препятствие, модуль восприятия необходимо переобучить. В будущем может потребоваться одновременное обучение различным компонентам.

Кроме того, перед модулем навигации стоит задача принятия последовательности правильных решений для достижения цели с множеством возможностей, которые могут привести к неудаче. В результате алгоритм требует многочисленных итераций для сходимости. Чтобы преодолеть это ограничение, авторы разрабатывают специальную учебную программу. Без этого шага робот изо всех сил пытается обнаружить подходящее поведение и часто застревает перед более крупными препятствиями. Одним из возможных решений является предварительное обучение навигационного модуля с помощью экспертных демонстраций, таких как поиск возможных решений с помощью перебора методом грубой силы.

Таким образом, конвейер, обсуждаемый в документе, имеет ограничения, касающиеся масштабируемости, сложности обучения и конвергенции модуля навигации. Необходимы дальнейшие исследования для решения этих проблем и усовершенствования системы для развертывания в разнообразных и реалистичных сценариях.

Модуль восприятия обрабатывает входные данные от бортовых камер и LiDAR для анализа местности и создания компактного представления сцены. Модуль передвижения включает в себя набор навыков, предназначенных для преодоления различных ландшафтов, таких как ходьба по неровным поверхностям, прыжки через пропасти, преодоление препятствий и маневрирование в узких проходах. Навигационный модуль использует информацию о восприятии, чтобы управлять модулем передвижения, выбирая соответствующие навыки и предоставляя промежуточные команды. Для обучения этих модулей мы используем моделирование, создавая рандомизированные сценарии препятствий с лестницами, наклонными поверхностями, ящиками, проемами и столами. Политики передвижения тренируются на отдельных препятствиях, а модули восприятия и навигации тренируются на различных схемах этих препятствий. Наконец, после успешного симуляционного обучения, мы развертываем все модули в реальных условиях.