Основные моменты и тенденции машинного обучения на ECML-PKDD 2019 (16–20 сентября, Вюрцбург, Германия)

Загадочное название конференции связано с тем, что это слияние двух конференций: Европейской конференции по машинному обучению (ECML) и Европейской конференции по принципам и практике обнаружения знаний в базах данных ( ПКДД). Я в основном занимался машинным обучением, поэтому в этой записи блога я сосредоточусь на аспектах машинного обучения этой недельной конференции.

Начнем с моих личных моментов…

Основные моменты (мой субъективный выбор, очевидно)

Наличие более 170 представленных статей еще не является гарантией обнаружения выдающихся достижений в этой области. К счастью, на ECMLPKDD 2019 я натолкнулся на немало многообещающих статей. Помимо некоторых действительно интересных примеров использования из реальной жизни (некоторые из них упомянуты ниже), вот мои личные моменты, которые действительно кажутся значительными шагами вперед.

1 Глубокое сетевое обучение с использованием случайной скорости обучения!
Это действительно здорово! Авторы нашли способ вообще избежать оптимизации скорости обучения. В широком диапазоне тестовых случаев их алгоритм (Alrao) работал так же хорошо, как стохастический градиентный спуск с оптимально настроенной скоростью обучения.
Документ: https://ecmlpkdd2019.org/downloads/paper/805.pdf
Код: http://github.com/leonardblier/alrao

2 Новые более быстрые и точные методы классификации временных рядов!
В своей основной лекции Франсуа Петижан представил два новых инструмента. Первый - это более классический древовидный подход под названием TS-CHIEF, который в среднем выполняется на более чем пятидесяти тестовых наборах данных, а также современный современный метод (HIVE-COTE). при обучении и масштабировании значительно быстрее.
Статья: https://arxiv.org/abs/1906.10329
Код: https://github.com/dotnet54/TS-CHIEF

Затем вместе с Хасаном Исмаилом Фавазом и другими они просто опубликовали метод глубокого обучения для классификации временных рядов на arXiv. Их сетевая архитектура во многом вдохновлена ​​начальными CNN, известными из компьютерного зрения. Неудивительно, что они назвали его InceptionTime. Примерно работает так же хорошо, как и вышеупомянутый метод, но оба подхода, похоже, превосходят друг друга на разных наборах данных. Это здорово, потому что это означает, что они сосредоточены на разных аспектах временного ряда. Интересно, что произойдет, если объединить TS-CHIEF и InceptionTime…
Статья: https://arxiv.org/pdf/1909.04939.pdf
Код: https://github.com / hfawaz / InceptionTime

В связи с этим авторы также недавно опубликовали очень подробную обзорную статью о глубоком обучении для классификации временных рядов.

3 Более быстрый и настраиваемый t-SNE!
Думаю, немногие инструменты более распространены для специалистов по данным, чем t-SNE. Он используется для разбивки абстрактных векторов признаков (или скрытых представлений) на низкоразмерные графики (ССЫЛКА).
Здесь авторы не только нашли способ получить гораздо более быструю (пригодную для использования Python) реализацию, они также обнаружили, что можно использовать изменение одного конкретного фактора в алгоритме t-SNE (который до сих пор был установлен на 1). для точной настройки силы кластеризации.
Более быстрая реализация t-sne: изначально здесь: https://github.com/KlugerLab/pyFIt-SNE
Альтернативная версия - opentsne: https: // github .com / pavlin-policar / openTSNE /
Статья: https://arxiv.org/abs/1902.05804
Код: https://github.com/dkobak/finer-tsne

4 Новый алгоритм обучения с подкреплением на основе актера и нескольких критиков (вне политики).
Они называют это BDPI (Bootstrapped Dual Policy Iteration), и кажется, что их подход необычайно стабилен, а также устойчив к вариациям гиперпараметров, что является огромным препятствием во многих случаях использования RL.
Документ: https://ecmlpkdd2019.org/downloads/paper/48.pdf
Код: https://github.com/vub-ai-lab/bdpi

5 Автоэнкодер с независимым выбором признаков
Гийом Доке и Мишель Себаг представили автоэнкодер в сочетании со структурной регуляризацией для лучшего выбора признаков (или независимого выбора признаков, отсюда и название AGNOS ). Он действительно работает довольно хорошо (к сожалению, вычислительные затраты немного увеличиваются).
Документ: https://www.ecmlpkdd2019.org/downloads/paper/744.pdf
Код еще не доступен.

Другие тенденции и общие темы

Вероятностные модели

Под вероятностными моделями люди в машинном обучении обычно подразумевают модели, которые не только выводят один прогноз, но также дают распределение или другую меру того, насколько модель уверена в своем прогнозе.

В старые времена ML (что в ML означает несколько лет назад) большинство практиков ML были бы достаточно счастливы иметь модель, которая прилично работает с точки зрения точности вывода. Чтобы оценить достоверность этих моделей, часто было обычной практикой (что означает, что во многих случаях она все еще такова!) Просто смотреть на прогнозы модели за один уровень до окончательного argmax и рассматривать эти значения как вероятности. Но хотя слой softmax действительно дает вероятностные значения (они правильно нормализованы до суммы 1), они обычно не очень надежные оценки неопределенности.

ECML-PKDD2019 провел две полные сессии по вероятностным моделям с очень сильным акцентом на гауссовские процессы. Например, Wistuba and Rawat представила интересную реализацию с использованием Гауссовского процесса с большой маржой, который можно добавить в конец обычного CNN. Или многообещающий метод глубокого конституционального гауссовского процесса от Blomqvist et al.

Сравнительный анализ алгоритмов и удобство использования в реальном мире

Это не совсем новая тенденция. Но можно сказать, что это оставшаяся тема. Сфера машинного обучения ничем не отличается от большинства научных областей тем, что во многом определяется парадигмой «опубликуй или исчезни». Вы хотите остаться в академических кругах? Лучше опубликуйте как можно больше!

Поэтому неудивительно, что на ECML-PKDD2019 я увидел то, что также можно увидеть в другом месте: Большинство статей, выходящих в ML, представляют - в лучшем случае - постепенные улучшения по сравнению с предыдущей работой! Часто это означает немного лучший тест здесь, немного более быстрые вычисления там. Конечно, это нормально. Только то, что для людей вроде меня, которые больше всего заинтересованы в применении инструментов машинного обучения для решения широкого круга проблем реального мира, эти постепенные изменения редко оправдывают трудности. Проекты, над которыми я работаю, являются научно-исследовательскими. Для них я почти всегда предпочел бы более устоявшийся, лучше документированный метод, который дает мне приличную точность, по сравнению с недавно разработанным, который может дать мне немного лучшие результаты, но либо более громоздок в реализации, либо требует большего опыта для правильного использования. настраивайся и разбирайся.

Ресурсоэффективное глубокое обучение (и машинное обучение)

Эффективные алгоритмы машинного обучения, часто мотивированные ограниченными вычислительными ресурсами устройств (IoT, смартфоны и т. Д.), А иногда и аспектами энергоэффективности / устойчивости, получили определенную популярность.

Типичные приемы включают в себя сокращение сети (создание более разреженных моделей) или значения с более низкой точностью (например, градиенты), например, переход от числа с плавающей точкой к наборам битов.
Другой подход - это грамотно спроектированные сетевые архитектуры, которые позволяют резко сократить затраты на обучение для больших ансамблей сетей. В качестве такого случая можно рассматривать хорошо известную архитектуру Inception для CNN. Димитриос Стамулис (Карнеги-Меллон, США), например, представил новый эффективный метод поиска нейронной архитектуры.

Также был проведен целый семинар по интеллектуальному анализу зеленых данных.

Объяснимость, интерпретируемость

Неудивительно, что объяснимый искусственный интеллект или интерпретация моделей возникали на многих этапах конференции. В выступлении Тинне Туйтелаара (KU Leuven, Бельгия) о компьютерном зрении это в некоторой степени обсуждалось. А в последний день была проведена целая обучающая сессия / семинар по теме → см. Веб-сайт AIMLAI-XKDD.

Слайды учебной части XKDD также доступны в Интернете: https://kdd.isti.cnr.it/xkdd2019/pkdd2019xkdd_tutorial_last.pdf

Повсеместное использование машинного обучения

Опять же, никаких новых тенденций. Но по-прежнему приятно видеть, потому что, в конце концов, это то, о чем все это (по крайней мере для меня). И это использование методов машинного обучения в самых разных областях и темах.

Очевидно, было много обычных подозреваемых: анализ или построение прогнозов в сфере финансов, электронной коммерции, энергопотребления, использования общественного транспорта и т. Д. Мне было ближе много хороших примеров различных научных дисциплин, использующих машинное обучение для анализа и анализа. интерпретировать свои данные. Я посетил классный семинар по машинному обучению и музыке, изучая нейронные сети, генерирующие ноты, похожие на людей, или читая древние рукописные листы.
Мне также очень понравился лейтмотив палеонтология как вычислительная наука by Indrė Žliobaitė и увидела множество интересных кейсов из наук о жизни и социальных наук.