Задача кластеризации данных в эпоху искусственного интеллекта имеет некоторые параллели со спортивными соревнованиями с несколькими видами спорта

Кларк Александер и Софья Ахмаметьева сидят в просторном современном офисе в центре Чикаго и рассказывают о десятиборье.

Как сказать, кто лучший спортсмен в десятиборье? — спрашивает Александр, профессор математики в Университете ДеПоля и инженер-математик в Nousot, технологическом стартапе, основанном на искусственном интеллекте. Вы берете каждое событие, которое делают эти спортсмены. Затем вы подсчитываете их все, и самая высокая сумма дает вам лучшего спортсмена. Но в нашем случае наибольшая сумма дает лучший алгоритм.

Десятиборье является и аналогом, и основой решения, которое Александр и Ахмаметьева не собирались создавать, но, тем не менее, разработали и опубликовали: общий всеобъемлющий стандарт для количественной оценки производительности алгоритмов кластеризации.

Первоначальной целью двух математиков и программистов была разработка, а не измерение. Nousot уже создал автономный алгоритм прогнозирования, который использовал глубокое обучение для обеспечения высокой начальной точности, а затем улучшал ее с течением времени, и компания хотела сделать то же самое с алгоритмом кластеризации.

«Кластеризация идеально подходит для больших данных, — говорит Ахмаметьева, ведущий инженер Nousot по машинному обучению. «Существует тонна данных, и пользователю не нужно в них теряться. Алгоритм определяет группы в данных, и пользователь создает истории из групп».

На самом деле, пользователи создали буквальное изменение мира из группировок. Значимые кластеры данных — те группы элементов, которые раскрывают что-то убедительное или полезное — помогали людям и организациям делать такие вещи, как разработка вакцин, обнаружение видов, проведение избирательных кампаний и предвидение приближающегося цунами, даже до появления ИИ.

Теперь, когда появился ИИ, появилась и технология для создания алгоритмов, которые находят еще более точные и мощные группы в постоянно растущих объемах данных практически без участия человека. Но вскоре после того, как Александр и Ахмаметьева начали работу по созданию такого алгоритма, они обнаружили, что нужно передвинуть стойки ворот.

Основой для разработки нашего алгоритма было рассмотрение всех существующих показателей производительности для алгоритмов кластеризации и их улучшение, — говорит Ахмаметьева, которая также основала компанию AIR, которая создает интерфейсы между людьми и роботами. Поэтому наш подход заключался в том, чтобы сначала определить все количественные показатели для определения того, насколько хорошо работает алгоритм кластеризации.

Такой подход сразу же вызывал недоумение. «Мы продолжали ненаходить количественные показатели, — говорит Александр.

«Каждый алгоритм кластеризации хорошо идентифицирует около четырех типов кластеров и не так хорош примерно с тремя другими», — продолжает он, имея в виду семь характеристик, по которым обычно определяются кластеры: стабильность, шум, сложность, однородность, межкластерное расстояние, кообъем. , и форма.

«Каждая статья, которую мы читали, заканчивалась чем-то вроде «этот алгоритм хорош, потому что он ставит галочки в большем количестве пунктов, которые нам важны», — говорит Александр. «Это были качественные оценки — почти плюсы и минусы — для задачи, которая по своей сути является числовой».

Поэтому Александр и Ахмаметьева отнесли разработку алгоритма ко второму шагу и сделали его оценку первым шагом, решив создать широкую и строгую структуру оценки, которую они не нашли. Опираясь на идею многоэтапных спортивных соревнований в качестве модели подсчета очков, они создали семиборье для алгоритмов кластеризации, включающее семь «событий»: те семь вышеупомянутых кластерных характеристик, которые специалисты по данным ищут в неразмеченных данных.

Математика тоже участвует в вручении подарков

В рамках своей системы оценки, вдохновленной семиборьем, Александр и Ахмаметьева разработали новую, тщательно выстроенную математику для количественной оценки каждой характеристики кластера.

«Каждая из семи функций теперь имеет числовой диапазон, который мы разработали и внедрили, и мы можем сформулировать, что означают эти числа», — говорит Ахмаметьева. «В будущем исследователи смогут оценивать алгоритмы с помощью реальных показателей, привязанных к реальным значениям. Они могут улавливать нюансы производительности там, где предыдущие методы не могли».

Пошаговая математика для каждой функции проиллюстрирована здесь, а функция формы — и особенно сложная математика, необходимая для ее измерения — получает свою собственную статью здесь.

Если хотите, «кластерное семиборье» работает так, как вы можете себе представить. Точно так же, как десятиборец получает балл за свое выступление в каждом отдельном соревновании, алгоритм кластеризации, прошедший через систему оценки, получает балл за свою работу при определении кластеров в соответствии с каждым из семи признаков.

И точно так же, как суммарный балл десятиборца определяет его итоговое место в соревновании, суммарный балл алгоритма по семи кластерным функциям фреймворка определяет его общую производительность.

Тем не менее, чтобы привлечь широкую аудиторию, фреймворк должен был элегантно обрабатывать различные единицы измерения и позволять исследователям определять определенные характеристики кластера как более важные, чем другие. Учитывая эти требования, Александр и Ахмаметьева заложили в систему три параметра: масштаб, точку отсчета и вес.

Масштаб позволяет корректировать точки, чтобы общая оценка не искажалась при добавлении сильно разбросанных оценок (например, для межкластерного расстояния) к плотно компактным (например, для кообъема). Контрольная точка учитывает тот факт, что высокие баллы лучше всего подходят для одних функций (например, стабильности), а низкие баллы лучше всего подходят для других (например, шума). Вес позволяет любой функции кластера иметь большее или меньшее значение в зависимости от целей проекта. Исследователи также могут добавлять другие параметры, например, максимальный диапазон баллов.

«Мы хотели предоставить пользователям выбор, — говорит Ахмаметьева. «Так что наша оценка похожа на автономный автомобиль. Вы хотите, чтобы он управлял, но иногда вы хотите переопределить его. Наличие обоих вариантов важно».

Как правильно использовать подарки

Имея четко определенную оценку алгоритма кластеризации, любезно предоставленную семиборьем, и строгую количественную меру для каждой характеристики кластера, любезно предоставленную высшей математикой, Александр и Ахмаметьева обратились к своей первоначальной цели: построить автономный алгоритм кластеризации, который бы хорошо соответствовал оценке. в любом проекте кластеризации, используя любой тип данных.

Здесь снова пара ссылается на все документы, которые они изучали. Критерии оценки, использованные в этих исследованиях, могли быть мягкими, но сами алгоритмы кластеризации — нет — на самом деле они были сильными, но специализированными.

«Мы обнаружили, что все авторы создали свои алгоритмы в соответствии со своими исследовательскими целями», — говорит Александр. Действительно, сегодня существует множество алгоритмов кластеризации, которые действительно хорошо находят кластеры определенных типов, но не другие. Каждый подобен десятиборцу с навыками спринта мирового класса, но не навыками бега на длинные дистанции, или отличной техникой прыжков, но не техникой броска.

Александр и Ахмаметьева увидели возможность и исходный материал для создания суперспортсмена алгоритмов кластеризации.

«Что мы смогли сделать, так это изучить то, что сделали все эти авторы, и выбрать лучшие функциональные части их алгоритмов», — говорит Александр. «Мы взяли их и объединили в наш собственный продукт».

Их автономный алгоритм кластеризации в настоящее время находится в стадии бета-тестирования, а массовый выпуск запланирован на первый квартал 2018 года. Я очень хотел назвать его в честь «Джессики Эннис, олимпийской чемпионки по семиборью из Великобритании, — говорит Александр, — но не смог». Не делайте ENNIS подходящей аббревиатурой».

Он принимает предложения.

Действительнонайти подарки с пользой

Автономный алгоритм кластеризации, несомненно, превзойдет человека в поиске значимых групп в огромных и постоянно растущих объемах данных. Люди быстро обнаруживают закономерности, но они не могут наблюдать и учиться на сотнях тысяч, даже миллионах наборов данных, как это могут делать алгоритмы на основе ИИ.

Но это не означает конец человеческого вклада в кластерный анализ. Как раз наоборот: он предлагает своего рода новое начало, которое подчеркивает и даже требует участия человека. Машины просто находят кластеры. Люди обладают уникальной квалификацией, чтобы решать, как и где использовать знания, которые приносят эти кластеры. Мы, а не машины, будем внедрять инновации и развертывать системы, услуги, продукты и процедуры, которые делает возможным высококачественное обнаружение кластеров.

По словам Александра и Ахмаметьевой, три отрасли, в частности, могут извлечь выгоду из улучшенного кластерного анализа, который обеспечивает универсальный алгоритм кластеризации.

Во-первых, это обращение с отходами. «Мы выбрасываем много ценных вещей, — говорит Александр. «Например, кофейная гуща обогащает почву, но у нас нет эффективного способа собрать ее и доставить туда, где она нужна. Теперь мы можем наилучшим образом объединить усилия по сбору платежей в кофейнях и других местах».

Второе: медицина. «В идеале вы бы синтезировали лекарство для одного человека, чтобы лучше его лечить», — продолжает Александр. «С алгоритмом кластеризации, который выделяет чрезвычайно точные группы, мы можем продолжать приближаться к этому».

Энергетика — третья отрасль, которую Александр и Ахмаметьева хотят преобразовать с помощью кластерного анализа. «Мы можем сгруппировать здания в интеллектуальную сеть по типу, размеру, часам потребления энергии и множеству других переменных, — объясняет Александр, — а затем оптимизировать смещение энергетической нагрузки».

С праздником, кластерный анализ. Вы были повышены.