Искусственный интеллект и машинное обучение применяются в тяжелой промышленности реже, чем в других сферах экономической деятельности, таких как банковское дело, розничная торговля и телеком. Однако современные промышленные объекты генерируют и собирают большие объемы данных, и методы машинного обучения могут обеспечить эффективное использование этих данных для выполнения различных рутинных задач, например, выявления неисправностей и отказов, прогнозирования качества продукции или определения остаточного срока службы оборудования.

Хотя основное внимание здесь уделяется машинному обучению и анализу данных, следует отметить, что проблема также может быть поставлена ​​и решена в рамках классической теории надежности. Теперь давайте перейдем к рассматриваемой проблеме.

Техническая диагностика

Согласно международным и российским национальным стандартам, процесс технической диагностики включает четыре этапа: (1) обнаружение аномалий в работе или неисправностей, (2) локализация неисправностей или выявление конкретных сигналов, которые в наибольшей степени способствуют обнаружению неисправностей, (3) диагностирование, т. е. установление первопричин выявленных неисправностей, и (4) прогнозирование развития неисправности, или оценка RUL для диагностируемого оборудования. При адекватном выполнении всех этих задач, благодаря эффективному внедрению методов анализа данных, оператор оборудования может перейти на стратегию технического обслуживания по состоянию. На блок-схеме ниже показан типовой цикл диагностики оборудования.

В зависимости от выбранного подхода к технической диагностике результаты первых трех шагов, описанных выше, могут либо использоваться в оценке RUL, либо отбрасываться.

Проблема оценки оставшегося срока полезного использования

В международных стандартах по мониторингу состояния и диагностике машин RUL определяется как оставшееся время до того, как работоспособность системы упадет ниже определенного порога сбоя (или до того, как система перейдет в состояние, в котором ее необходимо отремонтировать или заменены).

Это определение можно проиллюстрировать на рисунке ниже.

Это означает, что в каждый момент времени можно оценить время, оставшееся до критического состояния, обозначенного красной пунктирной линией. Время может быть выражено в днях, циклах, пробегах, отливках или каких-либо других единицах, исходя из постановки задачи и имеющихся данных.

Решение задачи оценки RUL также помогает выявить факторы, снижающие RUL (т. е. если красная пунктирная линия в приведенном выше примере смещается влево и расстояние до нее уменьшается), а оператор оборудования может устранить нежелательное влияние таких факторов на настоящее и будущее. Кстати, в математической модели задачи оценки УРЛ может учитываться возникновение аномалий, например, в виде времени нахождения оборудования в аномальном состоянии (не путать с неработоспособным состоянием, поскольку иногда оборудование с незначительными аномалиями может работать годами).

С другой стороны, также важно понимать терминологию, поскольку в литературе появляются различные синонимы RUL, но они означают примерно одно и то же. Это:

  • оставшийся срок полезного использования (RUL),
  • Время до отказа (TTF),
  • остаточное время работы,
  • остаточный срок полезного использования,
  • оставшийся срок службы.

Итак, почему проблема оценки RUL так важна?

Если технологический персонал, инженеры, операторы, ремонтные бригады, бригады технической диагностики знают, как долго длится RUL, они могут работать лучше по многим параметрам:

  • более эффективно планировать мероприятия по M&R,
  • усовершенствовать стратегию обслуживания оборудования (заменить крупный ремонт на более мелкий, сократить количество мероприятий и манипуляций с оборудованием и т. д.),
  • оптимизировать режимы работы и загрузку оборудования,
  • уменьшить количество и продолжительность незапланированных отключений или полностью их избежать.

Вот почему оценка RUL является фундаментальной задачей технической диагностики и обязательным условием перехода к стратегии технического обслуживания по состоянию.

Данные

Столкнувшись с проблемой оценки RUL, можно иметь доступ к различным данным и найти применимыми только определенные подходы и методы. Следовательно, необходимо сначала классифицировать потенциально доступные данные, чтобы при представлении методов мы могли сразу обратиться к требуемым категориям данных. Это:

  • данные о работе оборудования, т. е. значения технологических параметров, сигналы датчиков за весь период работы с момента пуска до момента отказа,

  • данные о наработке до отказа (т. е. продолжительность работы до возникновения отказа),

  • информация об пороговых значениях (допустимых значениях) для отдельных сигналов или показателей работоспособности, которые указывают на сбой в случае их достижения.

Подходы к решению проблемы оценки RUL

1. Статистическая оценка

В подходе статистической оценки функция распределения времени до отказа строится на исторических данных для оценки RUL оборудования; см. рисунок ниже.

Это один из самых простых методов, требующий только набора данных о наработке до отказа. Характеристики функции выживания (или модели выживания) можно рассчитать как 1 — cdf. Добавляя некоторые дополнительные (косвенные) данные о работе оборудования, можно повысить эффективность метода, например, за счет выделения различных режимов и построения функции распределения (скорости деградации) для каждого режима.

2. Предсказание параметров

В методе прогнозирования параметров оценка RUL основана на прогнозировании значений параметров до достижения порога. Этот подход также называют подходом модели деградации, в котором есть два основных закона деградации:

  1. Линейная деградация: прогноз представлен в виде прямой линии, а исторические данные определяют ее наклон; обычно применяется, если система не накапливает повреждений (деградации).
  2. Экспоненциальная деградация: прогноз представлен в виде показателя степени; обычно применяется, если система может накапливать повреждения кумулятивно.

В этом случае есть два варианта:

1. для прогнозирования сигналов датчиков,

2. прогнозировать показатель здоровья.

Оба варианта требуют данные о работе оборудования (т.е. параметры процесса, сигналы датчиков), но для второго — это показатель работоспособности, который рассчитывается на основе имеющихся данных, а затем прогнозируется. Индикатор работоспособности может быть основным компонентом, как в PCA, результатом агрегирования различных индикаторов, расхождения между моделью нормальной работы и реальными данными и т. д. Он включает в себя как можно больше информации, используя гораздо больше, чем один сигнал.

Также необходимы пороги,хотя имея значения наработки на отказ и данные о работе оборудования, можно вычислить пороги (заданные достаточно статистических данных). Параметры можно прогнозировать с помощью различных методов, и некоторые из них подробно обсуждаются в уроке ODS здесь (обратите внимание, что код доступен).

3. Регрессионная модель

В этом случае мы сводим задачу к классической регрессионной постановке. Для этого извлеките признаки из временных рядов (параметры процесса или индексы работоспособности) с помощью, например, библиотеки TSFresh. Извлечение признаков показано на рисунке ниже.

В результате мы получаем выборку признаков X, а также нам нужна выборка ответов (время до отказа) y. Таким образом, для этого подхода требуются данные о работе оборудования (параметры процесса, сигналы датчиков) и данные о наработке до отказа, и задача может быть решена как классическая регрессионная задача с табличных данных с использованием любых методов SOTA (мыслите ансамбль).

4. Сходство с моделями предыдущих периодов

Другой очень распространенный подход к оценке RUL, также известный как модель сходства, заключается в сравнении текущей операции или состояния с историческими данными. Для этого мы можем сократить предыдущие периоды в работе в тот же момент времени, что и текущий период.

Существует два основных варианта реализации модели подобия:

  • Прямое сравнение временных рядов с использованием показателей близости, таких как Dynamic Time Warping (DTW) или методы кластеризации/классификации на основе близости. Примеры с кодом можно найти здесь, также можно использовать готовые библиотеки, например, tslearn.
  • Выбор признаков из временного ряда и дальнейшее сравнение полученных векторов признаков (т. е. метрики близости, кластеризация).

Желаемой оценкой RUL будет значение наиболее похожего периода работы из истории или среднее (или любое другое агрегирование) по группе/кластеру периодов работы. Для реализации модели подобия берутся данные о работе оборудования и данные о наработке до отказа.

Выявление факторов, влияющих на износ

Как упоминалось выше, важной задачей, сопровождающей оценку RUL, является выявление факторов, влияющих на этот RUL — в первую очередь негативно — вызывающих повышенный износ. К таким факторам, прежде всего, относятся специфические сигналы, указывающие на локализацию неисправности, приводящей к нештатному состоянию и износу оборудования. Эта информация может быть передана персоналу для указания, например, нежелательных режимов работы. Затем совместно со специалистами предметной области оператор оборудования может проанализировать и выяснить, чем вызвано отклонение тех или иных сигналов от нормальных значений и возможная деградация оборудования по этим показаниям.

Здесь необходимо различать два понятия:

1. Признаки, важные для модели в целом: факторы, оказывающие наибольшее влияние на результат оценки РВУ (фундаментальные особенности модели).

2. Вклад признаков в индикацию данной модели: факторы, оказавшие наибольшее влияние (т. е. объясняющие) текущую оценку RUL.

Это означает, что с точки зрения первой концепции факторами, влияющими на износ, являются те, которые снижают прогноз модели, а с точки зрения второй концепции - те, которые повлияли на низкое значение текущего прогноза. Такие библиотеки, как Shap, могут создавать как первый, так и второй факторы для моделей машинного обучения.

Для каждого из вышеперечисленных подходов выявление факторов осуществляется по-своему:

  1. Статистическая оценка: идентификация возможна только при наличии дополнительных косвенных данных, например, разного наклона кривой распределения (т. е. скорости деградации) для разных режимов работы.
  2. Прогнозирование параметров: в качестве факторов, влияющих на износ оборудования, следует выбирать сигналы, которые преодолели пороговые значения раньше других.
  3. Регрессионные модели: факторы, влияющие на износ, можно определить по важности функции для моделей машинного обучения, Shap и другим методам оценки важности функции и объяснения показаний моделей.
  4. Сходство с паттернами предыдущих периодов: если построены модели машинного обучения, то так же, как в пункте 3 выше, или факторы, влияющие на износ, это те, которые проявились до отказа предыдущего оборудования во время рабочий цикл/прогон, аналогичный текущему. Такую информацию может получить группа технической диагностики.

Решение проблем

В качестве иллюстрации рассмотрим три случая решения задачи оценивания RUL.

Случай 1 — РУЛ гильз МНЛЗ

Машина непрерывного литья заготовок (МНЛЗ) — установка, перерабатывающая жидкую сталь в твердую заготовку заданного сечения, из которой прокатывается различная продукция, например арматурный прокат.

Наиболее важной и быстроизнашивающейся частью МНЛЗ является гильза пресс-формы. Представляет собой водоохлаждаемую трубу круглого или профильного сечения из меди. Расплавленный металл, контактирующий со стенками гильзы, кристаллизуется и образует первичную твердую оболочку заготовки.

Основная проблема гильз заключается в том, что на их поверхности появляются дефекты и искажается профиль горловины гильзы. При этом нарушается тепловой режим, что сказывается на качестве получаемых заготовок: могут возникать неровности формы (например, неравные диагонали в квадратных слитках, ромбовидная форма), неправильные размеры сторон заготовок, трещины в углах заготовок. Эти дефекты вызывают проблемы на последующем этапе прокатки, в связи с чем качество проката снижается, а количество дефектов растет, что отрицательно сказывается на экономике производства.

Размеры рукава измеряют по всей длине через определенные промежутки времени. Если эти размеры отклоняются от требуемых параметров, они отбраковываются.

Более короткая НУ медных гильз, используемых в технологическом процессе, допускается, если она связана с изменением параметров работы МНЛЗ (например, температуры поступающей стали, температуры охлаждающей воды и т. д.), поэтому эти особенности также учитывались в модели. Модель построена для оценки RUL, которая измеряется в тоннах или остатках плавки.

Случай 2 — RUL силовых трансформаторов

Большинству трансформаторов более 25 лет. Это делает задачу раннего обнаружения неисправностей еще более актуальной, поскольку техническое обслуживание и ремонт требуют эффективного планирования для снижения затрат. Как мы теперь знаем, решение задачи оценки RUL является важнейшим аспектом правильного планирования технического обслуживания, особенно с учетом значительного возраста оборудования, часто превышающего установленные пределы (но не пугайтесь, срок службы продлевается только после тщательной диагностики). ).

Чтобы узнать больше о решении задачи обнаружения аномалий для трансформаторов, обратитесь к этой статье.

Исходными данными служили результаты ХАРГ (хроматографический анализ растворенных газов). Концентрации четырех газов (H2; CO; C2H4; C2H2) измерялись каждые 12 часов в трансформаторном масле, что давало данные о работе оборудования и данные о наработке до отказа (длительность запусков). Модель была обучена со средней абсолютной ошибкой 27 дней.

Случай 3 — RUL дымососов в металлургии

Эксгаустер представляет собой центробежный нагнетатель, всасывающий воздух через слой шихты, лежащий на колосниковой решетке агломашины. Эксгаустеры являются ответственными узлами агломерационных комплексов в металлургическом производстве. Неисправность эксгаустера приводит к остановке агломашины и, как следствие, к потерям из-за недопроизводства.

Основной причиной выхода из строя дымососа является износ ротора, зависящий от различных факторов, в связи с чем ПДК дымососа весьма непостоянен. Раннее прогнозирование превышения предельно допустимых параметров позволяет заменить ротор при плановых остановах агломашины и исключить (или значительно сократить) нежелательные простои.

Задача состояла в том, чтобы определить время отключения на горизонте месяца и рассчитать точное время отключения для каждой точки отбора проб. Для проверки применимости различных подходов к решению задачи были сформулированы следующие гипотезы:

  1. Прогноз индекса здоровья. Индекс работоспособности может быть построен на основе моделей нормальной работы (подход с частичным наблюдением), а затем прогнозируется индекс работоспособности до пересечения с предварительно вычисленной уставкой, сигнализирующей о возникновении простоя.
  2. Регрессия. Можно построить регрессионную модель, используя в качестве целевой переменной время до простоя.

При таком подходе был предложен следующий конвейер машинного обучения:

  1. выделить 60-дневные интервалы до возникновения неисправности (только для стадии поезда),
  2. с помощью скользящего окна разрезать один 60-дневный интервал на 7-дневные интервалы, каждый из которых соответствует 1 числу, т. е. RUL до простоя,
  3. с помощью tsfresh уменьшите двумерный набор данных (7 дней, умноженный на количество объектов) до вектора признаков (1 точка, умноженная на количество выбранных объектов), каждый из которых соответствует 1 числу, т. е. RUL до простоя,
  4. собрать все векторы в общую выборку,
  5. поставить и решить задачу обучения регрессионной модели,
  6. выполнить вывод модели.

Исходными данными были сигналы от АСУ ТП, данные M&R от SAP и некоторые данные, вводимые вручную. Окончательная среднеквадратическая ошибка равнялась 5 дням на интервале 60 дней до отказа.

В заключение, обратитесь к моему репозиторию обзоров, чтобы узнать больше о случаях машинного обучения в тяжелой промышленности и обучающих наборах данных.