Интерпретируемый ИИ — это ИИ, для которого люди могут понять причину, по которой конкретная модель сделала прогноз. Нет единого мнения о том, что такое интерпретируемость в ИИ или как ее измерить, однако были предложены различные подходы для классификации и классификации интерпретируемых методов ИИ/МО.

Интерпретируемые модели можно разделить на несколько категорий. Я резюмировал некоторые из этих категорий ниже. Эти классификации в значительной степени взяты из отличной онлайновой (и бесплатной) книги Кристофа Молнара по интерпретируемому ИИ: Интерпретируемое машинное обучение, руководство по созданию объяснимых моделей черного ящика

Внутренняя и апостериорная интерпретируемость

В этой категории есть два типа моделей:

  1. Модели, которые внутренне интерпретируются из-за их простой структуры, такой как линейная регрессия и короткие деревья решений.
  2. Модели, которые интерпретируются постфактум после того, как они были обучены. Например, важность признака перестановки смотрит на уменьшение оценки признака, когда отдельные значения признака перемешиваются случайным образом. Перетасовка отдельных функций нарушает связь между функцией и выходными данными, поэтому падение оценки функции указывает на важность функции в производительности модели.

Модельно-зависимая или модельно-независимая

  1. Специфичные для модели интерпретации — это инструменты интерпретации, специфичные для моделей или классов моделей. Например, интерпретация весов в линейной или логистической регрессии специфична для этих моделей и не имеет особого смысла в контексте деревьев решений или нейронных сетей.
  2. Инструменты интерпретации, не зависящие от модели, — это инструменты, которые работают с любой моделью машинного обучения и обычно применяются после обучения модели. Эти инструменты обычно не имеют доступа к внутренним структурам и работе модели, таким как веса модели. Эти методы включают такие методы, как графики частичной зависимости (PDP), LIME и значения Шепли.

Глобальная и локальная интерпретируемость

  1. Глобальная интерпретируемость относится к интерпретациям, применимым ко всей модели (в отличие от одного прогноза). Это «общая» интерпретируемость всей модели, которая заключается в понимании того, как модель принимает решения в целом, на основе ее параметров и структуры. Глобальная интерпретация проливает свет на то, как результаты распределяются в зависимости от признаков, и ее действительно трудно реализовать на практике, особенно для больших и сложных моделей с большим количеством параметров.
  2. Инструменты Локальная интерпретируемость объясняют один прогноз или подмножество прогнозов. Объяснение одного прогноза, изолированного от всей модели, может быть проще, потому что один прогноз может линейно или монотонно зависеть от определенных функций, в отличие от анализа взаимосвязи между всеми функциями и результатами. Таким образом, часто локальные интерпретации могут быть более точными, чем глобальные интерпретации. Точно так же прогнозы для группы результатов также можно объяснить локально, рассматривая группу как полный набор данных. К этому подмножеству можно применить глобальные методы, чтобы понять модель на уровне группы, а локальные методы можно применить к отдельным прогнозам в этой группе.

Как проверить интерпретируемые модели на предмет их качества?

Хотя нет единого мнения о том, как измерять интерпретируемость, были предложены три основных типа задач, с которых можно начать оценку. Эти категории оценки были предложены Доши-Велес и Ким (2017).

  1. Тестирование интерпретируемых моделей на реальных задачах (реальные люди, реальные задачи): это включает в себя добавление инструментов интерпретируемости в реальное приложение, а затем тестирование того, насколько хорош инструмент при использовании конечным пользователем (в частности, доменом). эксперт). Ключевой базой для этого типа задач является то, насколько хорошо человек сможет объяснить одно и то же решение.
  2. Тестирование интерпретируемых моделей на упрощенных задачах (реальные люди, упрощенные задачи): это включает проверку интерпретации на неспециалистах, а не на экспертах в предметной области, чтобы оценить, насколько хорошо обычный человек может понять интерпретации модели. Этот подход подходит для проверки общих представлений о качестве объяснений с помощью экспериментов, сохраняющих общее представление о целевом приложении. Кроме того, этот тип тестирования обычно быстрее и дешевле, так как вам не нужно искать экспертов в предметной области, и вы можете протестировать практически любого.
  3. Тестирование с использованием прокси-задач (без людей, прокси-задачи): в этих экспериментах используется некоторое формальное определение интерпретируемости (установленное ранее) в качестве прокси для качества объяснения. Эти эксперименты подходят для проверки интерпретируемости моделей, которые уже были проверены, как правило, путем оценки человеком. Они могут быть хорошим вариантом тестирования, когда метод еще слишком нов или когда эксперименты на людях могут быть недоступны (ограничения по времени и стоимости) или неэтичны.

Что такое хорошее объяснение?

Объяснение обычно отвечает на вопрос почему. Кристоф Молнар предлагает углубленный взгляд на то, что является хорошим объяснением в контексте ИИ и МО. Ключевые идеи из его постов таковы:

  1. Хорошие объяснения контрастны и позволяют людям/пользователям сравнивать различия между любым экземпляром/точкой данных, которые они выбирают в качестве эталона, и другим экземпляром.
  2. Хорошие объяснения, как правило, избирательны — они дают несколько ключевых оснований для предсказания из множества возможностей. Они могут рассказать убедительную историю, которая эффективно выделяет ключевые сигналы из шума.
  3. Хорошие объяснения встроены в социальный контекст их применения. Объяснение обычно сильно привязано к предметной области, в которой оно используется, и поэтому должно соответствовать этой предметной области.
  4. Хорошие объяснения учитывают ненормальные/неожиданные отношения между входными функциями и результатами. Например, если на вывод влияет редкая категория категориального признака, ее следует включить в пояснение.
  5. Хорошие объяснения должны быть правдивыми/высококачественными. Это противоречит избирательности (пункт № 2), поскольку избирательность часто может удалить часть правды. Однако избирательность кажется более важной, чем правдивость (точнее, изложение всей правды). Это потому, что может быть миллион правдивых причин, которые влияют на конкретный результат, однако людям часто не нужен исчерпывающий список того, что вызывает событие. Обычно им нужно несколько ключевых причин из множества возможных.
  6. Хорошие объяснения согласуются с прежними убеждениями пользователя, поскольку люди обычно склонны игнорировать информацию, которая не соответствует тому, во что они верят (предвзятость подтверждения). Однако это может быть трудно реализовать в моделях ML. Иногда модель может давать объяснения, которые могут противоречить убеждениям пользователя. В этом случае важно проверить, почему модель дает такое объяснение (возможно, это связано с предвзятостью в том, как были собраны данные), и рассказать убедительную (и правдивую) историю, отвечающую противоречивой точке зрения пользователя.
  7. Хорошие объяснения являются общими и вероятными. Хорошее объяснение обычно может объяснить многие события, если только на событие не повлияли аномальные причины (редкие сценарии, пункт № 4).

В этом посте я представил краткий (совсем не исчерпывающий) обзор интерпретируемости в AI/ML. В следующих нескольких постах я рассмотрю различные модели и инструменты интерпретируемости и применю их к различным наборам данных, чтобы понять, что означает интерпретируемость в действии.

Рекомендации

Молнар, К. (2022). Интерпретируемое машинное обучение: руководство по созданию объяснимых моделей черного ящика (2-е изд.). christophm.github.io/interpretable-ml-book/