Что такое распознавание образов

Что такое распознавание изображений и как ИИ помогает в их распознании?

Распознавание изображений (часть искусственного интеллекта (ИИ)) является еще одной популярной тенденцией, набирающей обороты в настоящее время – к 2021 году ожидается, что ее рынок достигнет почти 39 миллиарда долларов. Теперь пришло время присоединиться к тренду и узнать, что такое распознавание изображений и как оно работает.

Что такое распознавание изображений?

Как всегда, давайте начнем с основ. Прежде всего, вы должны помнить, что распознавание и обработка изображений не являются синонимами. Обработка изображения означает преобразование изображения в цифровую форму и выполнение определенных операций с ним. В результате можно извлечь некоторую информацию из такого изображения.

Этапы обработки изображений:

Теперь вы видите, что распознавание изображений является одним из этапов обработки изображений. Те специфические особенности, которые были упомянуты, включают людей, места, здания, действия, логотипы и другие возможные переменные на изображениях. Следовательно, распознавание изображений – это процесс идентификации и обнаружения объекта в цифровом изображении и одно из применений компьютерного зрения. Иногда это также называют классификацией изображений, и это применяется в большом количестве отраслей.

Как работает распознавание изображений?

Теперь несколько слов о том, как работает распознавание изображений. Первым шагом здесь является сбор и организация данных. В отличие от людей, компьютеры воспринимают изображение как векторное или растровое изображение.

Поэтому после создания конструкций, изображающих объекты и особенности изображения, компьютер анализирует их. Затем данные упорядочиваются – важная информация извлекается, а ненужная исключается. Вторым этапом процесса распознавания изображений является построение прогнозирующей модели. Алгоритм классификации должен быть тщательно обучен, иначе он не сможет выполнять свои функции. Когда все сделано и протестировано, вы можете пользоваться функцией распознавания изображений.

Как ИИ помогает распознавать изображения?

Искусственный интеллект делает возможными все функции распознавания изображений. Чтобы дать вам лучшее понимание, вот некоторые из них:

1. Распознавание лиц.

С помощью ИИ система распознавания лиц сопоставляет черты лица с изображения, а затем сравнивает эту информацию с базой данных, чтобы найти совпадение. Распознавание лиц используется производителями мобильных телефонов (как способ разблокировки смартфона), социальными сетями (распознавание людей на изображении, которое вы загружаете, и их пометка), и т.д. Тем не менее, такие системы вызывают много проблем конфиденциальности, так как иногда данные могут быть собраны без разрешения пользователя. Кроме того, даже самые передовые системы не могут гарантировать 100% точность. Что если система распознавания лиц смешивает случайного пользователя с преступником? Это не то, чего кто-то хочет, но это все еще возможно. Однако технологии постоянно развиваются поэтому однажды эта проблема может исчезнуть.

2. Распознавание объектов.

Системы распознавания объектов выбирают и идентифицируют объекты из загруженных изображений (или видео). Визуальный поиск, вероятно, является наиболее популярным приложением этой технологии.

3. Распознавание образов.

4. Анализ изображения.

Вам нужно краткое изложение конкретного изображения? Используйте ИИ для анализа изображений. В результате все объекты изображения (формы, цвета и т. д.) будут проанализированы, и вы получите полезную информацию об изображении.

Источник

Распознавание образов

Что такое распознавание образов. Смотреть фото Что такое распознавание образов. Смотреть картинку Что такое распознавание образов. Картинка про Что такое распознавание образов. Фото Что такое распознавание образов

Теория распознава́ния о́бразов — раздел кибернетики, развивающий теоретические основы и методы классификации и идентификации предметов, явлений, процессов, сигналов, ситуаций и т. п. объектов, которые характеризуются конечным набором некоторых свойств и признаков. Такие задачи решаются довольно часто, например, при переходе или проезде улицы по сигналам светофора. Распознавание цвета загоревшейся лампы светофора и знание правил дорожного движения позволяет принять правильное решение о том, можно или нельзя переходить улицу в данный момент.

В процессе биологической эволюции многие животные с помощью зрительного и слухового аппарата решили задачи распознавания образов достаточно хорошо. Создание искусственных систем распознавания образов остаётся сложной теоретической и технической проблемой. Необходимость в таком распознавании возникает в самых разных областях — от военного дела и систем безопасности до оцифровки всевозможных аналоговых сигналов.

Традиционно задачи распознавания образов включают в круг задач искусственного интеллекта.

Содержание

Направления в распознавании образов

Можно выделить два основных направления [1] :

Формальная постановка задачи

Методы распознавания образов

Для оптического распознавания образов можно применить метод перебора вида объекта под различными углами, масштабами, смещениями и т. д. Для букв нужно перебирать шрифт, свойства шрифта и т. д.

Второй подход — найти контур объекта и исследовать его свойства (связность, наличие углов и т. д.)

Еще один подход — использовать искусственные нейронные сети. Этот метод требует либо большого количества примеров задачи распознавания (с правильными ответами), либо специальной структуры нейронной сети, учитывающей специфику данной задачи.

Перцептрон как метод распознавания образов

Простейший эксперимент, на основе которого можно получить психологически значимую информацию о некоторой системе, сводится к тому, что модели предъявляются два различных стимула и требуется, чтобы она реагировала на них различным образом. Целью такого экперимента может быть исследование возможности их спонтанного различения системой при отсутствии вмешательства со стороны экспериментатора, или, наоборот, изучение принудительного различения, при котором экспериментатор стремится обучить систему проводить требуемую классификацию.

В опыте с обучением перцептрону обычно предъявляется некоторая последовательность образов, в которую входят представители каждого из классов, подлежащих различению. В соответствии с некоторым правилом модификации памяти правильный выбор реакции подкрепляется. Затем перцептрону предъявляется контрольный стимул и определяется вероятность получения правильной реакции для стимулов данного класса. В зависимости от того, совпадает или не совпадает выбранный контрольный стимул с одним из образов, которые использовались в обучающей последовательности, получают различные результаты:

Перцептроны не обладают способностью к чистому обобщению, но они вполне удовлетворительно функционируют в экспериментах по различению, особенно если контрольный стимул достаточно близко совпадает с одним из образов, относительно которых перцептрон уже накопил определенный опыт.

Источник

Что такое распознавание образов и почему это важно?

Что такое распознавание образов. Смотреть фото Что такое распознавание образов. Смотреть картинку Что такое распознавание образов. Картинка про Что такое распознавание образов. Фото Что такое распознавание образов

Из-за появления больших данных и технологий машинного обучения стало доступно много данных, которые ранее были либо выведены, либо предположены. Эти данные, основанные на более надежных источниках, предоставили возможность использовать более сложные методы анализа данных для получения дополнительных преимуществ для бизнеса.

Другими словами, теперь, когда мы «узнали больше», мы перешли от цели получения самой информации к анализу и пониманию данных, которые уже поступали к нам.

Из всех инструментов, используемых в больших данных, распознавание образов находится в центре внимания. Он включает в себя ядро аналитики больших данных – он извлекает из данных информацию и раскрывает скрытые за ней значения.

Распознавание образов дает стратегическое преимущество для компании, которая делает ее способной к постоянному совершенствованию и развитию на постоянно меняющемся рынке.

Что такое распознавание образов?

Распознавание образов – это процесс выделения и сегментирования данных в соответствии с установленными критериями или общими элементами, который выполняется специальными алгоритмами.

Распознавание образов имеет дело с автоматическим обнаружением закономерностей в данных с помощью компьютерных алгоритмов и с использованием этих закономерностей для принятия действий, таких как классификация данных по различным категориям.

Другими словами, распознавание образов идентифицирует вещи по их характеристикам.

Сами данные могут быть чем угодно:

Любая информация последовательного характера может обрабатываться с помощью алгоритмов распознавания образов, что делает последовательности понятными и делает возможным их практическое использование.

Модели распознавания образов

Существует три основных модели распознавания образов:

Как работает распознавание образов?

Хотя большая часть операции распознавания образов является информативной, под ней многое происходит.

В целом, есть две основные части алгоритмов распознавания образов:

Комбинация этих двух элементов используется для извлечения информации из данных, включая использование в аналитике больших данных. Анализ общих факторов и их взаимосвязи раскрывает детали в предмете, которые могут иметь решающее значение в его понимании.

Сам процесс выглядит так:

Применение технологии распознавания образов

1. Прогнозирование фондового рынка, исследование аудитории – аналитика данных.

Технология распознавания образов и аналитика данных взаимосвязаны до такой степени, что между ними существует путаница. Прекрасным примером этой проблемы является программное обеспечение для распознавания образов на фондовом рынке, которое на самом деле является аналитическим инструментом.

В контексте анализа данных распознавание образов используется для описания данных, демонстрации их отличительных особенностей (т. е. самих образов) и помещения их в более широкий контекст.

Давайте рассмотрим два основных варианта использования:

2. Генерация, анализ и перевод текста, чат-боты – обработка естественного языка.

Обработка естественного языка – это область машинного обучения, ориентированная на компьютеры для понимания человеческого языка и формирования сообщений. Хотя это звучит как научная фантастика, на самом деле это не имеет отношения к существу общения (то есть чтению между строк) – оно имеет дело только с тем, что прямо выражено в сообщении.

Обработка естественного языка разбивает текст на части, находит связи и затем строит их вариант.

Обработка естественного языка используется в таких областях как:

3. Классификация документов и проверка подписи – оптическое распознавание символов.

Оптическое распознавание символов (также известное как OCR) относится к анализу и последующему преобразованию изображений, рассматриваемых как буквенно-цифровой текст, в машинно-закодированный текст.

Наиболее распространенным источником оптических символов являются отсканированные документы или фотографии, но их также можно использовать на компьютерных немаркированных изображениях. В любом случае алгоритм OCR применяет библиотеку шаблонов и сравнивает их с доступным входным документом. Эти совпадения затем оцениваются с помощью вспомогательного языкового корпуса и, таким образом, выполняют само «распознавание».

В основе OCR лежит комбинация распознавания образов и сравнительных алгоритмов, прикрепленных к справочной базе данных.

Наиболее распространенное использование OCR включает в себя:


4. Визуальный поиск, распознавание лиц – распознавание изображений.

Распознавание изображений – это разновидность распознавания текста, предназначенная для понимания того, что на картинке. В отличие от OCR, распознавание изображений позволяет распознавать то, что изображено на входных изображениях во время обработки изображений. По сути, вместо «распознавания» «описывается» изображение, чтобы оно было доступно для поиска и сопоставимо с другими изображениями.

Основные алгоритмы работы по распознаванию изображений представляют собой комбинацию неконтролируемого и контролируемого алгоритма машинного обучения.

Первый контролируемый алгоритм используется для обучения модели на помеченных наборах данных, т.е. на примерах изображения объектов. Затем неконтролируемый алгоритм используется для изучения входного изображения. После этого контролируемый алгоритм запускает и классифицирует шаблоны как относящиеся к конкретной категории объекта.

Существует два основных варианта использования распознавания изображений:

5. Исследование аудитории, обслуживание клиентов – анализ настроений.

Анализ настроений – это подмножество распознавания образов, которое делает дополнительный шаг, чтобы определить его природу и значение. Другими словами, он пытается понять, что стоит за словами – настроение, мнение и, самое главное, намерение. Это один из наиболее сложных типов распознавания образов.

Анализ настроений для бизнес-решений может быть использован для изучения различных реакций взаимодействия с различными типами платформ. Для этого система использует неконтролируемое машинное обучение поверх базовой процедуры распознавания.

Предположения анализа настроений обычно основаны на надежных источниках, таких как словари, но могут также включать в себя более настраиваемые базы данных в зависимости от контекста операции.

Варианты использования для анализа настроений включают в себя:

Распознавание образов является ключом к дальнейшему развитию вычислительной техники. С его помощью аналитика больших данных может развиваться дальше, и мы все можем извлечь выгоду из алгоритмов машинного обучения, которые становятся все умнее.

Как вы можете видеть, распознавание образов может быть реализовано в любой отрасли, потому что там, где есть данные, есть сходство в данных. Поэтому целесообразно рассмотреть возможность внедрения этой технологии в ваши бизнес-операции, чтобы сделать их более эффективными.

Источник

История интерпретируемости в распознавании изображений

Что такое распознавание образов. Смотреть фото Что такое распознавание образов. Смотреть картинку Что такое распознавание образов. Картинка про Что такое распознавание образов. Фото Что такое распознавание образов

Распознавание изображений (т. е. классификация того, какой объект отображается на изображении) является основной задачей в области компьютерного зрения, так как она позволяет использовать различные последующие приложения (автоматическая маркировка фотографий, помощь слабовидящим людям и т. д.) и стала стандартной задачей, по которой можно проводить сравнение алгоритмов машинного обучения (ML). Алгоритмы глубокого изучения (DL) за последнее десятилетие стали наиболее конкурентоспособными алгоритмами распознавания образов. Однако по умолчанию это алгоритмы «чёрного ящика»: трудно объяснить, почему они делают конкретный прогноз. Почему это является проблемой? Пользователи моделей ML часто хотят иметь возможность интерпретировать, какие части изображения привели к прогнозу алгоритма, по многим причинам:

Leave-One-Out

Перед тем как углубиться в исследование, давайте начнём с самого основного алгоритма, который работает для любого типа классификации изображений: Leave-Оne-Оut (LOO).

Что такое распознавание образов. Смотреть фото Что такое распознавание образов. Смотреть картинку Что такое распознавание образов. Картинка про Что такое распознавание образов. Фото Что такое распознавание образов

LOO – это простой для понимания метод; это первый алгоритм, который может прийти в голову, если вы разрабатываете метод интерпретации с нуля. Идея заключается в том, чтобы сначала разделить входное изображение на несколько субрегионов меньше. Затем вы делаете серию прогнозов, каждый раз маскируя (т. е. устанавливая значения пикселей на ноль одного из субрегионов. Каждой области присваивается оценка важности, которая зависит от того, насколько сильно «замаскированность» области повлияла на прогноз по сравнению с исходным изображением. Интуитивно можно сказать, что эти баллы количественно определяют, какие регионы несут наибольшую ответственность за прогноз. Итак, если мы сегментируем изображение на 9 субрегионов в сетке 3×3, вот как будет выглядеть LOO:

Что такое распознавание образов. Смотреть фото Что такое распознавание образов. Смотреть картинку Что такое распознавание образов. Картинка про Что такое распознавание образов. Фото Что такое распознавание образов

Самые тёмные красные квадраты – это те, которые больше всего изменили выходной сигнал, а самые светлые имеют наименьший эффект. В этом случае, когда регион сверху по центру был замаскирован, уверенность в прогнозе упала больше всего – с первоначальных 95 до 67 %.

Если сегментировать лучше (например, используя супер-пиксели вместо сеток), то получим довольно разумную карту заметности, на которой подсвечены морда, уши и хвост добермана.

Что такое распознавание образов. Смотреть фото Что такое распознавание образов. Смотреть картинку Что такое распознавание образов. Картинка про Что такое распознавание образов. Фото Что такое распознавание образов

LOO – простой, но мощный метод. В зависимости от разрешения изображения и способа сегментации может быть получен очень точный и полезный результат. Здесь LOO применяется к изображению золотого ретривера разрешением 1100 × 825, как и прогнозировалось с помощью InceptionNet.

Что такое распознавание образов. Смотреть фото Что такое распознавание образов. Смотреть картинку Что такое распознавание образов. Картинка про Что такое распознавание образов. Фото Что такое распознавание образов

Одним из огромных преимуществ LOO является то, что методу не нужен доступ к внутреннему содержанию модели и он может работать даже над другими задачами компьютерного зрения, кроме распознавания, что делает его гибким многоцелевым инструментом.

Но каковы недостатки? Во-первых, метод медленный. Каждый раз, когда область маскируется, мы делаем вывод на изображение. Чтобы получить карту заметности с разумным разрешением, размер вашей маски должен быть небольшим. Таким образом, если сегментировать изображение на 100 областей, то для получения тепловой карты понадобится 100-кратное время вывода. С другой стороны, если у вас слишком много субрегионов, то маскировка любого из них не обязательно приведёт к большой разнице в прогнозе. Это второе ограничение LOO, которое заключается в том, что метод не учитывает взаимозависимости между областями.

Итак, давайте посмотрим на гораздо более быструю и немного более увлекательную технику: Vanilla Gradient Ascent.

Vanilla Gradient Ascent [2013]

Что такое распознавание образов. Смотреть фото Что такое распознавание образов. Смотреть картинку Что такое распознавание образов. Картинка про Что такое распознавание образов. Фото Что такое распознавание образов

Метод был представлен в работе Модели классификации визуализируемых изображений и карты заметности [2013]. Существует концептуальная связь между LOO и градиентным подъёмом. С помощью LOO мы рассмотрели, как изменялся вывод, когда мы маскировали каждую область на изображении, по очереди. При градиентном подъёме мы вычисляем, как на выходной сигнал влияет каждый отдельный пиксель, но не по очереди, а все сразу. Как это делается? С помощью модифицированной версии обратного распространения.

С помощью стандартного обратного распространения мы вычисляем градиент потери модели по отношению к весам. Градиент – это вектор, который содержит значение для каждого веса, отражающее, насколько небольшое изменение этого веса повлияет на вывод, по сути, говорящее о том, какие веса наиболее важны для потери. Принимая отрицательную величину этого градиента, мы минимизируем потери во время обучения. Для градиентного подъёма мы вместо этого берем градиент оценки класса относительно входных пикселей, который указывает, какие входные пиксели наиболее важны при классификации изображения. Этот единственный шаг по сети даёт нам значение важности для каждого пикселя, который мы отображаем в виде тепловой карты, как показано ниже.

Что такое распознавание образов. Смотреть фото Что такое распознавание образов. Смотреть картинку Что такое распознавание образов. Картинка про Что такое распознавание образов. Фото Что такое распознавание образов

Примеры карт заметности из работы Simonyan et al., рассчитанных с помощью одного прохода обратного распространения. Вот как это выглядит на нашем изображении добермана:

Что такое распознавание образов. Смотреть фото Что такое распознавание образов. Смотреть картинку Что такое распознавание образов. Картинка про Что такое распознавание образов. Фото Что такое распознавание образов

Главное преимущество здесь – скорость; поскольку нам нужно сделать только один проход по сети, градиентный подъём намного быстрее LOO, хотя полученная тепловая карта немного зернистая.

Что такое распознавание образов. Смотреть фото Что такое распознавание образов. Смотреть картинку Что такое распознавание образов. Картинка про Что такое распознавание образов. Фото Что такое распознавание образов

LOO (слева) по сравнению с Vanilla Gradient Ascent (справа) на изображении добермана. Здесь модель – InceptionNet.

Хотя градиентный подъём работает, было обнаружено, что эта первоначальная формулировка, vanilla gradient ascent, имеет существенный недостаток: распространяет отрицательные градиенты, которые в конечном счёте вызывают помехи и шумный вывод. Чтобы решить эти проблемы, был предложен новый метод – «направленное обратное распространение ошибки».

Направленное обратное распространение [2014]

Что такое распознавание образов. Смотреть фото Что такое распознавание образов. Смотреть картинку Что такое распознавание образов. Картинка про Что такое распознавание образов. Фото Что такое распознавание образов

Направленное обратное распространение было опубликовано в Striving for Simplicity: The All Convolutional Net [2014], где авторы предложили добавить дополнительный управляющий сигнал от более высоких уровней к обычному шагу обратного распространения. По сути, этот метод блокирует обратный поток градиентов от нейронов всякий раз, когда выходной сигнал отрицательный, оставляя только те градиенты, которые приводят к увеличению вывода, что в конечном счёте приводит к не столь шумной интерпретации.

Что такое распознавание образов. Смотреть фото Что такое распознавание образов. Смотреть картинку Что такое распознавание образов. Картинка про Что такое распознавание образов. Фото Что такое распознавание образов

На этом изображении мы показываем градиенты с обратным распространением (слева) для данного слоя, выходные данные которого показаны справа. В верхнем слое – обычные градиенты. В нижнем слое – управляемое обратное распространение, которое обнуляет градиенты всякий раз, когда результат отрицательный (рисунок взят из работы Springenberg et al).

Направленное обратное распространение работает примерно так же быстро, как Vanilla Gradient Ascent, поскольку требует только одного прохода по сети, но обычно даёт результат чище, особенно по краям объекта. Этот метод особенно хорошо работает по сравнению с другими методами в нейронных архитектурах, где нет слоёв c уменьшением размеров изображения путём сложения значений блоков пикселей.

Что такое распознавание образов. Смотреть фото Что такое распознавание образов. Смотреть картинку Что такое распознавание образов. Картинка про Что такое распознавание образов. Фото Что такое распознавание образов

Vanilla Gradient Ascent (слева) по сравнению с направленным обратным распространением (справа) на изображении добермана. Здесь модель – InceptionNet.

Однако было обнаружено, что всё ещё существует серьезная проблема с Vanilla Gradient Ascent и управляемым обратным распространением: они не работают так хорошо, когда в изображении присутствуют два или более классов, что часто бывает на естественных изображениях.

Grad-CAM [2016]

Что такое распознавание образов. Смотреть фото Что такое распознавание образов. Смотреть картинку Что такое распознавание образов. Картинка про Что такое распознавание образов. Фото Что такое распознавание образов

Grad-CAM, или Gradient-Weighted Class Activation Mapping, представили в Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization [2016]. Здесь авторы обнаружили, что качество интерпретаций улучшилось, когда градиенты брались на каждом фильтре последнего свёрточного слоя, а не на уровне класса (но всё же по отношению к входным пикселям). Чтобы получить интерпретацию, специфичную для класса, Grad-CAM вычисляет средневзвешенное значение этих градиентов с весом, основанным на вкладе фильтра в оценку класса. Результат, как показано ниже, намного лучше, чем у только управляемого обратного распространения.

Что такое распознавание образов. Смотреть фото Что такое распознавание образов. Смотреть картинку Что такое распознавание образов. Картинка про Что такое распознавание образов. Фото Что такое распознавание образов

Исходное изображение с двумя классами («Кошка» и «Собака») передаётся через направленное обратное распространение, но полученная тепловая карта выделяет оба класса. Как только Grad-CAM применяется в качестве фильтра, управляемый Grad-CAM создаёт тепловую карту с высокой разрешающей способностью – дискриминативную (рисунок взят из работы Selvaraju et al).

Далее авторы обобщили Grad-CAM для работы не только на целевой класс, но и на любую целевую «концепцию». Это означало, что Grad-CAM можно было использовать для интерпретации того, почему модель для подписывания изображений предсказала конкретную подпись, или даже для обработки моделей, которые принимают несколько входов, например модель визуального вопроса-ответа. Благодаря такой гибкости Grad-CAM стал довольно популярным. Ниже представлен обзор его архитектуры.

Что такое распознавание образов. Смотреть фото Что такое распознавание образов. Смотреть картинку Что такое распознавание образов. Картинка про Что такое распознавание образов. Фото Что такое распознавание образов

Обзор Grad-CAM: сначала мы продвигаем изображение вперёд. Градиенты устанавливаются на ноль для всех классов, кроме желаемого (тигровый кот), для которого установлено значение 1. Затем этот сигнал обратно распространяется на ректифицированные свёрточные карты признаков, представляющих интерес, которые мы комбинируем, чтобы вычислить грубую локализацию Grad-CAM (синяя тепловая карта), которая показывает, куда должна смотреть модель, чтобы принять конкретное решение. Наконец, мы точечно умножаем тепловую карту на направленное обратное распространение, чтобы получить визуализации направленного Grad-CAM как с высоким разрешением, так и специфичные для концепции (рисунок и описание взяты из работы Selvaraju et al).

SmoothGrad [2017]

Что такое распознавание образов. Смотреть фото Что такое распознавание образов. Смотреть картинку Что такое распознавание образов. Картинка про Что такое распознавание образов. Фото Что такое распознавание образов

Тем не менее вы могли заметить, что при использовании всех предыдущих методов результаты всё ещё не очень чёткие. SmoothGrad, представленный в SmoothGrad: removing noise by adding noise \ [2017] ], является модификацией предыдущих методов. Идея довольно проста: авторы заметили, что если входное изображение сначала возмущается шумом, то возможно вычислить градиенты один раз для каждой версии возмущённого ввода, а затем усреднить карты чувствительности вместе. Это приводит к гораздо более чёткому результату, хотя выполняется дольше.

Вот как направленное обратное распространение выглядит в сравнении с SmoothGrad:

Что такое распознавание образов. Смотреть фото Что такое распознавание образов. Смотреть картинку Что такое распознавание образов. Картинка про Что такое распознавание образов. Фото Что такое распознавание образов

Стандартное направленное обратное распространение (слева) и SmoothGrad (справа) на изображении добермана. Здесь модель – InceptionNet. Когда вы сталкиваетесь со всеми этими методами интерпретации, какой из них выбрать? Или, когда методы противоречат друг другу, существует ли один метод, который теоретически может быть лучше других? Давайте посмотрим на интегрированные градиенты.

Интегрированные градиенты [2017]

Что такое распознавание образов. Смотреть фото Что такое распознавание образов. Смотреть картинку Что такое распознавание образов. Картинка про Что такое распознавание образов. Фото Что такое распознавание образов

В отличие от предыдущих статей авторы Axiomatic Attribution for Deep Networks [2017] исходят из теоретической основы интерпретации. Они сосредоточены на двух аксиомах: чувствительности и инвариантности реализации, которым, по их мнению, должен удовлетворять хороший метод интерпретации.

Аксиома чувствительности означает, что, если два изображения отличаются ровно одним пикселем (но все остальные пиксели у них являются общими) и дают разные прогнозы, алгоритм интерпретации должен давать ненулевую атрибуцию этому пикселю. Аксиома инвариантности реализации означает, что основная реализация алгоритма не должна влиять на результат метода интерпретации. Учёные используют эти принципы для разработки нового метода атрибуции, называемого интегрированными градиентами (IG).

IG начинается с базового изображения (обычно это полностью затемнённая версия входного изображения) и увеличивает яркость до тех пор, пока исходное изображение не будет восстановлено. Градиенты оценок классов по отношению к входным пикселям вычисляются для каждого изображения и усредняются, чтобы получить глобальное значение важности для каждого пикселя. Помимо теоретических свойств IG, таким образом, также решает другую проблему с Vanilla Gradient Ascent: насыщенные градиенты (saturated gradient). Поскольку градиенты являются локальными, они отражают не глобальную важность пикселей, а только чувствительность в определённой точке ввода. Изменяя яркость изображения и вычисляя градиенты в разных точках, IG может получить более полную картину важности каждого пикселя.

Что такое распознавание образов. Смотреть фото Что такое распознавание образов. Смотреть картинку Что такое распознавание образов. Картинка про Что такое распознавание образов. Фото Что такое распознавание образов

Стандартное управляемое обратное распространение (слева) и интегрированные градиенты (справа) на изображении добермана, оба сглаженные с помощью SmoothGrad. Здесь модель – InceptionNet.

Хотя при этом обычно получаются более точные карты чувствительности, метод работает медленнее и вводит два новых дополнительных гиперпараметра: выбор базового изображения и количество шагов, через которые создаются интегрированные градиенты. Можем ли мы обойтись без этих параметров?

Размытые интегрированные градиенты [2020]

Что такое распознавание образов. Смотреть фото Что такое распознавание образов. Смотреть картинку Что такое распознавание образов. Картинка про Что такое распознавание образов. Фото Что такое распознавание образов

Это то, к чему стремится последний метод интерпретации – размытые интегрированные градиенты. Метод, представленный в работе Attribution in Scale and Space [2020], был предложен для решения конкретных проблем с интегрированными градиентами, включая устранение параметра ‘baseline’ и удаление некоторых визуальных артефактов, которые имеют тенденцию появляются в интерпретациях.

Метод размытых интегрированных градиентов работает, измеряя градиенты по серии всё более размытых версий исходного входного изображения (а не затемнённых версий изображения, как это делают интегрированные градиенты). Хотя это может показаться незначительной разницей, авторы утверждают, что такой подход теоретически более оправдан, поскольку размытие изображения не может внести новые артефакты в интерпретацию, как это может сделать выбор базового изображения.

Что такое распознавание образов. Смотреть фото Что такое распознавание образов. Смотреть картинку Что такое распознавание образов. Картинка про Что такое распознавание образов. Фото Что такое распознавание образов

Стандартные интегрированные градиенты (слева) и размытые интегрированные градиенты (справа) на изображении добермана, оба сглажены с помощью SmoothGrad. Здесь модель – InceptionNet.

Заключение

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *