артрегистратор

United Kingdom Creative Ideas Ltd. (UKCI) — международная компания со штаб-квартирой в Лондоне. Они регистраторы и владельцы доменной зоны .art — это их главный проект. Параллельно они развивают сервисы для художников и коллекционеров и делают искусство технологичным.

Разработали умную систему, которая узнает произведения искусства на фотографиях.

технология распознавания предметов искусства

UKCI обратились к нам, чтобы разработать технологию по оценке объектов искусства через смартфон. Идея такая: пользователь делает снимок картины — а программа понимает, кто ее автор и когда она написана.

Задача

Разработать алгоритм, который сопоставит картину с фотографии и ее оригинал из каталога музея The Metropolitan (он же The Met).
Оценить качество поиска по каталогу, найти основные проблемы и сформировать план по их решению.

Решение

Собрали данные. Для этого мы интегрировались с датасетом MetObjects. Это хранилище данных музея The Met, в котором описано примерно 470 000 объектов искусства.
Проанализировали их. Теперь наша система за 2 секунды выдает характеристику картины: ее автора, век и название.

Как всё устроено

ID картин, найденных этими способами, объединили. Всего так нашли около 25 000 объектов.

Тоже по ключевым словам, но в датасете MetObjects.

Через API музея The Met по ключевым словам: например, painting, landscape, portrait и др.

Система ищет картины
2 способами:

Мы опробовали несколько алгоритмов распознавания и сбора изображений. Первый из них — эмбедеры.

Эмбедер — это нейронная сеть. Такая модель обучается как классический классификатор. На этапе применения модели используется, обычно берется последний полносвязный слой для представления изображения в виде числового вектора длины n.

Казалось бы, можно просто извлечь категорию из текстового названия, но нет. Если в каталоге Ozon появятся новые категории, придётся обучать модель заново. Этот процесс дорогой и довольно хрупкий — в любой момент могут возникнуть ошибки по всему пространству данных и риск неверно классифицировать товары. Наш подход позволяет этого избежать

Деление товаров на категории и типы происходит на основе похожих объектов. С помощью машинного обучения мы находим группу товаров, наиболее близкую по характеристикам (или числовым значениям, если мыслить в терминах Ozon). К их категории подходит и наш товар

*Валидация фото картин без рамки

Мы протестировали классические архитектуры классификаторов на основе ResNet50 и MobileNet, а также архитектуры с использованием слоя ArcFace. Он позволяет на этапе обучения максимизировать расстояние между эмбедингами или векторами объектов разных классов.

SIFT и алгоритмы классического компьютерного зрения

Казалось бы, можно просто извлечь категорию из текстового названия, но нет. Если в каталоге Ozon появятся новые категории, придётся обучать модель заново. Этот процесс дорогой и довольно хрупкий — в любой момент могут возникнуть ошибки по всему пространству данных и риск неверно классифицировать товары. Наш подход позволяет этого избежать

Деление товаров на категории и типы происходит на основе похожих объектов. С помощью машинного обучения мы находим группу товаров, наиболее близкую по характеристикам (или числовым значениям, если мыслить в терминах Ozon). К их категории подходит и наш товар

Также в процессе обучения мы использовали различные форматы подаваемых на вход изображений (намеренное искажение изображений) для снижения риска переобучения модели под обучающую выборку.

Как только общие точки между двумя изображениями найдены, к ним можно применить специальные тесты, чтобы отфильтровать шумовые общие точки. По количеству найденных общих точек между двумя изображениями можно судить о том, насколько эти изображения похожи.

Матчинг выделенных детектором картин.

Расширение каталога.

Определение картин на фото.

Пайплайн

В качестве детектора была обучена модель CenterNet ResNet50.

Детекция картин на фото

Казалось бы, можно просто извлечь категорию из текстового названия, но нет. Если в каталоге Ozon появятся новые категории, придётся обучать модель заново. Этот процесс дорогой и довольно хрупкий — в любой момент могут возникнуть ошибки по всему пространству данных и риск неверно классифицировать товары. Наш подход позволяет этого избежать

Деление товаров на категории и типы происходит на основе похожих объектов. С помощью машинного обучения мы находим группу товаров, наиболее близкую по характеристикам (или числовым значениям, если мыслить в терминах Ozon). К их категории подходит и наш товар

Для обучения такого детектора собрали обучающую выборку. Она состоит из 367 фотографий музеев. Затем провели разметку картин и рисунков на этих фотографиях.

Тестирование

Здесь фотографировали картину по центру, но мы можем распознать и соседние. Поэтому мы научили детектор их выделять.

Казалось бы, можно просто извлечь категорию из текстового названия, но нет. Если в каталоге Ozon появятся новые категории, придётся обучать модель заново. Этот процесс дорогой и довольно хрупкий — в любой момент могут возникнуть ошибки по всему пространству данных и риск неверно классифицировать товары. Наш подход позволяет этого избежать

Деление товаров на категории и типы происходит на основе похожих объектов. С помощью машинного обучения мы находим группу товаров, наиболее близкую по характеристикам (или числовым значениям, если мыслить в терминах Ozon). К их категории подходит и наш товар

Детектор и пайплайн мы тестировали на выборках, на которых проверяли эмбедеры. Но возникла сложность: во время тестов на фотографиях была только одна картина. А в реальной жизни в кадр могут попасть и соседние. Чтобы убедиться, что детектор работает, мы решили научить его узнавать и их.

Когда детектор выделил все интересующие нас картины на фотографии, система ищет их в базе. Здесь возникает нюанс: мы используем расширенную валидацию, в которой кроме основных картин есть дополнительные, расположенные рядом с основными.

Но для большинства таких дополнительных картин у нас нет разметки на класс. Иными словам, в нашей базе нет картин, с которыми их можно сопоставить. Поэтому следующая задача — расширить каталог.

Сбор информации по выделенным детектором картин

Мы рассматриваем несколько способ расширения каталога. Наиболее простой из них — работа с датасетом Wikiart.

Изначально он состоял из 81 000 картин, разбитых по стилям. В названии изображение только имя художника и название картины.

Расширение каталога

Результаты

Алгоритм матчинга работает не только с фотографиями картинам, но и с фотографиями рисунков.

Выстроен рабочий пайплайн от детекции картин и рисунков на фотографиях до их матчинга.

Каталог вырос до 90 000 картин и рисунков, а пайплайн работает с глобальным поиском и показывает хорошие результаты.