Мы протестировали классические архитектуры классификаторов на основе ResNet50 и MobileNet, а также архитектуры с использованием слоя ArcFace. Он позволяет на этапе обучения максимизировать расстояние между эмбедингами или векторами объектов разных классов.
SIFT и алгоритмы классического компьютерного зрения
Казалось бы, можно просто извлечь категорию из текстового названия, но нет. Если в каталоге Ozon появятся новые категории, придётся обучать модель заново. Этот процесс дорогой и довольно хрупкий — в любой момент могут возникнуть ошибки по всему пространству данных и риск неверно классифицировать товары. Наш подход позволяет этого избежать
Деление товаров на категории и типы происходит на основе похожих объектов. С помощью машинного обучения мы находим группу товаров, наиболее близкую по характеристикам (или числовым значениям, если мыслить в терминах Ozon). К их категории подходит и наш товар
Также в процессе обучения мы использовали различные форматы подаваемых на вход изображений (намеренное искажение изображений) для снижения риска переобучения модели под обучающую выборку.
Как только общие точки между двумя изображениями найдены, к ним можно применить специальные тесты, чтобы отфильтровать шумовые общие точки. По количеству найденных общих точек между двумя изображениями можно судить о том, насколько эти изображения похожи.