В
Яндекс.Картинках сегодня заработали визуальные запросы - введя url картинки или загрузив изображение с компьютера, можно найти похожие изображения.
Алгоритм для поиска дублей в Яндекс.Картинках работал давно - но не позволял пользователям делать "картиночные" запросы, а использовался для группировки результатов поиска (чтобы страница выдачи не была заполнена копиями одного изображения). Выпущенный сегодня сервис - ставит целью уже не поиск дублей, а распознавание объектов на картинках - чтобы в ответ на запрос пользователь получил не только информацию о размещении изображения в сети (хотя такая возможность тоже остается), а дополнительную информацию об изображенном на картинке объекте.
Аналогичные сервисы уже есть у мировых поисковых гигантов Google, Baidu. В свое время (в 1999 году) их опередил канадский TinEye (далее исправлено - eshelon), ориентированный на поиск копий (в том числе модифицированных) и копиями ограничивающийся.
Мы провели небольшой сравнительный тест - на примере пресловутого "дизайнерского стула", который сервисы визуального поиска обещать помочь найти и купить:
Google "распознал" объект и автоматически добавил в запрос имя дизайнера. Сайты, содержащие копию/аналог изображения - в отдельной секции выдачи:
Яндекс (как и TinEye с Baidu) по аналогичному запросу показывает просто "такие же картинки":
С локальным запросом (на картинке - одежда питерских дизайнеров) Яндекс справился лучше:
Google отсылает к "народному" сервису распознавания/поиска товаров вручную - Wheretoget.it (отдельного внимания здесь заслуживает секция visually similar images):
На этих примерах видно, как визуальное "распознавание" основывается вовсе не на визуальном сопоставлении, а гораздо больше зависит от наличия и богатства метаинформации вокруг картинки: источник, текст, пользовательские тэги и т.д.. Накопившаяся к сегодняшнему дню база знаний позволяет искать "такие же картинки", возможно, отвечать на общие вопросы "что это"и "откуда" - но пока не позволяет сделать работающий на лету сервис, вроде Google Goggles (сам Goggles - тоже пока не смог, а "Яндекс", кстати,
планирует выход "Сибири" - так называется технология визуального поиска - в виде мобильного сервиса). Про возможность распознать Ниагарский водопад на снимке "какого-то водопада" - Яндекс на данный момент всё-таки сильно
преувеличивает (то есть, с любительским, а не каталожным снимком, это не срабатывает).
У визуального сопоставления, однако, даже в нынешнем виде есть коммерческий потенциал. Так, российский стартап Kuznech.com (сам поисковик работает в закрытой бете) уже
продает магазинам функционал с содержанием "показать покупателю другие розовые туфли на каблуках в этом магазине вместо модели, отсутствующей на складе". Еще один стартап, о котором
недавно писал eshelon - приложение для "визуального шопинга" Goodwin, мечтает от сканирования QR-кодов мобильником (с отсылкой в интернет-магазин) перейти к "сканированию" собственно желаемых объектов. Прототип визуально-распознающего-продающего сервиса есть и у Mail.Ru - это
приложение TagBrand.
Комментарии
Если не обслуживать файлы sitemap для изображений, то картинок не добавится.
У Яндекса космические технологии на марше, а разбор текстового файла по идеологическим соображениям который год в загоне.
Да я бы сказал, поиск Яндекса вообще работает хуже, чем wesee.com или google.com . Даже непонятно, чем там в "Сибири" занимались столько времени, если учесть, что уже упомянутые компании имеют такой поиск более 1.5 лет, а Tineye еще дольше (правда, он и похож с Яндексом). А еще можно вспомнить был такой поиск picollator , так я это вообще еще в 2007 году видел.
Яндекс бы лучше купил кого-нибудь, как это все крутые пацаны делают, чем мучиться самим. Мир уже далеко ушел за это время.
Блин, с такими тенденциями возникает желание сделать свой поисковик в нише прямого поиска.
Выпилить по чисто технологическим соображениям могли, это весьма специфическая ветка ранжирования, которую поддерживать надо
специфическая ветка ранжирования, которую поддерживать надо
Скорее отчаялись исправить очевидные ляпы в датировке контента.
специфическая ветка ранжирования, которую поддерживать надо
Миша, я, как ты понимаешь, слегка в курсе, как оно устроено :-)
Отмазки "поддерживать тяжело" я от тебя бы принял, у вас понятно - ресурсов не так много. А вот от Яндекса слышать такое было бы странно.
Кстати, для себя подумайте - для новостных и, особенно, юридических запросов эта штука в каком-то виде маст хэв.
> Скорее отчаялись исправить очевидные ляпы в датировке контента.
Звучит как хорошая формулировка задачи. Да, с датировкой все интересно, про дату из текста не совсем верно, есть и несколько других путей.
---
Но в общем - мне вот интересно - вот есть две фичи. Запущенная и выпиленная. Какой больше пользовались/пользуются?
Путей может и несколько существуют, но используется-то один? Какое-то время назад я знал как гарантированно подсунуть гуглу нужную дату. при этом дата могла быть и в прошлом, и в будущем. А когда гугл пытается дату с каких-то случайных страничек получать, то получается почти случайная дата. типа вот есть на странице пост, а рядом выведен еще список постов с датами, присутствуют и другие даты, типа копирайта. и в сниппете дата не совпадает с датой поста, а совпадает хрен знает с чем. и какой в ней смысл?