Наоборот проще вывод из базы под апи подогнать чем писать парсер. Я понимаю что вопрос о сопоставлении товаров может стоять, но есть же штрихкоды, другие уникальные идентификаторы.
Ну вот спешу вас разочаровать, но интернет-магазины вообще не владеют информацией о штрихкодах, EAN и прочих уникальных идентификаторах. Они получают информацию от оптовых дистрибьюторов, а те в свою очередь присылают им эксельки, в которых есть напечатанное глупой девочкой название и собственный уникальный артикул поставщика, который отличается от артикула другого поставщика с тем же самым товаром. И самое забавное, что так не только в России.
У нас есть инфраструктурный B2B проект, на рынке электронной коммерции в России он вполне известен, им пользуются более 200 магазинов как раз для мэтчинга товаров от поставщиков. Его же алгоритмы используются в мэтчинге Ahoolee.
А есть еще забавный момент, например, Яндекс.Маркет, казалось бы, сделал свой формат yml и сказал: присылайте нам вот так вот и будет вам счастье. Но забыл добавить, что, например, название товара должно 100% совпадать с тем, как оно названо уже на самом Яндекс.Маркете. Иначе есть шанс, что товар магазина не попадет в карточку товара, а будет болтаться где-то в базе и даже в поиске хрен найдешь его.
Поверьте мы с 2007 года делали свои интернет-магазины и работали со всеми маркетплейсами, с 2012 помогаем магазинам с мэтчингом, а с 2015 занимаемся маркетплейсами. Это только снаружи рынок такой простой, белый и пушистый, на деле тот же Маркет монополист не потому, что никто не может сделать нормальный маркетплейс, а потому что там данные настолько говно-качества, что работать с ними не так просто, как кажется на первый взгляд.
Да, забыл сказать: до гугла тоже считалось, что нужно каталогизировать и категоризировать данные и в идеале, чтобы их выгружали с проверенных источников Так что насчет того, что поисковики - это регресс по сравнению с маркетплейсами, я бы не был так уверен.