Замечали ли вы, что на Amazon (или, если на то пошло, Alibaba) излишек некачественной, поддельной или поддельной продукции, которая, похоже, продается безымянными или небрендовыми компаниями? В недавнем сегменте NPR я услышал о том, что это стало серьезной проблемой в секторе электронной розничной торговли/электронной коммерции, поскольку многие мошеннические продавцы базируются в Китае — молодые, разбогатевшие в одиночку быстрые надежды, которые либо перепродают товары, либо заказывают местное производство с ограниченным бюджетом, чтобы продавать с относительно высокой прибылью. Хотя эта закулисная схема скрыта и управляется небольшими командами, она превосходит американские товары и стала популярной бизнес-моделью и основной рыночной тенденцией. Подробнее об этом можно прочитать в недавних статьях Forbes или Business Insider:





Итак, как мы можем сказать, какие продукты отрывочны? Мы можем, по большей части, сказать, кажется ли что-то сомнительным, если оно (а) не имеет торговой марки или от какой-то безымянной компании И (б) имеет много анонимных обзоров, пронизанных сверхобщими прилагательными.

К счастью, решение возникает из общедоступных данных: Amazonмиллионов отзывов о товарах и продавцах. Вы заметили, что многие из этих сомнительных продуктов имеют высокие оценки? Хотя многие из нас склонны доверять продукту с оценкой 4,7, нам также необходимо оценить распространение отзывов. Как насчет 2 тысяч отзывов с 5 звездами из 2,5 тысяч? Это послужило бы сигналом опасности для безымянного бренда. Должно быть автоматизированное решение для просмотра данных и оценки (1) распределения рейтинга (близко ли оно к нормальному, перекошено и т. д.) для данного продукта, (2) распределения рейтинга для продавца, (3) ключевого слова в обзорах (для продукта и продавца) и (4) общее настроение отзывов.

Введите: Fakespot.

Поскольку данные Amazon общедоступны, люди разработали инструменты для их анализа. К счастью, Fakespot, бесплатный веб-инструмент, который использует (прискорбно, но понятно) проприетарную модель машинного обучения или логистической регрессии, чтобы делать именно это. Понятно, что он должен использовать большое подмножество отзывов в качестве обучающего набора (для новичков: способ научить модель хорошим и плохим отзывам) и использует буквенные оценки в качестве своих классификационных «корзин». Скорее всего, он смотрит на распространение обзоров, проводит анализ тональности используемых слов (отраслевые пакеты с открытым исходным кодом существуют даже от таких компаний, как IBM), обобщаемость прилагательных и т. д. затем удобно выскакивает буквенная оценка для продавца и продукта, чтобы мы могли оценить наш уровень комфорта при покупке.

Я должен поблагодарить своего друга и коллегу по лаборатории Хантера за то, что он показал мне это. Я использую это каждый раз, когда совершаю покупки на Amazon (покупая только товары с оценкой B или выше), и настоятельно рекомендую вам делать то же самое! Наслаждайтесь~