Прогресс конвейера машинного обучения и новые показатели успеха

Эта статья представляет собой обновленную информацию для сообщества Gitcoin о результатах работы рабочей группы GitcoinDAO по обнаружению и защите от мошенничества (FDD) и результатах конвейера машинного обучения Anti-Fraud в рамках 12-го раунда Gitcoin.

Фон

Экосистема Gitcoin продолжает быстро расти в своей программе квадратичного финансирования для общественных благ Ethereum, более чем в три раза увеличив свое финансирование с 965 тысяч долларов в 11-м раунде в конце сентября до 3,3 миллиона долларов в 12-м раунде в декабре. По мере увеличения финансирования привлечение потенциальных злоумышленников Сибиллы становится все более прибыльным. Рабочая группа Gitcoin DAO Fraud Detection & Defense должна продолжать оставаться гибкой, повторяя и интегрируя выводы из каждого раунда при анализе данных из конвейера машинного обучения и отзывов от людей-оценщиков.

Основываясь на работе Раунда 11, команда BlockScience применила новую тактику обработки данных и продолжила обучение алгоритма машинного обучения, чтобы отмечать возможных злоумышленников Сивиллы, одновременно учась у людей-оценщиков. В ходе 12-го раунда мы продолжили работу над документацией и обучение с командой Gitcoin DAO Development Operations, чтобы позволить DAO взять на себя управление конвейером машинного обучения. BlockScience вместе с рабочей группой FDD и управляющими Gitcoin также рассмотрели ключевые показатели, чтобы продолжать улучшать анализ результатов, чтобы предоставить наилучшую информацию для информирования о разработке политики Gitcoin DAO.

Что нового в этом раунде

В этом раунде команда BlockScience сосредоточила большую часть своих усилий на улучшении кодовой базы и обновлении документации, чтобы обеспечить зрелую и стабильную среду для увеличения числа сотрудников и увеличения пропускной способности данных из-за продолжающегося роста раундов Gitcoin и инцидентов Sybil.

Конвейер Anti-Sybil Operationalized Process (ASOP) существует полностью в облачной инфраструктуре с отслеживаемым происхождением данных на каждом этапе для пользователей с контролируемым доступом. Несколько исследователей BlockScience представили текущую архитектуру микросервисов FDD на хакатоне GR12, более подробную информацию о котором вы можете посмотреть здесь.

Еще одним значительным изменением в этом раунде стал отказ от налога на мошенничество в качестве основного показателя рабочего потока FDD. Этот показатель использовался для оценки суммы соответствующих средств, которые пошли на мошеннические взносы, которые в противном случае пошли бы на законные гранты. В предыдущих раундах это было выплачено Gitcoin Holdings за свой счет, в интересах обеспечения того, чтобы законные гранты не были обесценены мошенничеством, которое произошло вне их контроля. Однако при дальнейшем обсуждении в сообществе было отмечено, что уплата налога на мошенничество, по сути, субсидировала мошенническое сопоставление с помощью атак Sybil. Поэтому в GR11 стюарды Gitcoin проголосовали за то, чтобы не платить налог на мошенничество.

Вместо налога на мошенничество в раунде 12 мы определили новый показатель для оценки раундов — Оценка эффективности пометки. Эта метрика оценивает процентную эффективность всего процесса ASOP при обнаружении учетных записей Sybil, чтобы определить, насколько точно эти комбинированные процессы могут идентифицировать ложных пользователей. Далее мы рассмотрим результаты GR12 в свете этих новых показателей.

Результаты 12-го раунда

В этом последнем раунде (1–16 декабря) мы оценили больше данных, чем когда-либо прежде, проанализировав информацию почти от 29 000 пользователей платформы Gitcoin. Наше главное оружие в арсенале защиты от мошенничества — алгоритм машинного обучения — «настраивается» BlockScience при участии специальной команды распорядителей Gitcoin и проверяется оценщиками. В предыдущих раундах мы исследовали различные уровни агрессивности — настраивая между чувствительностью и специфичностью, чтобы найти баланс между идентификацией потенциальной Сивиллы и ложными срабатываниями.

В 12-м раунде мы не вносили никаких изменений в этот параметр и сохранили уровень агрессивности на уровне 30 процентов. Часть нормализации настройки и процессов позволила уделить больше внимания части конвейера, связанной с оценкой человеком, передачей этих данных обратно в алгоритм и установлением этих параметров в качестве отправной точки для передачи операций конвейера машинного обучения команде Gitcoin DAO Dev Ops.

В целом процесс обнаружения Сивиллы, включая человеческие оценки, прогнозы машинного обучения и эвристические флаги, отметил 8 100 учетных записей участников как потенциальных Сивилл из 28 987 от общего числа участников (27,9%). Это значительное увеличение количества экземпляров Sybil в GR 12, представляющее собой увеличение от 2 до 5 раз по сравнению с GR11.

Если мы будем рассматривать оценки высокой достоверности подмножества человеческих оценок как репрезентативные для Истинной Сивиллы, Оценка эффективности пометки для GR 12 оценивает, что конвейер ASOP помечает около 140% пользователей как потенциальные аккаунты Сивиллы по сравнению с оценкой и пометкой только человеком. Это можно интерпретировать несколькими способами:

1. Комбинация алгоритмов человеческого и машинного обучения лучше обнаруживает аккаунты Сивиллы, чем только людей.

Это не было бы слишком удивительным результатом — преимущества ИИ-кентавров (то есть команд людей и ИИ), которые работают лучше, чем команды, состоящие исключительно из людей или алгоритмов, можно увидеть в различных областях, от шахмат до медицинской визуализации. . Возможно, алгоритмы машинного обучения способны делать более тонкие прогнозы на основе больших объемов данных, чем их человеческие аналоги. Или…

2. Наш алгоритм пометки слишком агрессивен.

Параметр агрессивности всегда открыт для настройки, но в данном случае мы не считаем это необходимым. Из-за того, что мы сбрасываем все человеческие флаги, но больше всего уверены в оценке Истинной Сибиллы, 140% эффективность пометки все еще находится в допустимом диапазоне. Если бы вместо этого мы включили все человеческие флаги, мы ожидали бы увидеть более низкую эффективность пометки.

Чтобы сравнить различные методы пометки, используемые в конвейере обнаружения Sybil, на приведенной ниже диаграмме показано относительное распределение оценок Sybil, присвоенных каждому оцениваемому пользователю, по различным формам процессов оценки в ASOP. Это сравнивает Y% пользователей, предсказанных/оцененных как X%, которые, вероятно, будут учетными записями Sybil, для каждого из прогнозирования алгоритма ML, человеческой оценки и эвристических флагов.

Размышления и дорога вперед

Мы прошли долгий путь с момента первого призыва к защите Сивиллы полтора года назад. Мы делаем огромные успехи в понимании того, как выглядит отпечаток атаки Sybil, и в нашей способности предпринимать соответствующие действия для обнаружения и предотвращения враждебного поведения в масштабах Gitcoin Grants для защиты целостности системы.

Благодаря вкладу десятков специалистов по данным, распорядителей, участников и поддержке сообщества разработчиков токенов мы продолжаем исследовать и улучшать операционный процесс Anti-Sybil и показатели успеха.

В будущем мы продолжим анализировать данные и оказывать поддержку в подготовке команды Gitcoin DAO DevOps к работе с конвейером машинного обучения. Чтобы быть в курсе событий и участвовать в работе FDD, присоединяйтесь к обсуждению в канале Anti-Fraud-Sybil в Discord или следите за работой на форуме: gov.gitcoin.co.

Подать заявку на участие в качестве участника GitcoinDAO

Статья Джеффа Эммета, Джессики Зартлер и Данило Лессы Бернардинели при поддержке Чарльза М. Райса.

BlockScience ® — инженерная, научно-исследовательская и аналитическая компания, специализирующаяся на сложных системах. Наша цель — разработать и создать системы принятия решений на основе данных для новых и старых предприятий с использованием инженерных методологий и инструментов академического уровня.

Благодаря нашему глубокому опыту в области блокчейна, разработки токенов, искусственного интеллекта/науки о данных и исследования операций мы можем предоставлять количественные консультации компаниям, использующим технологии. Наша работа включает предварительную разработку и оценку моделей экономического бизнеса и экосистемы на основе моделирования и анализа. Мы также обеспечиваем мониторинг и обслуживание после запуска с помощью инструментов отчетности, аналитики и поддержки принятия решений.