Узнайте, как проекты ConsenSys, такие как Alethio и Rakr, используют ИИ для анализа децентрализованных данных.

Пол Линтилхак, количественный разработчик ConsenSys

Одной из основных областей исследования в области анализа данных в настоящее время является машинное обучение, форма ИИ, которая использует алгоритмы для изучения больших наборов данных. Его используют для всего, от секвенирования ДНК до изучения финансовых рынков и интерфейсов мозг-машина. Есть много разных видов машинного обучения с разными требованиями к данным и целями. В прошлом году ConsenSys предприняла попытку развить свои аналитические и информационные возможности с помощью таких проектов, как Alethio, аналитическая платформа, помогающая пользователям визуализировать, интерпретировать и реагировать на данные блокчейна в режиме реального времени.

Неизменяемые общедоступные записи и децентрализованный характер сетей блокчейнов создают захватывающую «песочницу» для специалистов по данным, предлагая совершенно новый мир данных для анализа и распознавания закономерностей. Чтобы начать понимать, как мы извлекаем смысл из этой, казалось бы, хаотической среды данных, мы начнем с описания двух основных категорий машинного обучения, которые разрабатываются специалистами по данным в Consensys, и приведем несколько примеров того, как каждую из них можно применить. на практике.

Контролируемое и неконтролируемое обучение

Обучение без учителя включает в себя поиск закономерностей в больших наборах данных и их использование для извлечения смысла. Модели обучения без учителя по своей природе не являются прогностическими, хотя они могут сыграть роль в более крупной системе прогнозного моделирования. Скорее, обучение без учителя направлено на сокращение большого и сложного набора данных до более простых высокоуровневых шаблонов или тем. Эти темы можно затем использовать в качестве справочника для характеристики отдельных точек данных и поместить их в полезный контекст.

Системы обнаружения аномалий и новизны являются примерами моделей обучения без учителя. Сокращая большой набор данных до небольшого числа общих тем, можно узнать, что означает, что конкретная транзакция или точка счета являются «нормальными». Сравнивая любую данную транзакцию или учетную запись с этим изученным определением нормы, мы можем определить степень их аномальности по сравнению с глобальным средним значением (обнаружение аномалии) или с недавним историческим средним значением (обнаружение новизны). Затем эти системы обнаружения аномалий можно использовать для оповещения пользователей о том, происходит ли что-нибудь необычное во всей цепочке блоков или в пределах определенного подмножества интересных учетных записей или транзакций. В настоящее время Alethio предлагает систему обнаружения аномалий для транзакций, блоков и учетных записей.

Другие виды анализа, предлагаемые Alethio, которые можно считать неконтролируемым обучением, включая алгоритмы ранжирования, или анализ влияния, например ранжирование страницы. Хотя их обычно не называют алгоритмами машинного обучения (скорее, просто алгоритмами), они служат той же цели - нахождению общих закономерностей в наборе данных и их использовании для добавления контекста.

Обучение с учителем стремится взять набор наблюдений с известными характеристиками и использует их для оценки соответствующего значения некоторой другой переменной (отклика или метки) для каждого наблюдения. Это можно разделить на две общие категории: прогнозирование и классификация. Попытка использовать исторические данные для оценки будущего значения переменной (отклика) известна как прогноз. Попытка использовать существующие данные об объекте, чтобы определить, принадлежит ли этот объект к определенной категории (присвоение «метки»), называется классификацией.

Вообще говоря, «известные данные» в цепочке блоков состоят из необработанных данных уровня протокола, которые доступны в цепочке, например данных транзакций. Эти необработанные данные могут использоваться для извлечения таких характеристик учетных записей, как их общий баланс, средняя частота транзакций, средний срок хранения валюты и т. Д. Недавние усилия Alethio по расширению данных на уровне протокола с помощью семантического подъема расширили набор «известных» »За пределами уровня протокола, чтобы включить данные уровня приложения, например, является ли контракт токеном и какому стандарту он соответствует. Все эти известные величины можно использовать в качестве основы для функций модели контролируемого обучения.

С другой стороны, неизвестная величина (метка или ответ) по определению не является частью имеющихся в настоящее время данных в цепочке; в противном случае он был бы уже известен и захвачен нашими конвейерами данных. Неизвестная величина может быть будущей стоимостью некоторых данных в цепочке, таких как баланс счета на некоторую дату в будущем. Чаще всего неизвестная величина - это какое-то значение, которое вообще никогда не доступно в сети. Если вы пытаетесь предсказать, принадлежит ли учетная запись к какой-либо категории, например к децентрализованной бирже, учетной записи DOS или схеме Понци, вам нужно будет искать эти данные вне сети.

Важность наборов данных

Именно здесь требования к данным для неконтролируемого обучения в блокчейне становятся важной проблемой (читайте: возможность!). Чтобы обучить и откалибровать модель контролируемого обучения, должен быть некоторый большой начальный набор данных, для которого известно значение меток или ответов. Это калибрует модель так, чтобы прогнозируемая и фактическая реакция была как можно ближе. Это означает, что при поступлении нового наблюдения, ответ которого неизвестен, прогноз будет близок к истинному значению, если предположить, что новое наблюдение создается аналогичным процессом, который сгенерировал исходный набор данных. После завершения фазы обучения и калибровки модели ее можно применить к новым наблюдениям, ответ на которые неизвестен.

В случае прогнозирования цен это означает наличие большой базы данных исторических цен. В случае классификации учетных записей это означает наличие начального набора учетных записей, которые уже помечены как децентрализованная биржа, учетная запись DOS или Ponzi.

В этих примерах классификации метки в наборе данных, используемых для обучения, часто становятся доступными только после значительных усилий. Одной из возможностей может быть получение данных с таких веб-сайтов, как coinmarketcap или etherscan, создание ETL для импорта интересных данных из других предприятий, занимающихся блокчейнами, или с помощью кропотливых усилий обученных помощников-исследователей, которые собирают данные об учетных записях в сети, просматривая веб-страницы и анализируя исходный код. .

Осознание важности сбора внешних данных об учетных записях (метаданных) для целей машинного обучения послужило мотивацией для создания нового докладчика в ConsenSys под названием Rakr. Благодаря сотрудничеству с Alethio и другими узлами и сервисами в рамках сети, Rakr надеется предоставить платформу для сбора и обмена этими ценными метаданными. Хотя последствия интеграции метаданных блокчейна с необработанными данными в цепочке выходят далеко за рамки машинного обучения, применимость этих метаданных для контролируемого машинного обучения по-прежнему будет основным вариантом использования платформы Rakr. Объединив мощную аналитическую платформу Alethio с ценными метаданными, предоставляемыми Rakr, применение науки о данных в ConsenSys будет ограничено только воображением.

На практике

Первым примером модели контролируемого обучения, созданной в ConsenSys, была модель Понци, разработанная Алетио, которая будет описана более подробно в продолжении этой статьи. Разработка этой модели закладывает основу для многих будущих возможностей аналитики для Alethio. Алетио надеется в ближайшем будущем расширить эту модель до более общей модели мошенничества.

В более общем плане конвейеры извлечения функций, построенные в ходе этой разработки модели, могут быть повторно использованы для классификации любой учетной записи в соответствии с одной из меток в базе данных Rakr, включая то, является ли учетная запись / контракт обменом, художественным DAO, казино, DOS. -связанный аккаунт и многое другое. По мере того, как набор интересных метаданных, предоставляемых Rakr, продолжает расти, станут возможными новые модели. И по мере роста аналитических возможностей Alethio и создания большего количества полезных функций эти модели станут более мощными и универсальными.

Возможность узнать, является ли данная учетная запись мошенничеством или связана с DOS-атакой, имеет решающее значение для управления финансовыми и сетевыми рисками в сети Ethereum. Если мы хотим создать модели, дающие практическую информацию о новых учетных записях и самых последних поведенческих данных, они должны удовлетворять особым требованиям. Например, мы должны убедиться, что они обновляются в режиме реального времени, и что функции, используемые для классификации и прогнозирования, надежны и полны на момент запуска модели. Это означает, что определенные функции, которые могут использоваться для классификации «старых» учетных записей, например, «самоуничтожение контракта в конечном итоге», не могут быть применены к учетным записям в режиме реального времени. Поскольку значение функции может измениться в будущем, ее истинное значение на самом деле неизвестно на момент запуска модели.

Модели машинного обучения в реальном времени представляют собой уникальные проблемы и возможности, которые выходят за рамки методов исторического моделирования. С учетом сказанного, возможность классифицировать счета как мошеннические выходит за рамки управления рисками в реальном времени; классификационные модели все еще могут быть ценными, даже если они применяются «в прошлом». Возможность точно классифицировать исторические мошенничества полезна для исследовательских целей, даже если эти учетные записи больше не активны. В более общем плане, прикрепление тегов к учетным записям в цепочке блоков позволяет пользователям определять семантически интересные подмножества учетных записей в цепочке блоков (например, «ICO» или «биржи»), делая блокчейн доступным для поиска на основе критериев, которые волнуют людей.

Создание базы данных эмпирических человеческих знаний о сетевых объектах уже является ценной и сложной задачей, а также необходимой основой для многих других продуктов и услуг. Но с более чем 30000000 учетных записей и контрактов Ethereum на сегодняшний день и примерно 100000 новых учетных записей, создаваемых каждый день, для людей просто невозможно пометить всю историю учетных записей Ethereum, большинство из которых не имеют полезной информации (например, источник контракта, веб-сайт, или любую другую идентифицирующую информацию), которая может быть использована людьми для их классификации или маркировки. Вот почему модели машинного обучения имеют решающее значение: потому что они бесконечно масштабируемы и могут использоваться для классификации учетных записей, используя только необработанные данные, характеризующие их поведение в цепочке.

Расширяя человеческие знания о блокчейне с помощью мощной аналитики и машинного обучения, мы представляем себе блокчейн, в котором каждая учетная запись и объект обогащены полезными классификациями и свойствами, будь то эмпирические и созданные людьми или предсказанные и созданные с помощью статистических моделей. Это станет важным шагом вперед на пути к прозрачности и доступности знаний о блокчейне, которые являются важными аспектами, необходимыми для процветания технологии блокчейн.

Следите за следующей статьей Пола Линтилхака, в которой будет рассказано об одной из последних инициатив Алетио в области науки о данных: модели Понци.

Заявление об ограничении ответственности: мнения, выраженные выше автором, не обязательно отражают точку зрения Consensys AG. ConsenSys - это децентрализованное сообщество, в котором ConsenSys Media является платформой, на которой участники могут свободно выражать свои разнообразные идеи и точки зрения. Чтобы узнать больше о ConsenSys и Ethereum, посетите наш веб-сайт.