Наборы данных с открытым исходным кодом для машинного обучения

Машинное обучение, форма искусственного интеллекта, учит компьютерные системы учиться и совершенствоваться на основе прошлого опыта. Задачи автоматизированы так же, как их выполняли бы люди, поскольку машинное обучение выявляет шаблоны и правила из собранных данных. Машинное обучение позволяет компаниям трансформировать свой бизнес, используя такие услуги для клиентов, как предложения, реклама и другие задачи, которые ранее выполнялись вручную. Варианты использования могут быть распространены на несколько отраслей и уровней детализации. Текущие усилия сосредоточены на сложных и критических задачах, таких как автономное вождение, обнаружение заболеваний и прогнозирование стихийных бедствий.

Алгоритмы машинного обучения хороши ровно настолько, насколько хороши обучающие наборы — наборы данных являются неотъемлемой частью качества прогнозирования. Довольно сложно найти конкретные наборы данных для экспериментов и решения задач машинного обучения. Бюджет не позволяет выбрать наиболее подходящий набор данных, либо требуемые наборы данных могут вообще отсутствовать. Существуют различные открытые наборы данных, которые помогут вам сосредоточиться на создании модели прогнозирования, а не на сборе и маркировке основания данных.

Данные из открытых источников

Данные из открытых источников важны, поскольку мир полагается на данные и содержащуюся в них информацию. Будь то данные для анализа бизнеса, управления машинами или инициатив по продажам — мы живем в цифровую эпоху бизнес-моделей, основанных на данных. Данные из открытых источников — это данные, находящиеся в открытом доступе и открытые для повторного использования и обмена. Различные инициативы правительств и организаций предоставляют данные в качестве основы для развития текущего статус-кво. В целом, открытые данные помогут миру преобразовать процессы и системы, созданные нашим поколением.

Машинное обучение использует алгоритмы для улучшения с течением времени, тем не менее, показателем его качества являются данные, используемые для создания и внедрения этих моделей. Следующие четыре типа данных в основном используются для машинного обучения:

Числовые данные: любая форма количественных и измеримых данных, таких как скорость или рост. К числовым данным относятся дискретные и непрерывные числа, позволяющие проводить над числами математические операции.
Категорические данные. Этот тип определяется категориями ярлыков, такими как пол и отрасль. Категориальные данные не являются числовыми, и поэтому математические операции не могут быть выполнены напрямую.
Данные временных рядов. Данные временных рядов индексируются в определенные моменты времени в соответствии с определенными временными интервалами. Данные можно сравнивать на основе метрик, основанных на времени. Отличие от числовых данных заключается в их привязке ко времени с начальной и конечной точками данных.
Текстовые данные. Текстовые данные включают слова и предложения, которые можно группировать и анализировать с помощью таких подходов, как подсчет слов или анализ настроений.

Наборы данных с открытым исходным кодом

Алгоритмы машинного обучения обычно требуют несколько наборов данных для удовлетворения требований операционной модели с учетом различных показателей. Следовательно, наборы данных для обучения и тестирования используются для обеспечения точности модели. Последующие наборы данных используются для проверки и корректировки алгоритма машинного обучения. Набор общедоступных наборов данных уже был определен как широко используемый для алгоритмов машинного обучения из-за количества загрузок. В следующем списке классифицированы различные варианты использования машинного обучения и известные примеры наборов данных, которые можно применять для каждой категории:

Компьютерное зрение: набор данных Google Open Images (Ссылка)
Обработка естественного языка: набор данных обзора Rotten Tomatoes (Ссылка)
Анализ настроений: набор данных обзора IMDB (Ссылка)
Автономное вождение: открытый набор данных Waymo (Ссылка)
Системы рекомендаций: набор данных MovieLens Review (Ссылка)

Если известные наборы данных с открытым исходным кодом не соответствуют требованиям вашего проекта, вы можете найти подходящие наборы данных с помощью платформ поиска наборов данных, как описано ниже.

Открытый набор данных Waymo

Общедоступный открытый набор данных Waymo (Ссылка) представляет собой набор данных датчиков, собранных беспилотными автомобилями Waymo. Коллекция представляет собой один из самых больших и разнообразных наборов данных для обучения моделей машинного обучения автономному вождению. Он содержит данные о городских и пригородных ландшафтах США с разным освещением и погодными условиями. Текущий набор данных насчитывает 1950 сегментов, каждый из которых содержит 20-секундные записи данных датчиков, что позволяет исследователям прогнозировать поведение автомобилей и других участников дорожного движения. Данные собираются с пяти лидаров и пяти стационарных фронтальных и боковых камер.

Набор со сжатыми 2 ТБ данных, разбитых на файлы макс. 25 ГБ содержат помеченные данные для обучения, помеченные для проверки и немаркированные тестовые данные. Набор обучающих данных включает 12,6 млн 3D-боксов для кадров лидара с метками для транспортных средств, пешеходов, велосипедистов и дорожных знаков. Более того, предусмотрено 11,8 млн 2d-боксов для всех кадров камер с метками для транспортных средств, пешеходов и велосипедистов. Метки лидара и камеры были созданы независимо и не являются проекциями друг друга. На следующем изображении показан пример кадра лидара с одним 3D-боксом идентифицированного автомобиля (Ссылка). В левом нижнем углу изображения предусмотрена соответствующая рамка камеры.

Благодаря открытому подходу Waymo активно участвует в общественных исследованиях машинного обучения для автономного вождения.

Платформы наборов данных с открытым исходным кодом

Найти определенные наборы данных может быть сложно, а в некоторых случаях даже известные наборы данных не подходят для области применения. В следующих списках показан набор платформ, которые предоставляют функции поиска для поиска подходящих наборов данных для определенных целей:

Система поиска наборов данных Google (Ссылка): поисковая система индексирует наборы данных машинного обучения, доступные во всемирной сети.
Открытые наборы данных Amazon (Ссылка): реестр данных Amazon предлагает 200 наборов открытых данных, которые поддерживаются третьими сторонами и хранятся в хранилище AWS.
Открытые данные Microsoft Research (Ссылка): этот репозиторий данных содержит несколько доступных наборов данных, в основном в области естественных наук.
Kaggle Datasets (Ссылка): хранилище наборов данных — это открытая платформа с более чем 66 000 загруженных наборов данных для различных доменов.
Наборы данных DATA.GOV (Ссылка): DATA.GOV — это уникальные данные, содержащие более 200 000 наборов данных, предоставленных правительством США.

Платформы наборов данных различаются по размеру, охватываемым вариантам использования, сложности и качеству. Следует рассмотреть несколько из упомянутых платформ для поиска подходящих наборов данных.

Платформа данных Kaggle

Kaggle, дочерняя компания Google, представляет собой онлайн-платформу, которая позволяет публично делиться наборами данных для машинного обучения и анализа данных. Целевыми группами являются специалисты по данным, предприятия и организации из разных отраслей, которые заинтересованы в публикации наборов данных и построении моделей машинного обучения в сотрудничестве с другими исследователями. Данные могут быть загружены в различных форматах, таких как разметка или типы файлов базы данных. В качестве ядра платформа предлагает облачную среду для обработки данных и обмена блокнотами машинного обучения. Благодаря широкому сообществу исследователей данных Kaggle позволяет обмениваться знаниями, проводя открытые обсуждения и участвуя в проблемах данных.

Заключение и заключительные мысли

Машинное обучение в значительной степени зависит от данных для обучения, тестирования и постоянной проверки. Наличие подходящих данных важно для качества моделей прогнозирования, а также для усилий по созданию исходной модели. Несколько известных наборов данных используются для создания таких моделей прогнозирования без необходимости сбора и маркировки данных. Если известные наборы данных не подходят, широкие репозитории наборов данных e. г. DATA.GOV, поисковые системы наборов данных, такие как Google Dataset, или платформы наборов данных, такие как Kaggle, могут помочь.

Будущее машинного обучения — это открытое сообщество предприятий, компаний и учреждений, которые обмениваются не только данными, но и знаниями и совместно работают над задачами машинного обучения. Kaggle, например, уже предоставляет платформу для обмена данными, а также для их вычисления и обмена знаниями с другими экспертами.

Дальнейшие чтения

Стоит рассмотреть следующие материалы для лучшего понимания бизнес-моделей, управляемых данными.

Бизнес-модели цифровой эпохи (Ссылка):
Не пропустите эту статью о том, как цифровая трансформация и цифровые аборигены меняют бизнес. С внедрением новых технологий и поведения клиентов компании демонстрируют множество новых моделей бизнес-моделей, которые сталкиваются с характеристиками цифровой эпохи.

Бизнес-модели, основанные на данных, для цифровой экономики (Ссылка):
В этой книге показано, что быстрорастущие компании больше полагаются не на физические активы, а на цифровые продукты, которые предлагаются публично. в продаже. Данные — это сердце цифровых бизнес-моделей, и новые способы извлечения этих данных — это стратегическое решение на конкурентных рынках.