Типы, преимущества и где их найти

СОДЕРЖАНИЕ

  1. Введение
  2. Что такое открытые данные?
  3. Открытые, бесплатные и онлайн-данные
  4. Где найти открытые данные?
  • Международные организации
  • Соединенные Штаты
  • Европа
  • Латинская Америка
  • Азия
  • Другие источники открытых данных (Google Public Data Explorer, Kaggle, FiveThirtyEight, UCI Machine Learning Repository и т. Д. )

5. Выводы

Вступление

Data Science может внести большой вклад в построение мира, в котором мы хотим жить. И уже существует множество примеров использования, которые демонстрируют, как его можно использовать для решения реальных проблем.

Некоторые примеры таких случаев также можно найти в моей предыдущей статье на эту тему:



Однако для этого нам нужны данные, которые находятся в свободном доступе для повторного использования и структурированы в удобном формате. В этой статье я рассмотрю некоторые из наиболее известных и важных порталов, которые можно использовать в этом отношении.

Что такое открытые данные?

Открытые данные относятся к данным, которые находятся в свободном доступе без ограничений со стороны авторских прав, патентов или других механизмов контроля. (Данные ЮНИСЕФ)

В этом контексте недостаточно просто публично публиковать данные в бумажных отчетах. Чтобы данные считались полностью открытыми, они должны соответствовать определенным принципам, которые максимизируют их полезность:

  • быть структурированным с использованием международно признанных классификаций (ISO-3166 для стран);
  • использовать сторонние форматы файлов (например, JSON или CSV);
  • быть доступным через стандартные интерфейсы связи (такие как SDMX-JSON);
  • и иметь соответствующие метаданные, описывающие его.

Открытые данные являются частью более широкого набора движений, который включает также программное обеспечение с открытым исходным кодом, открытые образовательные ресурсы, открытый доступ, открытую науку, открытое правительство и другие.

Все чаще и чаще определенные типы данных начинают считаться "общественным благом", которые, когда они становятся доступными для использования, повторного использования и бесплатного распространения, могут привести к лучшему выработка политики, принятие более обоснованных решений, создание стоимости и услуги, ориентированные на граждан. Так появились философия и набор политик Открытых правительственных данных.

Открытое правительство - это доктрина, согласно которой граждане должны иметь доступ к правительственным документам и данным для эффективного общественного контроля. Делая правительственные данные открытыми, государственные учреждения демонстрируют прозрачность и подотчетность перед гражданами, которых они обслуживают.

Один удивительный пример, с которым я столкнулся, - это Сеул, Южная Корея, где открытые данные стали нормой и используются для решения реальных проблем, с которыми сталкиваются город и его жители. В Сеуле не только государственные учреждения используют данные, которые они собирают, но также любой бизнес, некоммерческая организация или обычные граждане могут получить к ним доступ, если они хотят опираться на них или просто проверять их в целях подотчетности.

Одна из целей мэрии - предоставить гражданам открытые данные, чтобы они могли их использовать и опираться на них. Тем самым он внес свой вклад в создание новой отрасли, в которой многие стартапы используют предоставленные данные для разработки инновационных решений некоторых проблем, с которыми сталкивается город.

Дополнительную информацию о примере из Южной Кореи и других подобных стран смотрите в видео ниже от The Economist:

Открытые, бесплатные и онлайн-данные

Открытые данные - это данные без ограничений. Бесплатные данные - это данные, которые доступны бесплатно. Обычно открытые данные также предоставляются бесплатно. Но когда дело доходит до онлайн-данных, не все из них можно использовать бесплатно или без ограничений. Во многих случаях он защищен авторским правом, поскольку является собственностью его создателей, и для этого требуется разрешение или оплата.

Даже когда данные не защищены авторским правом, все не совсем ясно. И мы можем подумать здесь о данных об удалении веб-страниц из LinkedIn. В 2019 году Апелляционный суд США отказал LinkedIn в просьбе запретить аналитической компании HiQ очистить свои данные. Тем не менее, LinkedIn не ценит тех, кто пытается очистить данные с его платформы, и предостерегает от этого в некоторых статьях.

Где найти открытые данные?

Теперь перейдем к сути этой статьи: где можно найти открытые данные; будь то правительственные или другие типы. Ниже я рассмотрел источники данных, предоставленные международными организациями, источники, относящиеся к определенным регионам (США, Европа, Латинская Америка, Азия), и другие типы источников, имеющих глобальное значение.

Международные организации

Открытые данные Всемирного банка



Через этот портал Всемирный банк предоставляет бесплатный и открытый доступ к большой палитре данных о развитии в странах по всему миру. И это происходит из-за их веры в то, что, предоставляя более широкий доступ к своим данным, они повышают прозрачность и подотчетность, а также помогают политикам принимать более обоснованные решения.

Пользователи могут перемещаться по 4593 наборам данных либо по странам и регионам, либо по показателям, сгруппированным по различным секторам (сельское хозяйство, образование, пол, инфраструктура, окружающая среда, городское развитие и т. Д.).

Что еще более ценно в их поисковом портале, так это то, что он предоставляет доступ к таким типам данных, как временные ряды, микроданные (полученные из выборочных обследований, переписей и административных систем) и геопространственные данные.

Более того, если вы хотите получить лучшее представление о типе информации, которую можно извлечь из их наборов данных, взгляните на их 191 визуализацию, охватывающую такие темы, как нет. людей, не имеющих доступа к электричеству, рост глобальных выбросов CO2, истощение ресурсов, доступ к улучшенным источникам воды и т. д.

Данные ОЭСР



Портал данных ОЭСР предоставляет доступ к 875 базам данных, в которых можно выполнять поиск по интересующей стране или теме (сельское хозяйство, развитие, экономика, образование, энергетика, окружающая среда, финансы, правительство, здравоохранение, инновации и технологии, рабочие места, общество).

Одним из преимуществ портала является то, что он также предоставляет данные, зарегистрированные за определенный период, иногда еще с 1959 года. Одним из недостатков является то, что он охватывает в основном данные, относящиеся к странам, входящим в ОЭСР. Например, Румыния не входит в его состав.

А если вы еще не хотите загружать наборы данных, а просто исследуете то, что у них есть в наличии, вы можете делать свои собственные запросы к большим базам данных в их хранилище данных OECD.Stat.

Данные ООН



Портал данных Организации Объединенных Наций был создан в результате убеждения в том, что статистику следует рассматривать как общественное благо, которое может служить для политики, основанной на фактах, и для принятия более обоснованных решений.

Портал призван обеспечить бесплатный доступ к более чем 60 миллионам точек данных, организованных в 32 больших базах данных, составленных ООН, так же как и другими международными агентствами в единой точке входа. Примеры исходных организаций: Продовольственная и сельскохозяйственная организация, Всемирная организация здравоохранения, Всемирный банк, ОЭСР, Международный валютный фонд и т. Д.

Поисковая система позволяет пользователям искать информацию на основе более крупных наборов данных, источников данных или тем. Каждый такой элемент имеет раскрывающееся меню, которое, на мой взгляд, обеспечивает удобную навигацию для пользователя.

Кроме того, данные ООН обеспечивают доступ к трем специализированным базам данных СОООН, таким как UNComtrade, Ежемесячный статистический бюллетень в Интернете и хорошо известные показатели Целей устойчивого развития, через отдельные индивидуальные порталы. UN Comtrade - это хранилище официальной статистики международной торговли, соответствующих аналитических таблиц и публикаций. MBS Online предоставляет доступ к экономической и социальной статистике по более чем 200 странам и территориям мира. И он содержит 55 таблиц с более чем 100 показателями по самым разным предметам, записанным за 80 лет.

Глобальная база данных ООН по ЦУР предлагает доступ к 460 рядам данных, которые иллюстрируют достигнутый прогресс в достижении Целей устойчивого развития. Поиск на портале может быть отфильтрован по целям и их конкретным задачам и показателям, а также по географическим регионам (поскольку он также включает профили стран) и годам (с 2000 по 2019 год).

Некоторые другие функции, предоставляемые порталом данных ООН, включают доступ к популярным статистическим таблицам, составляемым в рамках Статистического ежегодника ООН, и статистическим профилям стран (областей) и регионов.

ДАННЫЕ ЮНИСЕФ



Открытые данные - ДАННЫЕ ЮНИСЕФ
« Открытые данные
относятся к данным, которые находятся в свободном доступе без ограничений со стороны авторских прав, патентов или других механизмов… data.unicef.org »



Портал UNICEF DATA предназначен для тех, кто желает работать с данными конкретно о детях и женщинах. Их Хранилище данных включает наборы данных по таким темам, как детская смертность, детская бедность, защита и развитие детей, образование, пол, здоровье матери, ребенка и новорожденного, миграция, питание, переход к работе и другие. . И, опять же, данные можно фильтровать по странам.

Хранилище данных GHO - Всемирная организация здравоохранения



Что касается данных, ВОЗ имеет широкий охват, поскольку она работает с 194 государствами-членами из шести регионов. А через Глобальную обсерваторию здравоохранения ВОЗ предоставляет доступ к более чем 1000 показателей, которые она отслеживает, по которым можно перемещаться по темам в рамках ЦУР, связанных со здоровьем и целевыми показателями, связанными со здоровьем, по категориям или по странам. Вот некоторые примеры типов данных, которые он предоставляет: дорожно-транспортный травматизм, неинфекционные заболевания и психическое здоровье, смертность от загрязнения окружающей среды, борьба против табака, чистые города, Health Equity Monitor и т. Д.

Соединенные Штаты

DATA.GOV



Портал открытых данных правительства США помогает пользователям ориентироваться в более чем 225 079 наборах данных от различных правительственных агентств, которые могут использоваться вместе с инструментами и другими ресурсами, предоставляемыми для проведения исследований, разработки веб-и мобильных приложений, визуализации данных и прочего.

Одним из преимуществ его использования является то, что он позволяет фильтровать данные по местоположению (на карте), темам, формату, типам данных (геопространственные или не геопространственные), организациям, типам организаций, бюро и издателям.

Одним из недостатков портала является то, что, хотя у большинства наборов данных есть действительные метаданные, некоторые из них все еще не имеют рабочих URL-адресов, разрешающих загрузку.

Бюро переписи населения США



Бюро переписи населения США отвечает за сбор данных об американском народе и экономике, поскольку его основная задача - проводить переписи населения США каждые десять лет. Собранные данные затем используются политиками на всех уровнях - федеральном, государственном или местном.

Некоторые примеры инструментов, к которым он предоставляет доступ: American Fact Finder, Census Data Explorer и Quick Facts, которые позволяют пользователям искать и визуализировать данные в соответствии с их интересами.

Европа

Портал открытых данных ЕС



Портал открытых данных ЕС предоставляет бесплатный доступ к данным по широкому кругу вопросов, таких как: образование, окружающая среда, экономика и финансы, сельское хозяйство, лесное хозяйство, продукты питания, здравоохранение, правительство и государственный сектор, юстиция, энергетика, наука и технологии, транспорт. и т. д. 15 561 набор данных (на сегодняшний день) поступает из всех институтов, органов и агентств ЕС (например, Евростат, статистическое управление ЕС, Центр совместных исследований, Европейский инвестиционный банк, Генеральное управление Европейской комиссии, Окружающая среда Агентство и др.).

Большинство данных, представленных на портале, можно повторно использовать бесплатно как в некоммерческих, так и в коммерческих целях при условии указания источника. И только небольшое количество наборов данных имеет особые условия повторного использования в результате необходимости защиты прав интеллектуальной собственности третьих лиц.

В качестве бонуса портал также предоставляет доступ к каталогу визуализации, который включает коллекцию визуальных инструментов, учебных материалов [семинаров и веб-семинаров по визуализации данных которые включают работу с такими инструментами, как D3.js, Qlik Sense, Webtools Maps, PowerBI) и повторно используемыми визуализациями.

Европейский портал данных



Этот портал управляется Отделом публикаций Европейского союза и собирает метаданные информации государственного сектора, доступные на порталах общедоступных данных в европейских странах. На сегодняшний день он охватывает 36 стран, 81 каталог и 1 089 978 наборов данных, в которых можно выполнять поиск по категориям, аналогичным тем, которые используются на портале открытых данных ЕС.

Кроме того, он также включает информацию о предоставлении данных и преимуществах повторного использования данных.

Веб-сайты открытых правительственных данных из всех стран-членов ЕС

Плюс Великобритания, которая больше не является частью ЕС:



Азия

Библиотека данных АБР



Азиатский банк развития (АБР) был основан в 1966 году и насчитывает 68 членов, 49 из которых находятся в Азиатско-Тихоокеанском регионе. Его библиотека данных имеет довольно интуитивно понятную систему поиска, с помощью которой можно просматривать по теме или стране. Репозиторий содержит (на сегодняшний день ) 234 набора данных, 45 информационных панелей и 10 историй данных. Среди затронутых тем: финансовый сектор, бедность, люди, управление государственным сектором, экономика и другие.

Еще один интересный продукт АБР, о котором я узнал во время недавней конференции Банка по оценке, - это EVA, система искусственного интеллекта, которая сканирует оценочные и другие типы документов, чтобы извлечь уроки из операций АБР, разработанных в страны-члены.

Портал открытых правительственных данных Южной Кореи



Южная Корея - очень хороший пример передовой практики, когда дело касается открытых данных. Однако их веб-сайт предназначен только для носителей языка.

Латинская Америка

Цифры для развития



Numbers for Development - это портал открытых данных Межамериканского банка развития, который демонстрирует социально-экономические показатели для региона Латинской Америки и Карибского бассейна. И он основан на семи источниках данных: Agrimonitor (отслеживает сельскохозяйственную политику), INTrade (торговля в регионе), Latin Macro Watch (макроэкономика, социальные вопросы, торговля, потоки капитала, рынки и управление), Public Management, Social Pulse (живой условия), SIMS (рынки труда), Sociometro (социально-экономические условия). Процесс поиска можно отфильтровать либо по стране, либо по показателю.

Ниже я добавил интересную статью о том, как большие и открытые данные ранее использовались для социальных целей в странах Латинской Америки:



Порталы открытых данных из стран Латинской Америки

Другие источники открытых данных

Google Public Data Explorer



Google Public Data Explorer отчасти является поисковой системой, которая облегчает доступ к наборам данных, предоставленным международными организациями (как описано ранее в этой статье), национальными статистическими управлениями, НПО и исследовательскими учреждениями. Кроме того, команда, стоящая за ним, хотела дать больше своим пользователям, и поэтому их цель - упростить изучение, визуализацию и передачу больших массивов данных, представляющих общественный интерес, даже для нетехнической аудитории.

Помимо Google Public Data Explorer, существует также механизм Google Dataset Search, который позволяет пользователям находить наборы данных, хранящиеся в Интернете, с помощью простого поиска по ключевым словам. При его использовании можно применять фильтры, связанные с форматом загрузки, правами использования, темами или в соответствии с последним обновлением. Одним из критериев, используемых источником для ранжирования своих наборов данных в результатах поиска, является количество научных статей, процитировавших набор данных.

Пять тридцать восемь



FiveThirtyEight - это всеобъемлющий источник высококачественных данных из области журналистики. Охватываемые темы включают: политику, спорт, науку и здоровье, экономику и культуру.

Kaggle



Среди открытых источников данных Kaggle может быть наиболее известным специалистам по обработке данных благодаря сообществу, которое он построил вокруг него.

Kaggle поддерживает множество форматов публикации для наборов данных, но также поощряет издателей своих наборов данных делиться своими данными в доступном и непатентованном формате, где это возможно. Среди поддерживаемых типов файлов: CSV, JSON и SQLite.

Одним из больших преимуществ Kaggle для тех, кто плохо знаком с Data Science, является то, что он поддерживает обучение, создавая сообщества вокруг каждого набора данных, в которых каждый заинтересованный пользователь может внести свой вклад, решая задачи, связанные с этим набором данных, отправляя свои результаты и участвуя в обсуждениях. получать и оставлять отзывы.

DBpedia



DBpedia была создана на основе наиболее часто используемых информационных ящиков в Википедии, и ее онтология в настоящее время содержит 4 233 000 экземпляров, из которых, например, 1 450 000 - это люди, а 241 000 - организации. Его данные ранее использовались такими компаниями, как Apple, Google и IBM, для некоторых из их самых важных проектов в области искусственного интеллекта.

Репозиторий машинного обучения UCI

Репозиторий машинного обучения UC Irvine содержит 557 наборов данных, которые можно использовать для эмпирического анализа алгоритмов машинного обучения. Он был создан в 1987 году и использовался студентами, преподавателями и исследователями в качестве основного источника для наборов данных машинного обучения. Среди тем, охватываемых их новейшими загруженными наборами данных, являются: сеть больших страниц и страниц Facebook, земноводные, прогнозирование риска диабета на ранних стадиях, биткойны и другие. И топ-5 самых популярных наборов данных с 2007 года относятся к: классам ириса, прогнозированию того, превышает ли доход 50 тысяч долларов в год на основе данных переписи, с использованием химического анализа для определения происхождения вин, диагностики рака груди, наличия сердечных заболеваний у пациентов. .

Выводы

Просматривая вышеупомянутые порталы, я был поражен обилием доступной информации, а также дополнительными инструментами, которые некоторые из них предлагают для публичного использования. Данные действительно могут быть красивыми.

По мере того как объемы данных, которые становятся доступными в мире, становятся все больше и больше, я считаю, что у нас все больше шансов использовать их для более высоких целей и в помощи в формировании лучшего мира.

Спасибо за чтение. Надеюсь, содержание было полезным. И если вы считаете, что есть другие источники открытых данных, которые стоит добавить, но которые не были включены, укажите их в комментариях.