Что делает хороший набор данных?

В мире много данных. Самое сложное — это понять. Что можно сделать, чтобы превратить набор данных из просто существующего в ценный ресурс?

Хорошее место для начала — рассмотрение принципов данных FAIR.

Данные должны быть доступными, доступными, совместимыми и повторно используемыми. Данные, включающие принципы данных FAIR, будут иметь гораздо большее влияние на научное сообщество. Давайте продвигать науку вместе с FAIR!

Все это звучит великолепно, но как именно вы можете сделать данные ЧЕСТНЫМИ? У нас есть несколько советов, которые помогут вам начать.

Опишите везде, где только можно

Метаданные имеют значение. Если вы отправляете свои данные на платформу и там есть предлагаемые метаданные, используйте их! Это отличный способ предоставить информацию, которую вы, возможно, и не подумали включить самостоятельно. Пользователи часто стимулируют включение определенных полей, поэтому вы можете сделать свой набор данных более полезным и доступным для обнаружения, используя поля, которые имеют проверенный опыт улучшения наборов данных.

Описательное название

Давайте пройдем мимо final_FINAL_forRealThisTime_v5. Это ничего не говорит мне о вашем наборе данных, за исключением того, что вам было трудно экспортировать правильную версию. Держите заголовок кратким и информативным. Помните, что люди, просматривающие ваш набор данных, не имеют всего того контекста, который есть у вас.

Описательные ключи

Вы когда-нибудь смотрели на набор данных и не могли понять, что происходит? Давайте избежим этого с вашим набором данных. Лучший способ сделать это — использовать ключи и метки, понятные не только вам, но и другим людям. Существуют ли в вашем домене стандартные ярлыки? Используй их! Опять же, подумайте о людях, у которых нет всего контекста, который есть у вас. Помогите им, чтобы ваши данные могли быть полезны всем.

Описание и документация

Общее описание вашего набора данных чрезвычайно полезно. Это может быть включено в README или любую доступную документацию. Если кто-то не участвовал в сборе данных, он не будет знаком с вашим процессом и, следовательно, не будет знать все входы и выходы набора данных (т.е. ту умную стенографию, которую вы придумали, или какую единицу измерения вы использовал). Подумайте о включении:

Когда и как были собраны данные
Размер набора данных
Любая обработка, которую вы сделали с данными
Поля данных и подробное описание каждого поля
Пояснения к любым аббревиатурам и аббревиатурам
Имена авторов, учреждения и контактная информация

Думайте о других пользователях

Перенесите свой набор данных туда, где его сможет использовать кто-то кроме вас. Поставьте себя на их место: если бы вы увидели этот набор данных впервые, как бы вы, скорее всего, его использовали? Подготовьте данные таким образом, чтобы это было возможно.

Очистить данные

Используете ли вы какой-либо этап предварительной обработки перед тем, как использовать данные самостоятельно? Удаление повторяющихся значений, удаление неполных записей, преобразование значений в одну и ту же единицу измерения и т. д. Подумайте, будет ли эта предварительная обработка полезна для других и сделает ли набор данных более удобным для использования.

Структурируйте данные

Если применимо, добавление структуры к вашему набору данных может быть невероятно полезным. Если вы добавляете структуру к своим данным, чтобы использовать их, рассмотрите возможность сохранения этой структуры при обмене данными с другими.

Контрольный список подготовки данных

В Центре данных о материалах мы увидели, что делает набор данных высококачественным и ЧЕСТНЫМ, а что нет. Вот контрольный список, который более кратко суммирует вышеперечисленные пункты и исходит из наших стандартов набора данных. Мы обнаружили, что эти стандарты существенно влияют на удобство использования и интерпретируемость.

Наши стандарты набора данных в Центре данных по материалам

Предоставьте файл README и описание. В нем должно быть описано содержимое набора данных, расположение каталогов, схемы именования файлов, размер набора данных и ссылки на любые связанные публикации, коды и т. д.
Опишите происхождение данных. Включите в описание информацию о том, кто, что, где, когда, как и почему данные были собраны.
Подробное качество данных: документируйте методы сбора данных, процедуры проверки и любые известные предубеждения или ограничения, чтобы обеспечить контекст и поддержку пользователей.
Используйте открытые форматы файлов. По возможности данные следует передавать в форматах, которые открыты и читаемы распространенными программными пакетами.
Предоставьте примеры. По возможности включите примеры того, как загружать, анализировать и отображать данные. Эти примеры могут быть включены в репозиторий или связаны, например, с репозиторием GitHub.
Подробная информация о конфиденциальности данных и этических соображениях. Устраните любые проблемы с конфиденциальностью или этические соображения, связанные с набором данных, и обеспечьте соблюдение соответствующих правил.
Добавить информацию о лицензии. Укажите лицензию, по которой распространяется набор данных, подробно описав все ограничения или требования к использованию.

Ваш набор данных подготовлен и готов к миру! Как теперь поделиться?

Поздравляем с подготовкой и документированием набора данных. Это тяжелая работа! Время выбрать платформу, чтобы поделиться своей работой.

Найдите платформу, которая имеет смысл для обмена и доступа в вашем сообществе. Не уверен, где начать? Не волнуйтесь, у нас есть несколько, которые мы рекомендуем.

Глобус

Для удобного обмена данными с другими Глобус — отличный вариант. Все, что вам нужно сделать, это настроить конечную точку на вашем личном ноутбуке (или любом другом компьютере, на котором хранятся данные) и передать данные на другую конечную точку через Globus. Это требует, чтобы человек, с которым вы делитесь данными, настроил свою собственную конечную точку, где он хотел бы, чтобы данные были в реальном времени.

Обязательно:

Для публикации данных: Аккаунт Globus (бесплатно)
Для использования данных: Аккаунт Globus (бесплатно)

Центр данных по материалам (МДФ)

Если вы хотите сделать свои данные более доступными для обнаружения, рассмотрите возможность использования Средства данных о материалах (MDF). MDF использует Globus для передачи данных, но не требует, чтобы люди, использующие данные, создавали свои собственные конечные точки. Каждый набор данных в MDF можно найти на странице поиска, что позволяет вашим данным охватить больше людей. Наборы данных также получают свою собственную уникальную страницу на веб-сайте, что позволяет легко делиться ими с другими, просто делясь ссылкой.

Обязательно:

Для публикации данных: Аккаунт Globus (бесплатно)
Использовать данные: Ничего

Литейный завод-МЛ

Ваши данные структурированы и готовы к программному использованию? Похоже на Литейный-МЛ!

Foundry-ML создан на основе MDF, поэтому наборы данных Foundry-ML обладают теми же преимуществами, что и MDF (появляются в поиске MDF и на собственной странице веб-сайта), а также имеют еще больше специальных возможностей. Наборы данных Foundry-ML можно загружать непосредственно в DataFrame с помощью Python SDK. Они также получают более подробную страницу на веб-сайте Foundry-ML с пошаговыми инструкциями по использованию.

Обязательно:

Для публикации данных: Аккаунт Globus (бесплатно)
Использовать данные: Ничего

САМЫЕ СПРАВЕДЛИВЫЕ данные из всех

Создание хорошего набора данных заключается в следовании принципам данных FAIR: описание и документирование; сделать данные пригодными для использования другими; и размещение на платформах, которые делают данные доступными. Используйте эти советы с вашими данными и дайте нам знать, как это происходит!

Благодарности

Центр данных о материалах создан с помощью Глобуса.

CHiMaD Фаза I: Эта работа была выполнена в рамках финансовой помощи 70NANB14H012 от Министерства торговли США, Национального института стандартов и технологий в рамках Центра иерархического проектирования материалов (CHiMaD).

CHiMaD Этап II: Эта работа была выполнена в рамках следующей финансовой помощи 70NANB19H005 от Министерства торговли США, Национального института стандартов и технологий в рамках Центра иерархического проектирования материалов (CHiMaD).

Foundry-MLпостроен с Глобусом и Средством данных о материалах.

Эта работа была поддержана Национальным научным фондом в соответствии с номером премии NSF: 1931306 Совместные исследования: структура: инновационная инфраструктура материалов для машинного обучения и в рамках следующей премии финансовой помощи 70NANB19H005 от Министерства торговли США, Национальный институт стандартов и технологий. »в составе Центра иерархического дизайна материалов (ЧиМаД).

Что делает хороший набор данных?

Опишите везде, где только можно

Описательное название

Описательные ключи

Описание и документация

Думайте о других пользователях

Очистить данные

Структурируйте данные

Контрольный список подготовки данных

Наши стандарты набора данных в Центре данных по материалам

Ваш набор данных подготовлен и готов к миру! Как теперь поделиться?

Глобус

Центр данных по материалам (МДФ)

Литейный завод-МЛ

САМЫЕ СПРАВЕДЛИВЫЕ данные из всех

Благодарности

Вопросы по теме