В мире много данных. Самое сложное — это понять. Что можно сделать, чтобы превратить набор данных из просто существующего в ценный ресурс?
Хорошее место для начала — рассмотрение принципов данных FAIR.
Данные должны быть доступными, доступными, совместимыми и повторно используемыми. Данные, включающие принципы данных FAIR, будут иметь гораздо большее влияние на научное сообщество. Давайте продвигать науку вместе с FAIR!
Все это звучит великолепно, но как именно вы можете сделать данные ЧЕСТНЫМИ? У нас есть несколько советов, которые помогут вам начать.
Опишите везде, где только можно
Метаданные имеют значение. Если вы отправляете свои данные на платформу и там есть предлагаемые метаданные, используйте их! Это отличный способ предоставить информацию, которую вы, возможно, и не подумали включить самостоятельно. Пользователи часто стимулируют включение определенных полей, поэтому вы можете сделать свой набор данных более полезным и доступным для обнаружения, используя поля, которые имеют проверенный опыт улучшения наборов данных.
Описательное название
Давайте пройдем мимо final_FINAL_forRealThisTime_v5
. Это ничего не говорит мне о вашем наборе данных, за исключением того, что вам было трудно экспортировать правильную версию. Держите заголовок кратким и информативным. Помните, что люди, просматривающие ваш набор данных, не имеют всего того контекста, который есть у вас.
Описательные ключи
Вы когда-нибудь смотрели на набор данных и не могли понять, что происходит? Давайте избежим этого с вашим набором данных. Лучший способ сделать это — использовать ключи и метки, понятные не только вам, но и другим людям. Существуют ли в вашем домене стандартные ярлыки? Используй их! Опять же, подумайте о людях, у которых нет всего контекста, который есть у вас. Помогите им, чтобы ваши данные могли быть полезны всем.
Описание и документация
Общее описание вашего набора данных чрезвычайно полезно. Это может быть включено в README или любую доступную документацию. Если кто-то не участвовал в сборе данных, он не будет знаком с вашим процессом и, следовательно, не будет знать все входы и выходы набора данных (т.е. ту умную стенографию, которую вы придумали, или какую единицу измерения вы использовал). Подумайте о включении:
- Когда и как были собраны данные
- Размер набора данных
- Любая обработка, которую вы сделали с данными
- Поля данных и подробное описание каждого поля
- Пояснения к любым аббревиатурам и аббревиатурам
- Имена авторов, учреждения и контактная информация
Думайте о других пользователях
Перенесите свой набор данных туда, где его сможет использовать кто-то кроме вас. Поставьте себя на их место: если бы вы увидели этот набор данных впервые, как бы вы, скорее всего, его использовали? Подготовьте данные таким образом, чтобы это было возможно.
Очистить данные
Используете ли вы какой-либо этап предварительной обработки перед тем, как использовать данные самостоятельно? Удаление повторяющихся значений, удаление неполных записей, преобразование значений в одну и ту же единицу измерения и т. д. Подумайте, будет ли эта предварительная обработка полезна для других и сделает ли набор данных более удобным для использования.
Структурируйте данные
Если применимо, добавление структуры к вашему набору данных может быть невероятно полезным. Если вы добавляете структуру к своим данным, чтобы использовать их, рассмотрите возможность сохранения этой структуры при обмене данными с другими.
Контрольный список подготовки данных
В Центре данных о материалах мы увидели, что делает набор данных высококачественным и ЧЕСТНЫМ, а что нет. Вот контрольный список, который более кратко суммирует вышеперечисленные пункты и исходит из наших стандартов набора данных. Мы обнаружили, что эти стандарты существенно влияют на удобство использования и интерпретируемость.
Наши стандарты набора данных в Центре данных по материалам
- Предоставьте файл README и описание. В нем должно быть описано содержимое набора данных, расположение каталогов, схемы именования файлов, размер набора данных и ссылки на любые связанные публикации, коды и т. д.
- Опишите происхождение данных. Включите в описание информацию о том, кто, что, где, когда, как и почему данные были собраны.
- Подробное качество данных: документируйте методы сбора данных, процедуры проверки и любые известные предубеждения или ограничения, чтобы обеспечить контекст и поддержку пользователей.
- Используйте открытые форматы файлов. По возможности данные следует передавать в форматах, которые открыты и читаемы распространенными программными пакетами.
- Предоставьте примеры. По возможности включите примеры того, как загружать, анализировать и отображать данные. Эти примеры могут быть включены в репозиторий или связаны, например, с репозиторием GitHub.
- Подробная информация о конфиденциальности данных и этических соображениях. Устраните любые проблемы с конфиденциальностью или этические соображения, связанные с набором данных, и обеспечьте соблюдение соответствующих правил.
- Добавить информацию о лицензии. Укажите лицензию, по которой распространяется набор данных, подробно описав все ограничения или требования к использованию.
Ваш набор данных подготовлен и готов к миру! Как теперь поделиться?
Поздравляем с подготовкой и документированием набора данных. Это тяжелая работа! Время выбрать платформу, чтобы поделиться своей работой.
Найдите платформу, которая имеет смысл для обмена и доступа в вашем сообществе. Не уверен, где начать? Не волнуйтесь, у нас есть несколько, которые мы рекомендуем.
Глобус
Для удобного обмена данными с другими Глобус — отличный вариант. Все, что вам нужно сделать, это настроить конечную точку на вашем личном ноутбуке (или любом другом компьютере, на котором хранятся данные) и передать данные на другую конечную точку через Globus. Это требует, чтобы человек, с которым вы делитесь данными, настроил свою собственную конечную точку, где он хотел бы, чтобы данные были в реальном времени.
Обязательно:
- Для публикации данных: Аккаунт Globus (бесплатно)
- Для использования данных: Аккаунт Globus (бесплатно)
Центр данных по материалам (МДФ)
Если вы хотите сделать свои данные более доступными для обнаружения, рассмотрите возможность использования Средства данных о материалах (MDF). MDF использует Globus для передачи данных, но не требует, чтобы люди, использующие данные, создавали свои собственные конечные точки. Каждый набор данных в MDF можно найти на странице поиска, что позволяет вашим данным охватить больше людей. Наборы данных также получают свою собственную уникальную страницу на веб-сайте, что позволяет легко делиться ими с другими, просто делясь ссылкой.
Обязательно:
- Для публикации данных: Аккаунт Globus (бесплатно)
- Использовать данные: Ничего
Литейный завод-МЛ
Ваши данные структурированы и готовы к программному использованию? Похоже на Литейный-МЛ!
Foundry-ML создан на основе MDF, поэтому наборы данных Foundry-ML обладают теми же преимуществами, что и MDF (появляются в поиске MDF и на собственной странице веб-сайта), а также имеют еще больше специальных возможностей. Наборы данных Foundry-ML можно загружать непосредственно в DataFrame с помощью Python SDK. Они также получают более подробную страницу на веб-сайте Foundry-ML с пошаговыми инструкциями по использованию.
Обязательно:
- Для публикации данных: Аккаунт Globus (бесплатно)
- Использовать данные: Ничего
САМЫЕ СПРАВЕДЛИВЫЕ данные из всех
Создание хорошего набора данных заключается в следовании принципам данных FAIR: описание и документирование; сделать данные пригодными для использования другими; и размещение на платформах, которые делают данные доступными. Используйте эти советы с вашими данными и дайте нам знать, как это происходит!
Благодарности
Центр данных о материалах создан с помощью Глобуса.
CHiMaD Фаза I: Эта работа была выполнена в рамках финансовой помощи 70NANB14H012 от Министерства торговли США, Национального института стандартов и технологий в рамках Центра иерархического проектирования материалов (CHiMaD).
CHiMaD Этап II: Эта работа была выполнена в рамках следующей финансовой помощи 70NANB19H005 от Министерства торговли США, Национального института стандартов и технологий в рамках Центра иерархического проектирования материалов (CHiMaD).
Foundry-MLпостроен с Глобусом и Средством данных о материалах.
Эта работа была поддержана Национальным научным фондом в соответствии с номером премии NSF: 1931306 Совместные исследования: структура: инновационная инфраструктура материалов для машинного обучения и в рамках следующей премии финансовой помощи 70NANB19H005 от Министерства торговли США, Национальный институт стандартов и технологий. »в составе Центра иерархического дизайна материалов (ЧиМаД).