Можно задаться вопросом о возможностях создания данных с помощью поколений старых наборов данных, доступных исторических данных, данных датчиков, маркетинговых данных, профилирования потребителей, хранения данных о клиентах и многого другого. Эти возможности безграничны, и они всегда растут еще больше.
Все эти технологии и процессы транзакций, онлайн-аналитическая обработка, онлайн-обработка транзакций, новое поколение платформ и новые инновационные приложения, которые хранят тонны данных пользователей при входе в систему и во время использования. Это бесконечное создание и хранение данных имеет решающее значение, поскольку они являются основой развивающейся технологии.
Наши новые технологии основаны на этих старых и новых наборах данных, которые хранятся в Интернете, и эти наборы данных не так уж сложно подтвердить для использования и итераций.
Поскольку наборы данных являются основой, данные полностью являются активом для компаний, занимающихся анализом данных, для различных приложений, для ведущих технологических гигантов в мире и для стран, которые многое делают из этого анализа данных.
В дисциплине открытых данных набор данных является единицей измерения информации, опубликованной в общедоступном хранилище открытых данных. Теперь решающим становится то, как управлять этим —
— Создание и удаление таких объектов, как таблицы, представления и пользовательские функции.
— Импорт данных из Google Storage в форматах CSV, Parquet, Avro или JSON.
— Запрос — запросы выражаются на диалекте SQL, а результаты возвращаются в формате JSON с максимальной длиной ответа примерно 128 МБ или неограниченным размером, если включены большие результаты запросов.
— Контроль доступа — Делитесь наборами данных с произвольными людьми, группами или со всем миром.
— Машинное обучение — Создавайте и выполняйте модели машинного обучения с помощью SQL-запросов.
— Кросс-облачная аналитика — анализ данных в Amazon Web Services и Microsoft Azure.
Различные другие интересные наборы данных, которые вы можете найти и восстановить из разных источников. Эти источники следующие:
- Google Cloud (https://datasetsearch.research.google.com/)
2. Huggingface (https://huggingface.co/datasets)
3. Новости Buzzfeed — Github (https://github.com/BuzzFeedNews)
4. Ссылка на данные Nasdaq (https://data.nasdaq.com/search)
Различные варианты использования данных, которые очень очевидны, включают науку о данных, машинное обучение контролируемых или неконтролируемых данных, финансы и политику (кстати, это интересно;))
-Шрея Нигам