Можно задаться вопросом о возможностях создания данных с помощью поколений старых наборов данных, доступных исторических данных, данных датчиков, маркетинговых данных, профилирования потребителей, хранения данных о клиентах и ​​многого другого. Эти возможности безграничны, и они всегда растут еще больше.

Все эти технологии и процессы транзакций, онлайн-аналитическая обработка, онлайн-обработка транзакций, новое поколение платформ и новые инновационные приложения, которые хранят тонны данных пользователей при входе в систему и во время использования. Это бесконечное создание и хранение данных имеет решающее значение, поскольку они являются основой развивающейся технологии.

Наши новые технологии основаны на этих старых и новых наборах данных, которые хранятся в Интернете, и эти наборы данных не так уж сложно подтвердить для использования и итераций.

Поскольку наборы данных являются основой, данные полностью являются активом для компаний, занимающихся анализом данных, для различных приложений, для ведущих технологических гигантов в мире и для стран, которые многое делают из этого анализа данных.

В дисциплине открытых данных набор данных является единицей измерения информации, опубликованной в общедоступном хранилище открытых данных. Теперь решающим становится то, как управлять этим —

— Создание и удаление таких объектов, как таблицы, представления и пользовательские функции.

— Импорт данных из Google Storage в форматах CSV, Parquet, Avro или JSON.

— Запрос — запросы выражаются на диалекте SQL, а результаты возвращаются в формате JSON с максимальной длиной ответа примерно 128 МБ или неограниченным размером, если включены большие результаты запросов.

— Контроль доступа — Делитесь наборами данных с произвольными людьми, группами или со всем миром.

— Машинное обучение — Создавайте и выполняйте модели машинного обучения с помощью SQL-запросов.

— Кросс-облачная аналитика — анализ данных в Amazon Web Services и Microsoft Azure.

Различные другие интересные наборы данных, которые вы можете найти и восстановить из разных источников. Эти источники следующие:

  1. Google Cloud (https://datasetsearch.research.google.com/)

2. Huggingface (https://huggingface.co/datasets)

3. Новости Buzzfeed — Github (https://github.com/BuzzFeedNews)

4. Ссылка на данные Nasdaq (https://data.nasdaq.com/search)

Различные варианты использования данных, которые очень очевидны, включают науку о данных, машинное обучение контролируемых или неконтролируемых данных, финансы и политику (кстати, это интересно;))

-Шрея Нигам