SQL продолжает демократизировать аналитику данных

Известно, что Facebook одним из первых внедрил технологии Hadoop BigData для управления огромными и растущими объемами данных. Но затем они столкнулись с другой проблемой: ранний Hadoop означал, что вам нужны разработчики Java, чтобы написать код MapReduce, чтобы получить ответы из ваших данных. Это создало узкое место, которое Facebook решил, создав Hive, язык, похожий на SQL, который автоматически генерировал код MapReduce, чтобы аналитик данных без программирования на Java мог запрашивать огромные объемы данных. Можно с уверенностью сказать, что Hive сыграл огромную роль в революции BigData, сделав данные доступными для пользователей.

Одной из областей, которая в последнее время набирает обороты, является машинное обучение, часть набора методов ИИ. Однако, как и в случае с ранними манипуляциями с большими данными Hadoop, людям, которые хотят заниматься машинным обучением, необходимо будет изучить язык программирования — Python является наиболее популярным инструментом выбора. Да, существует множество доступных инструментов, которые позволяют пользователям создавать и выполнять модели, но все они разные, поэтому пользователям одного инструмента все равно нужно будет изучить новый инструмент, прежде чем начать работать продуктивно.

То есть, пока не появился BigQueryML!

BigQuery — это Hive от Google — продукт хранилища данных, который работает с очень большими наборами данных и с которым пользователи работают с использованием синтаксиса SQL. Расширение его за счет включения функций машинного обучения означает, что любой пользователь, который понимает SQL (а это означает, что многие из нас, специалистов по анализу данных), может расширять его для создания и выполнения моделей машинного обучения с использованием знакомого синтаксиса.

Конечно, это не идеально. Но то, что это, тем не менее, является признаком того, что Google признает, что SQL и пользователи SQL никуда не уйдут в ближайшее время. У Google есть множество инструментов, позволяющих вам создавать ML, от Notebooks до AutoML и использования их моделей предварительной сборки, поэтому им не нужно было этого делать. То, что они сделали, открыло машинное обучение для «обычного» аналитика данных, и это сделало его демократичным.

SQL не исчезнет в ближайшее время!

SQL продолжает демократизировать аналитику данных

Вопросы по теме