Машинное обучение в BigQuery

Авторы Б. Правена и Саша

Машинное обучение – это приложение ИИ (искусственного интеллекта), позволяющее системам обучаться и совершенствоваться на основе полученного опыта без явного программирования.

Google BigQuery ML — это набор инструментов и расширений, которые позволяют пользователям создавать, обучать и выполнять модели машинного обучения в Google BigQuery с использованием стандартных запросов SQL. Это устраняет необходимость в перемещении данных, позволяя пользователям напрямую создавать модели машинного обучения в хранилище данных.

Основные возможности Google BigQuery ML

Он автоматически генерирует модели ML, устраняет передачу данных и зашифрованные модели, поддерживает линейную и логистическую регрессию, k-средних, матричную факторизацию, временные ряды, XGBoost, таблицы AutoML и т. д.

Различные модели, поддерживаемые в Google BigQuery ML

Различные модели машинного обучения используются для обучения и прогнозирования данных. Все модели машинного обучения, поддерживаемые Google BigQuery ML, перечислены ниже:

❖ Линейная регрессия.Линейная регрессия — это самая основная модель, используемая для прогнозирования. Он использует статистические расчеты для прогнозирования. Google BigQuery ML предоставляет эту модель машинного обучения для прогнозирования тенденций на основе данных. Линейная регрессия используется для предсказания меток с реальным значением.

❖ Логистическая регрессия — для классификации используется логистическая регрессия. Когда требуемый результат находится в форме ДА или НЕТ, логистическая регрессия дает лучшие результаты, чем линейная регрессия, поскольку она преобразует каждый результат в 1 или 0, то есть ДА или НЕТ. Существует 2 типа — бинарная логистическая регрессия (используется, когда требуемый результат имеет только 2 результата, то есть ДА или НЕТ) и мультиклассовая логистическая регрессия (имеет несколько результатов, позволяет пользователям решать реальные -мировые проблемы, основанные на классификации, и использует полиномиальный классификатор с кросс-энтропийной функцией потерь для обучения моделей мультиклассовой логистической регрессии).

❖ Кластеризация K-средних — эта модель используется для сегментации данных. Он использует немаркированные данные и группирует похожие точки данных в одну группу. Пользователи могут использовать модель кластеризации K-средних с оператором CREATE MODEL с типом модели KMEANS.

❖ Матричная факторизация. Google BigQuery ML позволяет пользователям быстро создавать и обучать модели. Матричная модель факторизации используется для создания систем рекомендаций по продуктам. Пользователи могут использовать прошлые данные о поведении клиентов с данными о покупках продуктов для создания надежной системы рекомендаций с использованием SQL.

❖ Временные ряды — используется для прогнозирования данных временных рядов. Google BigQuery ML устраняет утомительную задачу по обработке аномалий в данных, таких как праздники, сезонность и т. д. С помощью модели временных рядов пользователи могут создавать множество моделей временных рядов, тестировать их и использовать для прогнозирования.

и многое другое, например Boosted Tree, Deep Neural Network, AutoML Tables, импорт моделей TensorFlow и Autoencoder.

Теперь давайте рассмотрим простую модель логистической регрессии.

О наборе данных

В наборе Банковский маркетинг есть такие поля, каквозраст, работа, семейное положение, образование, значение по умолчанию, баланс и т. д. Поскольку в наборе данных также есть поле депозита (метка), Используя обучение с учителем, мы должны предсказать, подпишется ли клиент на срочный депозит или нет, на основе предоставленной информации.

Теперь давайте разделим данные на данные обучения, проверки и прогнозирования в соотношении 80–10–10. На снимке ниже внутреннее предложение (строки 9–12) помогает в случайной выборке, назначая случайные значения от 0 до 1 для split_field. CASE помогает разделить данные на 3 группы.

ПРИМЕЧАНИЕ. Скопируйте приведенное выше в новую таблицу, чтобы предотвратить изменение значений в столбце фрейма данных (из-за RAND()).

Теперь давайте обучим модель с помощью логистической регрессии.

Важно

Чтобы получить веса/коэффициенты каждого признака в модели — SELECT* FROM ML.WEIGHTS ( MODEL project-name.table-name.model-name ).

Чтобы получить подробную информацию о каждой функции — SELECT * FROM ML.FEATURE_INFO ( MODEL project-name.table-name.model-name ).

При прогнозировании значений для действительного набора данных мы получаем,

Мы хотим знать клиентов, которые будут заинтересованы в депозите, поэтому мы должны улучшить наш отзыв. Теперь давайте проработаем некоторые функции, чтобы улучшить запоминание с помощью функции TRANSFORM. На приведенном ниже снимке в строке 3 «возраст», представляющий собой непрерывную числовую характеристику, делится на STRING на основе квантилей. Здесь мы превращаем его в 5 ведер. Столбцы «работа» и «образование», которые имеют категориальные значения, в некотором роде связаны, поэтому мы можем сделать для них крест. Обратите внимание, что мы также удалили столбцы кампании и отступления. Теперь мы применим модель логистической регрессии к поездной части набора данных.

Нажав «перейти к модели», мы сможем просмотреть подробности ниже. Можно заметить, что количество итераций уменьшилось. Мы также можем отметить, что количество истинно положительных результатов увеличилось, что привело к более высокому отзыву.

Авторы — Б Правена и Саша

Машинное обучение в BigQuery

Основные возможности Google BigQuery ML

Различные модели, поддерживаемые в Google BigQuery ML

О наборе данных

Вопросы по теме