Публикации по теме big-data

Публикации по теме 'big-data'

Демократизация PySpark для публикации мобильных игр

Демократизация PySpark для публикации мобильных игр Zynga Analytics на Spark Summit 2020 За последние два года аналитики Zynga все чаще используют PySpark, который представляет собой интерфейс Python для платформы больших данных Spark. У нас есть центральные и встроенные аналитические группы, которые используют PySpark для поддержки операций мобильной публикации, включая аналитику и отчетность, экспериментирование, услуги персонализации и оптимизацию маркетинга. Я рассказал на Spark..

Обработка больших обучающих данных в Tensorflow 2.0

Обработка больших обучающих данных в Tensorflow 2.0 Предположим, у вас есть данные для обучения модели с помощью Tensorflow 2.0 (в этой статье мы используем версию beta1). Проблема в том, что файл данных слишком велик, чтобы поместиться в памяти. Следовательно, вы не могли загрузить весь набор данных в память, разделить его на наборы данных для обучения/проверки/тестирования и не могли перетасовать весь набор данных для обучения между эпохами. Вообще говоря, для решения этой проблемы..

Наивный Байес против логистической регрессии

Сегодня я рассмотрю сравнение дискриминирующей и генеративной моделей. Я буду рассматривать наивный байесовский классификатор как генеративную модель, а логистическую регрессию как дискриминационную модель. Прежде чем вдаваться в подробности, я кратко опишу эти две техники. Наивный байесовский классификатор: Наивный байесовский классификатор - это линейный классификатор, использующий теорему Байеса и строгое условие независимости между признаками. Учитывая набор данных с n функциями,..

Uncharted: выпуск набора данных Yelp

Последние выходные февраля, поздний вечер пятницы: я на VTHacks и думаю про себя, давайте применим то, что я изучил по экономике и эконометрике, в сочетании с моим самым базовым пониманием MapReduce и машинного обучения, чтобы создать некоторые модели и обработать Yelp . Academic Dataset» ( альтернативная ссылка ). Моя цель состояла в том, чтобы иметь проект, который состоит из двух частей. Создайте модель для серверной части, а затем протестируйте модель/серверную часть с iOS. Я сделал..

8 факторов, определяющих будущее больших данных, машинного обучения и ИИ

Искусственный интеллект и машинное обучение в сочетании с постоянно растущим объемом данных меняют нашу коммерческую и социальную среду. В этих секторах возникает ряд тем и проблем, о которых ИТ-директорам необходимо знать. На Strata Data Conference O’Reilly в 2019 году в Лондоне я получил гораздо лучшее представление о том, куда может двигаться мир больших данных, машинного обучения (ML) и ИИ. Эти сектора быстро развивались за последние 5 лет благодаря новым технологиям,..

Практическое введение в Spark’s Column

Часто используемые простые, важные и распространенные методы столбцов для эффективного управления фреймами данных / наборами данных. Большинство операций, которые мы выполняем в Spark, обычно связаны с интенсивным использованием объектов столбцов. Spark имеет богатые функции для манипулирования и преобразования данных столбца. Столбец Dataframe / Dataset в Spark похож на столбец в традиционной базе данных. Рассмотрим приведенный ниже пример фрейма данных, id и name - это..

Машинное обучение в высокопроизводительных вычислительных средах

Хосе Пачеко и Марио Кастро Введение Область высокопроизводительных вычислений имеет долгую и почтенную историю. Основное внимание в этой области уделяется разработке компьютерных систем, которые могут обрабатывать большие объемы данных как можно быстрее. Можно даже сказать, что высокопроизводительные вычисления существовали до обычных высокопроизводительных вычислений, в том смысле, что первые компьютеры, использовавшиеся в отрасли, представляли собой огромные мейнфреймы с несколькими..