Публикации по теме 'big-data'


Как использовать Pyspark для вашего проекта машинного обучения
Очистка данных, EDA, разработка функций и машинное обучение с Pyspark Pyspark - это Python API, который поддерживает Apache Spark, распределенную структуру, предназначенную для обработки анализа больших данных. Это прекрасная структура для использования при работе с огромными наборами данных, и она становится обязательным навыком для любого специалиста по данным. В этом руководстве я расскажу, как использовать Pyspark, чтобы делать именно то, что вы привыкли видеть в блокноте Kaggle..

Что не так с наукой о данных?
Это время больших ожиданий для науки о данных. Эта область была провозглашена источником экономического динамизма и перемен наравне с индустриализацией и электрификацией. Инструменты, которые он предлагает, достаточно молоды, чтобы существовало множество возможностей для создания ценности с их помощью, но также достаточно зрелы, чтобы ограничения были в значительной степени функцией воображения, а не техническими по своей природе. Именно по этой причине я считаю, что настало время для..

Score Test- Analyttica TreasureHunt
«Тест оценки», также называемый «тестом множителя Лагранжа», представляет собой параметрический статистический тест, чтобы проверить, совпадают ли фактические значения параметров или коэффициентов с некоторыми конкретными значениями из регрессионной модели. Основное преимущество этого теста заключается в том, что не требуется оценивать параметры модели при альтернативной гипотезе, поскольку он находит оптимальные значения параметров в функции правдоподобия с помощью метода множителей..

очистка данных, шаг «сделай или сломай» к аналитике данных BI | КМС Технология
Но прежде чем вы начнете играть с этими блестящими алгоритмами машинного обучения, вам нужно собрать и очистить свои данные. Это не всеми любимый шаг… Я имею в виду, кто действительно любит убираться? Фактически, 60% специалистов по данным считают подготовку и очистку данных наименее приятной частью своей работы . Но очистка данных жизненно важна для эффективной аналитики данных. Прежде чем мы погрузимся во все тонкости качественной очистки данных, мы должны спросить… Что..

Что хорошего? Наш №10 Еженедельный Отчет Монаха
Пока мы обустраиваемся после черной пятницы , давайте начнем проверять, что мы сделали из прошлогодних целей , а заодно, может быть, откроемся для неизвестных гениев . А, а также, давайте погрузимся в последнюю подборку крутых вещей, которые курировал для нас наш штатный футурист Эдвин Рэйджер . 1) Будут ли когда-нибудь компьютеры слышать, как люди? Компьютеры становятся лучше с каждой секундой, и все же есть некоторые границы, которые еще не исследованы должным образом. Одним из..

Решение для больших данных в коммунальном хозяйстве
«Закон убывающей отдачи» был очень пугающим явлением для промышленных игроков в первой половине 19 века. Роберт Солоу решил эту проблему с помощью новых подходов, включив технологию в качестве одного из факторов производства. Сегодня технологии меняют все аспекты нашей жизни, не только в промышленной сфере, они затрагивают все секторы бизнеса и меняют поведение людей. Одна из новых технологий, о которой мы должны знать, - это аналитика больших данных. В Индонезии большие данные..

Самые используемые слова в Википедии
Я скачал Википедию полностью, посчитал все слова — и вот первая десятка. Все началось с того, что на моем домашнем сервере осталось много места. Я хотел что-то с этим сделать. Мне всегда нравились Большие данные . Я быстро пришел к мысли, как здорово было бы иметь всю Википедию — в чистом виде. Я начал искать в Википедии текстовые загрузки , но ничего не нашел. Есть несколько дампов, которые можно скачать здесь . Проблема этих загрузок в том, что они включают исходный код,..