Публикации по теме 'big-data'


Как построить карьеру в науке о данных
Как построить карьеру в науке о данных Сегодняшняя экономика все больше поворачивается к аналитике. Организации и предприятия всех размеров потратили последние годы на сбор огромных объемов данных. Согласно LinkedIn, существует огромный спрос на людей, которые могут собирать и интерпретировать данные. Это специалисты по данным. Давайте рассмотрим, как построить карьеру на курсе науки о данных . Кто такой Data Scientist? Специалисты по обработке и анализу данных — это смесь..

Инженерия данных 101: Введение в инженерию данных
Инжиниринг данных — одна из самых быстрорастущих категорий вакансий в настоящее время, и поэтому вы можете задаться вопросом, что это такое? Учитывая огромные объемы данных, генерируемых организациями в день, необходимо, чтобы люди обрабатывали и передавали эти данные аналитикам данных и инженерам по машинному обучению. Так что же такое обработка данных? Инжиниринг данных — это практика сбора, проектирования, хранения и анализа данных из различных ресурсов в масштабе. Экосистема..

Развейте облако суеверий вокруг машинного обучения!
Развейте облако суеверий вокруг машинного обучения! Я изучаю математику и информатику в IIIT Delhi. Я не эксперт по машинному обучению. У меня есть опыт работы с очень маленькими кусочками. Кроме того, я не претендую на звание проповедника машинного обучения и интеллектуальных систем. Я не говорю, что у машинного обучения есть решение любой проблемы в мире. Для многих задач машинное обучение даже не нужно. Моя цель — развеять суеверия вокруг машинного обучения. Однажды я спросил..

Регрессия на Sparks MLlib
Краткий пример использования MLlib API Я хочу поделиться (очень) небольшой разработкой PoC (доказательство концепции) об использовании MLlib на Spark + Scala. В этом случае мы хотим использовать MLlib для выполнения некоторых алгоритмов машинного обучения над некоторыми данными. Мы будем использовать (очень) небольшой набор данных, например, набор данных Леонардо на kaggle.com . Имея данные и цель (используя MLlib на Spark + Scala), давайте создадим этот PoC. После быстрого..

ОТВЕТСТВЕННЫЙ МЛ
Массовое внедрение ИИ в нашу повседневную жизнь представляет множество угроз для каждого человека, несмотря на способность ИИ решать проблемы в течение короткого периода времени из больших объемов данных, что было бы невозможно при ограниченных возможностях человека. Постоянно растущее использование и спрос на ИИ в здравоохранении, образовании, бизнесе, транспорте, безопасности, сельском хозяйстве и т. д. требует регулирования этих систем ИИ. Ответственное машинное обучение  – это..

Дневники Искры
«Из крошечной« Искры »может вспыхнуть могущественное пламя» ~ Данте Алигьери Как, что и почему? У меня и Спарк были отношения любви и ненависти последние два года или около того. Все началось после того, как я тяжело расстался с ульем, и я понял, что мне лучше без него. Я подумал, что должен высказать свое мнение и дать несколько советов по взаимоотношениям с людьми, которые проходят свой путь через этот трудный, но кое-что полезный этап жизни. На более серьезном замечании,..

Классификация несбалансированных наборов данных
Как правильно провести анализ классификации с помощью sklearn, когда ваш набор данных несбалансирован, и улучшить его результаты. Представим, что у вас есть набор данных с десятком функций, и вам нужно классифицировать каждое наблюдение. Это может быть проблема с двумя классами (ваш результат - 1 или 0; истина или ложь) или проблема с несколькими классами (возможно более двух альтернатив). Однако в этом случае есть изюминка. Данные несбалансированы. Подумайте о пациентах, которые..