Публикации по теме 'big-data'


9 причин, почему вы должны выбрать Databricks
Платить эту цену полностью стоит. Вот почему Я испытал удовольствие от работы с неуправляемой и управляемой версиями Apache Spark. Если я не настрою инфраструктуру самостоятельно, они кажутся очень похожими, но есть некоторые уникальные функции, которые отличают Databricks от других управляемых служб Apache Spark. Давайте начнем с этих льгот, не так ли? Без оркестровки Нет управления. Выберите время выполнения. Установите размер кластера. Просто подождите, пока кластер..

Подробное изучение больших данных с помощью Hadoop (часть 1): введение в Hadoop
Пронай Гош и Хирен Рупчандани По оценкам, около 90% мировых данных было создано за последние два года. Кроме того, 80 процентов данных неструктурированы или доступны в различных формах, что затрудняет анализ. Теперь у вас есть представление о том, сколько данных было сгенерировано. Хотя такой огромный объем данных представляет собой значительную трудность , еще более серьезная проблема связана с тем фактом, что данные не организованы. Включены изображения, такие..

5 удивительных игр с большими данными, 2018 г.
Большие данные — это быстро развивающаяся отрасль сбора огромных объемов данных и использования таких процессов, как машинное обучение, для анализа и получения результатов. Использование этого может варьироваться от задачи чтения рукописных символов и букв для начинающих до автономного вождения автомобиля. На самом деле, старая система капчи была способом краудсорсинга для обучения алгоритма машинного обучения, делающего именно это. Возможности использования и потенциал больших данных и..

Состояние индустрии машинного обучения и искусственного интеллекта: выводы Gooroo
Автор: Брэд Нгуен — ведущий специалист по данным в Gooroo По мере того, как машинное обучение (ML), специализация науки о данных / искусственного интеллекта (ИИ), переходит от шумихи к тому, чтобы стать мейнстримом , остается много неизвестных о роли, которую ML играет в бизнесе. Для чего именно компании нанимают машинное обучение? Какие навыки им нужны? Как говорится в этой статье Ясности в отношении того, как наука о данных и машинное обучение решают бизнес-задачи, гораздо..

Почему валидаторы в тренде
Платформа NeuroSeed представляет новую карьеру в науке о данных для решения проблемы надежности Как далеко зашли большие данные в Интернет и находятся ли они в свободном доступе или могут быть куплены по высокой цене, предоставленной учеными данных. В обоих вариантах возникает проблема недоверия к предлагаемым Big Data. Команда NeuroSeed взялась за решение этой значимой проблемы. Большие данные, код машинного обучения и окончательные модели машинного обучения проверяются компаниями..

Пример PySpark для работы с наборами данных большего размера, чем объем памяти
Пошаговое руководство по использованию Spark для выполнения исследовательского анализа данных для наборов данных, размер которых превышает объем памяти. Анализ наборов данных, размер которых превышает доступную оперативную память, с помощью записных книжек Jupyter и фреймов данных Pandas является сложной задачей. Эта проблема уже решалась (например, здесь или здесь ), но моя цель здесь немного другая. Я представлю метод выполнения исследовательского анализа большого набора данных с..

Как лесозаготовки изменили мир
До появления больших данных был скромный бортовой журнал. Операционные метрики должны быть разработаны так, чтобы фиксировать не только ошибки и аномалии. Разработчики программного обеспечения должны уделять внутреннему измерению должное внимание, которого оно заслуживает. Кларисса, основательница Tangled Web Services, открыла собрание Tech Monday: «Я пригласила капитана Каймана рассказать нам об экспедиции Магеллана 1521 года и, что более важно, о том, как было зарегистрировано..