Публикации по теме big-data

Публикации по теме 'big-data'

Оптимизация конфигурации базы данных с помощью DistSQL экспорта, импорта и преобразования YAML

DistSQL (расшифровывается как Distributed SQL) — это специализированный операционный язык, эксклюзивный для Apache ShardingSphere. Этот язык предоставляет пользователям упрощенную и мощную динамическую систему управления, которая позволяет им работать с ShardingSphere как с традиционной базой данных. Одним из ключевых преимуществ использования DistSQL является возможность определять ресурсы и правила в режиме онлайн без необходимости изменять файлы YAML и перезапускать систему. Это..

Как большие данные используются для повышения точности и эффективности прогнозной аналитики в…

Во всем мире технология больших данных используется несколькими способами, которые могут повысить точность и эффективность прогнозной аналитики в различных областях. Вот несколько примеров, иллюстрирующих это: Улучшенное качество данных: Большие данные…

Установка Hadoop на Ubuntu 20.04

Ниже я завершаю процесс установки. Это хорошо для экспериментального НЕ производства вообще. Что тебе необходимо сделать Установить Java Скачать Hadoop Установить среду Изменить XML-код Hadoop старт-dfs.sh start-yarn.sh Если успех, вы увидите localhost:8088 → См. экран значков Hadoop localhost:9870 → См. экран состояния кластера Установить Java Обновите и найдите новый JDK. Если вы не знакомы с Java, игнорируйте этот термин, нам нужен только JDK. sudo apt..

Создание модели регрессии для большого набора данных в Google Cloud (Часть 1)

Я всегда думал о создании сквозной системы машинного обучения, которая может продемонстрировать мощь машинного обучения. В конце концов, я построил ее, следуя курсу, предоставленному Google Cloud на Coursera. Я искренне рекомендую всем ML Enthuest следовать курсу, чтобы построить то, что называется конечным. Конец решения ML. Конечный продукт будет примерно так Выглядит восхитительно, следуй за мной и стань хозяином там, где ты сейчас находишься Этот пост разделен на 5 частей,..

Трагедия специалиста по данным

Уравнения сознания несут большую ответственность, Билл Софткай Здравствуйте, научный сотрудник Data Scientist! Нам повезло. Ученые данных (в самом широком смысле) — это самые первые люди, чей концептуальный язык — в частности, уменьшение размерности, сжатие и статистическая проверка — может объяснить наши тела и умы, а, следовательно, и «сознание» в нейтральных, действенных терминах. Наш мозг — это обработчик информации, а специалисты по обработке и анализу данных знакомы с..

Основы больших данных

Мир данных растет со скоростью, и я столкнулся с этой концепцией больших данных как начинающий специалист по данным. Данные говорят об определенном событии больше, чем наш опыт может с большой уверенностью. Претенденты на предметную область должны знать различные типы доступных данных. Что такое большие данные? Данные настолько огромны, что наше человеческое сознание не в состоянии их уследить. Сегодня эти данные генерируются в огромном объеме, с огромной скоростью, а также с..

Pandas Data Frame 101: фильтрация данных, loc и iloc

Эта статья является продолжением первой, в которой мы узнали, как создавать фреймы данных и загружать данные в фреймы данных из файлов CSV и Excel . В сегодняшнем уроке мы узнаем, как выбирать данные из фрейма данных. Давайте загрузим данные об акциях из Yahoo Finance, щелкнув ссылку для загрузки на странице, которая позволит вам загрузить данные в виде файла CSV. Это исторические данные по акциям S&P 500. Я переименовал файл в stocks.csv. Начнем с импорта панд и загрузки данных..