Публикации по теме 'big-data'
Оптимизация конфигурации базы данных с помощью DistSQL экспорта, импорта и преобразования YAML
DistSQL (расшифровывается как Distributed SQL) — это специализированный операционный язык, эксклюзивный для Apache ShardingSphere. Этот язык предоставляет пользователям упрощенную и мощную динамическую систему управления, которая позволяет им работать с ShardingSphere как с традиционной базой данных.
Одним из ключевых преимуществ использования DistSQL является возможность определять ресурсы и правила в режиме онлайн без необходимости изменять файлы YAML и перезапускать систему. Это..
Как большие данные используются для повышения точности и эффективности прогнозной аналитики в…
Во всем мире технология больших данных используется несколькими способами, которые могут повысить точность и эффективность прогнозной аналитики в различных областях.
Вот несколько примеров, иллюстрирующих это:
Улучшенное качество данных: Большие данные…
Установка Hadoop на Ubuntu 20.04
Ниже я завершаю процесс установки. Это хорошо для экспериментального НЕ производства вообще.
Что тебе необходимо сделать
Установить Java Скачать Hadoop Установить среду Изменить XML-код Hadoop старт-dfs.sh start-yarn.sh
Если успех, вы увидите
localhost:8088 → См. экран значков Hadoop localhost:9870 → См. экран состояния кластера
Установить Java
Обновите и найдите новый JDK.
Если вы не знакомы с Java, игнорируйте этот термин, нам нужен только JDK.
sudo apt..
Создание модели регрессии для большого набора данных в Google Cloud (Часть 1)
Я всегда думал о создании сквозной системы машинного обучения, которая может продемонстрировать мощь машинного обучения. В конце концов, я построил ее, следуя курсу, предоставленному Google Cloud на Coursera. Я искренне рекомендую всем ML Enthuest следовать курсу, чтобы построить то, что называется конечным. Конец решения ML.
Конечный продукт будет примерно так
Выглядит восхитительно, следуй за мной и стань хозяином там, где ты сейчас находишься
Этот пост разделен на 5 частей,..
Трагедия специалиста по данным
Уравнения сознания несут большую ответственность, Билл Софткай
Здравствуйте, научный сотрудник Data Scientist!
Нам повезло. Ученые данных (в самом широком смысле) — это самые первые люди, чей концептуальный язык — в частности, уменьшение размерности, сжатие и статистическая проверка — может объяснить наши тела и умы, а, следовательно, и «сознание» в нейтральных, действенных терминах. Наш мозг — это обработчик информации, а специалисты по обработке и анализу данных знакомы с..
Основы больших данных
Мир данных растет со скоростью, и я столкнулся с этой концепцией больших данных как начинающий специалист по данным. Данные говорят об определенном событии больше, чем наш опыт может с большой уверенностью. Претенденты на предметную область должны знать различные типы доступных данных.
Что такое большие данные?
Данные настолько огромны, что наше человеческое сознание не в состоянии их уследить. Сегодня эти данные генерируются в огромном объеме, с огромной скоростью, а также с..
Pandas Data Frame 101: фильтрация данных, loc и iloc
Эта статья является продолжением первой, в которой мы узнали, как создавать фреймы данных и загружать данные в фреймы данных из файлов CSV и Excel .
В сегодняшнем уроке мы узнаем, как выбирать данные из фрейма данных. Давайте загрузим данные об акциях из Yahoo Finance, щелкнув ссылку для загрузки на странице, которая позволит вам загрузить данные в виде файла CSV. Это исторические данные по акциям S&P 500. Я переименовал файл в stocks.csv. Начнем с импорта панд и загрузки данных..