Публикации по теме 'apache-hadoop'


Сочетание возможностей Hadoop, Spark и машинного обучения: мой путь
В сегодняшнюю цифровую эпоху данные — это постоянно растущий объект, который растет экспоненциально каждую секунду. Задача состоит не в том, чтобы агрегировать данные, а в том, чтобы эффективно использовать их для получения практических выводов. Чтобы вооружиться навыками, необходимыми мне для путешествия по этому огромному ландшафту, я отправился в образовательное путешествие и записался на два сложных курса, предлагаемых IBM Skills Network на Coursera. Курсы под названием «Введение в..

СДР: Строительный блок Spark
Повторное использование промежуточных результатов в нескольких вычислениях распространено во многих алгоритмах итеративного машинного обучения и графических алгоритмов, включая PageRank, кластеризацию K-средних и логистическую регрессию. В большинстве фреймворков единственный способ повторно использовать данные между вычислениями - это записать их во внешнюю стабильную систему хранения. Это влечет за собой значительные накладные расходы из-за репликации данных, дискового ввода-вывода и..

Эффективность сквозной аналитики данных
Эффективность сквозной аналитики данных Рабочий процесс сквозной аналитики данных требует универсальности Я наткнулся на статью от NVIDIA, в которой рассказывается о результатах их теста TPCx-BB на A100. Как специалист по данным, я был сразу заинтригован, потому что я большой поклонник тестов Transaction Processing Performance Council (TPC), которые обеспечивают разумные и объективные показатели производительности. Кроме того, в TPC есть четкие правила использования их тестов и..