Публикации по теме 'big-data'


Повышение производительности планировщика Apache Airflow
Apache Airflow - это инструмент с открытым исходным кодом для создания сложных рабочих процессов и управления ими. В последнее время Airflow набирает популярность среди специалистов по данным для управления рабочими процессами машинного обучения. С увеличением использования мы можем видеть рост ожиданий пользователей. Как и все пользователи, мы ожидаем, что инструменты будут надежными, масштабируемыми и будут работать из коробки . Сообщество Apache Airflow работает над улучшением..

СДР: Строительный блок Spark
Повторное использование промежуточных результатов в нескольких вычислениях распространено во многих алгоритмах итеративного машинного обучения и графических алгоритмов, включая PageRank, кластеризацию K-средних и логистическую регрессию. В большинстве фреймворков единственный способ повторно использовать данные между вычислениями - это записать их во внешнюю стабильную систему хранения. Это влечет за собой значительные накладные расходы из-за репликации данных, дискового ввода-вывода и..

10 лучших примеров использования науки о данных в телекоммуникациях
Со временем наука о данных доказала свою ценность и эффективность. Специалисты по обработке данных находят все новые и новые способы внедрения решений для больших данных в повседневную жизнь. В настоящее время данные - это топливо, необходимое для успешной компании. Телекоммуникационные компании - не исключение. Из-за этих обстоятельств они не могут позволить себе не использовать науку о данных. В телекоммуникационной отрасли приложения для анализа данных широко используются для..

Mars - Универсальная платформа распределенных вычислений на основе матриц
Мы рады объявить о нашем новом проекте Mars, который представляет собой универсальную платформу распределенных вычислений на основе матриц. Открытый исходный код Mars уже доступен на GitHub: https://github.com/mars-project/mars . Задний план Python Python - это хорошо зарекомендовавший себя язык, который продолжает широко применяться в научных вычислениях, машинном обучении и глубоком обучении. Hadoop, Spark и Java по-прежнему доминируют в области больших данных. Однако на..

5 вещей, которые делают все великие компании, чтобы успешно внедрить AI/ML
2018 год был годом искусственного интеллекта и машинного обучения, что очевидно, поскольку мы стали свидетелями взрывного роста стартапов Кремниевой долины. В них вливалось много венчурных денег, независимо от того, предоставляли ли они возможности чистой платформы, AI-Ops, каталогизацию данных и т. д. Однако по моему опыту я видел, что большинство компаний проявляют осторожность в принятии этих тенденций, позволяя лишь нескольким специалистам по данным и инновациям команды, чтобы..

Объявление о наших инвестициях в Unravel Data
Дэвид Дубик, Point72 Ventures, Enterprise Если программное обеспечение поглотило мир, а модели будут его запускать, тогда нам лучше создавать отличные инструменты, чтобы эти модели больших данных были надежными, оптимизированными и безопасными. В Point72 мы поддерживаем идею Модели будут править миром , отсылка к нашей убежденности в том, что в будущем наиболее успешные компании будут использовать модели данных и машинного обучения для улучшения своих продуктов и лучшего понимания..

Представляем DML - протокол децентрализованного машинного обучения
Децентрализованное машинное обучение раскрывает неиспользованные личные данные, простаивающую вычислительную мощность и краудсорсинговую разработку алгоритмов с помощью машинного обучения на устройстве, блокчейна и технологий федеративного обучения. Начиная с AlphaGo, мы уже видим, насколько мощным и большим может быть потенциал машинного обучения. Что, если есть способ потенциально привлечь миллиарды устройств и десятки тысяч разработчиков, чтобы сделать машинное обучение будущего..