Публикации по теме big-data

Публикации по теме 'big-data'

20 часто используемых функций PySpark RDD

20 часто используемых функций PySpark RDD Каждая функция демонстрируется на понятном примере Apache Spark очень популярен в аналитике больших данных. Он использует распределенную систему обработки. PySpark — это интерфейс для Apache Spark в Python. Когда у вас есть огромный набор данных размером в терабайты, обычный код на Python будет очень медленным. Но алгоритм PySpark будет намного быстрее. Потому что он делит набор данных на более мелкие части, распределяет их по отдельным..

Дюжина полезных команд для дата-ботаников

Дюжина полезных команд для дата-ботаников В машинном обучении с большими данными нужно многое организовать. Имена, которые мы используем для управления данными, различаются: Уборка Санитарная обработка Глом Мунге "Пререкания" и Т. Д. Я представлю в этой статье десяток полезных команд, связанных с организацией данных, начиная с создания встроенных блоков кода medium.com, и переходя к управлению файлами, а затем к управлению процессами. Это лакомые кусочки, которые я..

Универсальные новости

Универсальные новости Статья Автор: Тирт Патель , Мирал Раваль , Утсав Маниар Этот блог создается и поддерживается студентами программы профессионального магистра в Школе компьютерных наук Университета Саймона Фрейзера в рамках их кредита на курс. Чтобы узнать больше об этой уникальной программе, посетите { sfu.ca/computing/pmp }. One-Stop News - это все на одном новостном портале. Этот портал предоставляет пользователю сводку похожих статей, взятых с нескольких..

Большие данные и аналитика — начало пути

Было много разговоров и публикаций о применении больших данных на предприятиях. За последние 6-7 лет, что мы работаем в этом секторе, мы видели, что корпорации тратят значительные суммы денег, чтобы получить выгоду от различных технологий обработки данных. Но недостающая часть, которую мы часто видим и спрашиваем у наших клиентов, заключается в следующем: Где и как участвует более широкий бизнес? Например, многие ИТ-директора одобрили расходы на создание кластеров Hadoop или..

Можете ли вы сказать, когда пользователь собирается покинуть ваш сервис?

Можете ли вы сказать, когда пользователь собирается покинуть ваш сервис? Недавно я столкнулся с этим вопросом и решил принять вызов. Я задавался вопросом, могут ли компании заметить, когда, по их мнению, пользователь, скорее всего, уйдет, и потенциально предложить им скидку, чтобы пользователь дольше оставался с сервисом. Udacity предоставил набор данных для вымышленной компании Sparkify. Каждое взаимодействие пользователя со службой сохраняется в файле данных. Файл данных содержит..

Подталкивайте ваших клиентов к получению большего количества данных для алгоритмов ИИ

Когда Брайан Хэнки впервые передал данные, которые он собрал, управляя компанией по кредитованию до зарплаты в Сингапуре, доктору математики, ему сказали, что их недостаточно для получения каких-либо реальных сведений. Теперь вместо того, чтобы полагаться на математику для анализа данных, он надеется использовать ИИ. Но опасения по поводу его данных остаются. На данный момент у него нет возможности получить больше данных, поэтому ему приходится полагаться на улучшение того, что у него..

Создаст ли искусственный интеллект следующую промышленную революцию?

Создаст ли искусственный интеллект следующую промышленную революцию? До промышленной революции, когда сельское хозяйство было основной профессией, люди работали более 100 часов в неделю. Эта цифра сократилась до 40 часов в неделю, а с ИИ цифры будут снижаться еще больше. Это определенно хороший знак во многих отношениях, поскольку он даст людям более осмысленную жизнь. Мы добились различных достижений в области технологий, заменив многие физические задачи машинами, которые помогли..