Публикации по теме 'big-data'


Маленький мир больших данных
Маленький мир больших данных Если вы владелец малого бизнеса, вам сложно понять, как привлечь клиентов в свое заведение. Как получить ключевое представление о том, кто ваши клиенты и чего они хотят, чтобы бизнес процветал? Поскольку у малых предприятий нет ни времени, ни ресурсов для проведения сложных исследований рынка и полевых исследований, которые делают крупные корпорации, это потребовало бы большого количества догадок. Тем не менее, использование технологий может помочь..

Машинное обучение станет основой следующего поколения корпоративного программного обеспечения
Машинное обучение быстро становится одной из важнейших тенденций в экосистеме корпоративного программного обеспечения. Сочетание закона Мура о производительности графических процессоров, роста объемов больших данных и эволюции технологических стеков, наконец, сделало обещание машинного обучения реальностью для многих предприятий. Однако перспективы машинного обучения выходят за рамки отдельной дисциплины и могут дать толчок следующей волне инноваций на предприятии. В последнее..

Apache Helix: дирижер оркестра распределенной системы
Достигайте гармонии в сложных кластерах с помощью конечных автоматов В наши дни распределенные системы широко используются в рабочих процессах программного обеспечения. Это системы, в которых серверы общаются с клиентом и друг с другом (обычно через протоколы сплетен и консенсуса). Распределенные системы помогают решить серьезную проблему, связанную с распределением общей задачи по нескольким серверам для повышения производительности и доступности. Также необходимо обеспечить..

Автоматизированные и управляемые конвейеры: ключевые компоненты Data Science Factory
Наука о данных может быть запутанной задачей с постоянным притоком необработанных данных из бесчисленных источников, которые прокачиваются через постоянно развивающиеся конвейеры, пытаясь удовлетворить меняющиеся ожидания. Чтобы использовать весь этот хаотический потенциал, компании стремятся создать фабрики по обработке и анализу данных, которые оптимизируют процесс и снижают неэффективность; однако данные не будут ждать, пока компании наверстают упущенное. Создание..

Обзор: Deep Image — решение для работы с большими данными для распознавания изображений на ILSVRC 2015
В этой статье рассматривается Deep Image [1]. Deep Image достигает коэффициента ошибок 4,58%, что превосходит показатели человеческого уровня в ILSGVRC 2015. Однако в тот момент Baidu нарушил правило ILSVRC. Они создали 30 учетных записей, так что у них было не менее 200 представлений и более 40 представлений в течение 5 дней с 15 марта 2015 г. по 19 марта 2015 г. Из-за таких частых представлений они нарушили правило ILSVRC, которое разрешает только 2 представления в 1 неделя. Тем не..

Краткое введение в науку о данных
Серия специализаций John Hopkins DS Краткое введение в науку о данных Наука о данных, большие данные, данные и процесс Data Science. Full series Part 1 - What is Data Science, Big data and the Data Science process Part 2 - The origin of R, why use R, R vs Python and resources to learn Part 3 - Version Control, Git & GitHub and best practices for sharing code. Part 4 - The 6 types of Data Analysis Part 5 - The ability to design experiments to answer your Ds..

Delta lake, транзакции ACID для Apache Spark
Хотите крутой мерч Future Vision? Посетите наш магазин здесь Уровень хранения с открытым исходным кодом от Databricks , создателей Spark , для создания более простых и надежных корпоративных озер данных как локально, так и в облаке. Это был один из самых громких анонсов, сделанных на Spark + AI Summit этого года. Первоначально эта функция была доступна только на платформе Databricks, но теперь она имеет открытый исходный код с разрешающей лицензией Apache License V2...