Искусственный интеллект (ИИ) является обязательным в современной экономике, и преимущества бизнеса, основанного на данных, можно увидеть в успехе первопроходцев в области ИИ, таких как Google и Amazon. Сегодня компании всех размеров пытаются оставаться конкурентоспособными, собирая большие объемы данных для принятия решений на основе данных. Однако до недавнего времени получение, обработка и распространение больших объемов данных в режиме реального времени на одной платформе было огромной проблемой для компаний, особенно для компаний, которые активно продвигаются к ИИ.
Войдите в Apache… и в силу сообщества открытого исходного кода.
Apache Software Foundation является лидером в области программного обеспечения с открытым исходным кодом с более чем 50 активными проектами. Еженедельно Apache Foundation получает более 35 миллионов просмотров страниц и может похвастаться наличием более 460 000 активных членов сообщества. Одним из самых успешных проектов на сегодняшний день является распределенная система обмена сообщениями, известная как Apache Kafka. В результате усилий этого большого сообщества Kafka стала основной технологией для крупнейших предприятий мира. Фактически, более 30% компаний из списка Fortune 500 используют Apache Kafka, в частности, платформу потоковой передачи событий для высокопроизводительных конвейеров данных, аналитики в реальном времени и инфраструктуры данных. Он также имеет открытый исходный код, что означает, что любая компания может создавать и распространять с его помощью свою собственную программу.
Цель этой статьи — выделить четыре предприятия, которые трансформировали свой бизнес с помощью программного обеспечения с открытым исходным кодом от Apache Foundation. Кроме того, в документе будет затронуто будущее ИИ и распределенного обмена сообщениями с восходящим новатором Apache.
В алфавитном порядке перечислены лучшие новаторы Apache:
- ЛинкедИн
В 2011 году команда инженеров из LinkedIn создала то, что впоследствии стало Kafka, потому что ей нужна была единая распределенная платформа для публикации и подписки, чтобы приспособиться к растущему количеству участников и сложности сайта. В 2014 году LinkedIn внесла это новшество в фонд Apache Foundation, и оно стало предложением с открытым исходным кодом, известным как Apache Kafka. Сегодня LinkedIn поддерживает более 100 кластеров Kafka с более чем 4000 брокеров, обслуживающих более 100 000 тем. Эта инфраструктура позволяет LinkedIn отслеживать данные об активности, обмен сообщениями и операционные показатели. Они также настраивают Kafka, чтобы максимизировать общую работоспособность с ее высокими требованиями к масштабируемости.
2. Нетфликс
Для Netflix их использование Kafka сосредоточено на мониторинге в реальном времени и обработке событий. Они используют двойную кластерную систему в одном конвейере Keystone: Consumer Kafka и Fronting Kafka. Что касается потребителей, Kafka используется для маршрутизации тем в реальном времени потребителям, в то время как Fronting Kafka доставляет сообщения от производителей. Имея 36 кластеров Kafka и более 4000 экземпляров брокера, Netflix может обрабатывать в среднем более 700 миллиардов сообщений в день.
3. Оракул
Oracle предоставляет сервис под названием Oracle Service Bus (OSB), который соединяет его Enterprise Service Bus с Kafka. Это позволило разработчикам персонализировать реализацию конвейеров данных. Кроме того, Oracle недавно представила свой Cloud Infrastructure Streaming Service, который открыл клиентам Oracle возможность перемещать данные из потоковой передачи в автономные хранилища для аналитики, сбора данных об изменениях в базе данных, создания управляемых событиями приложений поверх потоковой передачи и других вариантов использования. С помощью Kafka Oracle обеспечивает хранение и прием данных в больших объемах и обработку в режиме реального времени.
4. Спотифай
Стриминг музыки Spotify насчитывает более 200 миллионов пользователей и более 40 миллионов доступных треков. Kafka используется в качестве ключевого компонента в их системе доставки журналов. Они приняли его как часть своего конвейера, чтобы приспособиться к растущим объемам данных, а также сократить среднее время передачи журналов с 4 часов до 10 секунд! Кроме того, предыдущая производственная нагрузка Spotify достигала пика ~700 тысяч событий в секунду. Благодаря Kafka Spotify имеет возможность поддерживать 2 миллиона событий в секунду и из одного центра обработки данных. Теперь ежедневная передача данных со всех хостов в централизованное хранилище выполняется быстро и эффективно.
Что ждет эту технологию в будущем, поскольку четыре очень влиятельных технологических игрока используют преимущества Apache Kafka?
В последнее время Кафка доминирует на сцене потокового вещания самого высокого масштаба. В сфере больших данных на него в значительной степени полагаются для быстрого приема и передачи больших объемов данных. Однако по мере роста спроса на инициативы в области машинного обучения Кафки уже недостаточно.
Кафка не является облачной и не масштабируется эффективно по горизонтали. Он также не разделяет хранилище и вычислительные ресурсы. Кроме того, Kafka не отслеживает потребителей темы или тех, кто потреблял какие сообщения, оставляя потребителям больше работы. Поскольку объем данных в контексте машинного обучения стремительно растет, у пользователей Kafka остаются проблемы с предоставлением избыточного оборудования и постоянной настройкой производительности, чтобы избежать дорогостоящих простоев.
Новые технологии, такие как Apache Pulsar, добавляют возможности обработки данных, необходимые для передачи данных в приложения для аналитики и искусственного интеллекта. Кроме того, Pulsar имеет более высокую общую пропускную способность с меньшей задержкой, чтобы свести к минимуму потерю данных. В последнее время Pulsar добился реального успеха на рынке — такие компании, как Capital One, Verizon Media, Splunk, Tencent, Yahoo Japan и многие другие, уже внедряют его технологию.
Вот лишь некоторые из основных особенностей Pulsar:
- Облако
- Брокеры без гражданства
- Все-в-одном потоковая передача и очередь
- Распределенные реестры, а не журналы
- Простая георепликация
- Мульти аренды
Восходящий новатор Apache — на базе Apache Pulsar:
5. Пандио
Pandio помогает компаниям эффективнее подключать свои данные к моделям AI/ML в облаке. Технология Pandio использует базовую операционную среду Apache Pulsar. Команды по обработке и анализу данных размещаемое решение Pandio высвобождает время, чтобы сосредоточиться на настройке и эксплуатации своих моделей машинного обучения. Для архитекторов программного обеспечения их технология является катализатором переноса приложений, баз данных и систем в распределенную среду. С точки зрения технического директора, Apache Pulsar обеспечивает производительность, в 2,5 раза превышающую производительность любой другой доступной платформы обмена сообщениями, всего за 60 % стоимости. А для финансового директора размещенное решение Pandio настраивается и оптимизируется с помощью федеративной нейронной сети, что устраняет необходимость в дорогостоящей команде DevOps. Для генерального директора Pandio является катализатором внедрения искусственного интеллекта и машинного обучения, делая доступ, прием и перемещение данных в масштабе реальностью.
Как всегда, если у вас есть какие-либо вопросы или комментарии, не стесняйтесь оставлять свои отзывы ниже, или вы всегда можете связаться со Стефани в LinkedIn или на www.datastandard.io. До встречи в следующем посте!