Искусственный интеллект (ИИ) является обязательным в современной экономике, и преимущества бизнеса, основанного на данных, можно увидеть в успехе первопроходцев в области ИИ, таких как Google и Amazon. Сегодня компании всех размеров пытаются оставаться конкурентоспособными, собирая большие объемы данных для принятия решений на основе данных. Однако до недавнего времени получение, обработка и распространение больших объемов данных в режиме реального времени на одной платформе было огромной проблемой для компаний, особенно для компаний, которые активно продвигаются к ИИ.

Войдите в Apache… и в силу сообщества открытого исходного кода.

Apache Software Foundation является лидером в области программного обеспечения с открытым исходным кодом с более чем 50 активными проектами. Еженедельно Apache Foundation получает более 35 миллионов просмотров страниц и может похвастаться наличием более 460 000 активных членов сообщества. Одним из самых успешных проектов на сегодняшний день является распределенная система обмена сообщениями, известная как Apache Kafka. В результате усилий этого большого сообщества Kafka стала основной технологией для крупнейших предприятий мира. Фактически, более 30% компаний из списка Fortune 500 используют Apache Kafka, в частности, платформу потоковой передачи событий для высокопроизводительных конвейеров данных, аналитики в реальном времени и инфраструктуры данных. Он также имеет открытый исходный код, что означает, что любая компания может создавать и распространять с его помощью свою собственную программу.

Цель этой статьи — выделить четыре предприятия, которые трансформировали свой бизнес с помощью программного обеспечения с открытым исходным кодом от Apache Foundation. Кроме того, в документе будет затронуто будущее ИИ и распределенного обмена сообщениями с восходящим новатором Apache.

В алфавитном порядке перечислены лучшие новаторы Apache:

  1. ЛинкедИн

В 2011 году команда инженеров из LinkedIn создала то, что впоследствии стало Kafka, потому что ей нужна была единая распределенная платформа для публикации и подписки, чтобы приспособиться к растущему количеству участников и сложности сайта. В 2014 году LinkedIn внесла это новшество в фонд Apache Foundation, и оно стало предложением с открытым исходным кодом, известным как Apache Kafka. Сегодня LinkedIn поддерживает более 100 кластеров Kafka с более чем 4000 брокеров, обслуживающих более 100 000 тем. Эта инфраструктура позволяет LinkedIn отслеживать данные об активности, обмен сообщениями и операционные показатели. Они также настраивают Kafka, чтобы максимизировать общую работоспособность с ее высокими требованиями к масштабируемости.

2. Нетфликс

Для Netflix их использование Kafka сосредоточено на мониторинге в реальном времени и обработке событий. Они используют двойную кластерную систему в одном конвейере Keystone: Consumer Kafka и Fronting Kafka. Что касается потребителей, Kafka используется для маршрутизации тем в реальном времени потребителям, в то время как Fronting Kafka доставляет сообщения от производителей. Имея 36 кластеров Kafka и более 4000 экземпляров брокера, Netflix может обрабатывать в среднем более 700 миллиардов сообщений в день.

3. Оракул

Oracle предоставляет сервис под названием Oracle Service Bus (OSB), который соединяет его Enterprise Service Bus с Kafka. Это позволило разработчикам персонализировать реализацию конвейеров данных. Кроме того, Oracle недавно представила свой Cloud Infrastructure Streaming Service, который открыл клиентам Oracle возможность перемещать данные из потоковой передачи в автономные хранилища для аналитики, сбора данных об изменениях в базе данных, создания управляемых событиями приложений поверх потоковой передачи и других вариантов использования. С помощью Kafka Oracle обеспечивает хранение и прием данных в больших объемах и обработку в режиме реального времени.

4. Спотифай

Стриминг музыки Spotify насчитывает более 200 миллионов пользователей и более 40 миллионов доступных треков. Kafka используется в качестве ключевого компонента в их системе доставки журналов. Они приняли его как часть своего конвейера, чтобы приспособиться к растущим объемам данных, а также сократить среднее время передачи журналов с 4 часов до 10 секунд! Кроме того, предыдущая производственная нагрузка Spotify достигала пика ~700 тысяч событий в секунду. Благодаря Kafka Spotify имеет возможность поддерживать 2 миллиона событий в секунду и из одного центра обработки данных. Теперь ежедневная передача данных со всех хостов в централизованное хранилище выполняется быстро и эффективно.

Что ждет эту технологию в будущем, поскольку четыре очень влиятельных технологических игрока используют преимущества Apache Kafka?

В последнее время Кафка доминирует на сцене потокового вещания самого высокого масштаба. В сфере больших данных на него в значительной степени полагаются для быстрого приема и передачи больших объемов данных. Однако по мере роста спроса на инициативы в области машинного обучения Кафки уже недостаточно.

Кафка не является облачной и не масштабируется эффективно по горизонтали. Он также не разделяет хранилище и вычислительные ресурсы. Кроме того, Kafka не отслеживает потребителей темы или тех, кто потреблял какие сообщения, оставляя потребителям больше работы. Поскольку объем данных в контексте машинного обучения стремительно растет, у пользователей Kafka остаются проблемы с предоставлением избыточного оборудования и постоянной настройкой производительности, чтобы избежать дорогостоящих простоев.

Новые технологии, такие как Apache Pulsar, добавляют возможности обработки данных, необходимые для передачи данных в приложения для аналитики и искусственного интеллекта. Кроме того, Pulsar имеет более высокую общую пропускную способность с меньшей задержкой, чтобы свести к минимуму потерю данных. В последнее время Pulsar добился реального успеха на рынке — такие компании, как Capital One, Verizon Media, Splunk, Tencent, Yahoo Japan и многие другие, уже внедряют его технологию.

Вот лишь некоторые из основных особенностей Pulsar:

  • Облако
  • Брокеры без гражданства
  • Все-в-одном потоковая передача и очередь
  • Распределенные реестры, а не журналы
  • Простая георепликация
  • Мульти аренды

Восходящий новатор Apache — на базе Apache Pulsar:

5. Пандио

Pandio помогает компаниям эффективнее подключать свои данные к моделям AI/ML в облаке. Технология Pandio использует базовую операционную среду Apache Pulsar. Команды по обработке и анализу данных размещаемое решение Pandio высвобождает время, чтобы сосредоточиться на настройке и эксплуатации своих моделей машинного обучения. Для архитекторов программного обеспечения их технология является катализатором переноса приложений, баз данных и систем в распределенную среду. С точки зрения технического директора, Apache Pulsar обеспечивает производительность, в 2,5 раза превышающую производительность любой другой доступной платформы обмена сообщениями, всего за 60 % стоимости. А для финансового директора размещенное решение Pandio настраивается и оптимизируется с помощью федеративной нейронной сети, что устраняет необходимость в дорогостоящей команде DevOps. Для генерального директора Pandio является катализатором внедрения искусственного интеллекта и машинного обучения, делая доступ, прием и перемещение данных в масштабе реальностью.

Как всегда, если у вас есть какие-либо вопросы или комментарии, не стесняйтесь оставлять свои отзывы ниже, или вы всегда можете связаться со Стефани в LinkedIn или на www.datastandard.io. До встречи в следующем посте!