Что происходит с системами больших данных в эпоху, когда сбор данных находится под прицелом?

Это перепечатка (более или менее) Информационного бюллетеня ARCHITECHT от 8 апреля 2018 г. Подпишитесь здесь, чтобы получать новые выпуски на свой почтовый ящик.

Мне нечего сказать о новостях за последние несколько дней, но ниже есть несколько хороших ссылок, поэтому обязательно ознакомьтесь с ними.

Однако, если есть одна вещь, о которой я думал, так это реальная ценность личных данных по сравнению с вредом, который может быть нанесен неправильным обращением с ними. Это, очевидно, связано с недавними спорами вокруг Facebook, но также включает взлом Equinix, брокеров данных, наши смартфоны и устройства, а также любые другие способы сбора данных. Это также связано с грядущими регламентами GDPR в ЕС и, возможно, аналогичными законами по всему миру.

В частности, я думал о связи между массовым сбором данных — также известным как «большие данные» — и технологическими инновациями. Сегодняшние системы данных были созданы в Интернете и предназначены для обработки огромных объемов данных, большая часть которых является личной, а большая часть — нет. Мы обязаны стольким достижениям в Hadoop, Spark, глубоком обучении, NoSQL и почти всем работе, проделанной в таких местах, как Facebook, Google, Yahoo, LinkedIn и их коллегах. Вероятно, мы не так уж много обязаны таким компаниям, как Apple.

Но если мы на самом деле находимся в моменте расплаты за данные и от того, сколько мы готовы отказаться, или от того, что компании готовы собрать, то что становится «большими данными» и системами больших данных? Будут ли всерьез развиваться инновации вокруг систем и алгоритмов, предназначенных для того, чтобы делать больше с меньшим объемом данных? Или данные датчиков из Интернета вещей и других устройств или неличные данные, такие как изображения дронов, будут по-прежнему стимулировать спрос на большие масштабируемые системы данных?

Я думаю, что мне интересно, что произойдет, если техническая область в целом решит, что больше не всегда лучше, когда речь идет о данных. Это может оказаться лучшим для всех участников — по разным причинам — от конфиденциальности до эффективности — но самая большая проблема может заключаться в том, смогут ли компании на самом деле отучить себя от желания собирать больше и создавать все более крупные системы.

Хорошо это или плохо, но большие данные так же ответственны за текущее состояние нашей цифровой жизни, как и все остальное. Вернуть его обратно может быть сложнее, чем мы думаем, но проектирование в рамках ограничений, которые влечет за собой меньший размер данных, может также принести некоторые серьезные инновации сами по себе.

АРХИТЕКТОР

Подать заявку на участие в программах Amplify Partners University Associate и Fellowship

Amplify Partners — это начинающая венчурная компания, инвестирующая в перспективные стартапы в области искусственного интеллекта, корпоративной инфраструктуры и кибербезопасности. После полувека сотрудничества с университетскими исследователями в поиске реальных приложений для их работы Amplify в настоящее время углубляет свои связи со студентами и выпускниками в рамках своей программы University Associate and Fellowship. Они ищут студентов, увлеченных изучением того, как технологии изменят бизнес и общество.

medium.com

ИИ и машинное обучение

Коровьи Fitbits и искусственный интеллект приходят на молочную ферму, но некоторых фермеров это не впечатляет

Сельское хозяйство по-прежнему остается горячей областью для прикладного ИИ и науки о данных, но так много историй о новых усилиях включают оговорку, что фермеры не впечатлены. Это может быть ситуация поиска молотком гвоздя, которую можно решить, узнав, что фермеры на самом деле любят автоматизировать, или где им хотелось бы получить новые идеи, и работать над этим.

chicagotribune.com

Suplari привлекает 10,3 млн долларов США и представляет платформу искусственного интеллекта, которая определяет экономию средств в процессе закупок

Это еще один хороший реальный пример того, как ИИ (я не могу вам сказать, как он определяется здесь) может быть применен к практической задаче. Такие компании, как Google и Amazon, могут зарабатывать деньги, продавая потребителям распознавание речи, но они используют AI/ML внутри компании, анализируя свои расходы, операции и т. д.

geekwire.com

Google обращается к пользователям, чтобы улучшить свои возможности ИИ за пределами США

Спрашивать пользователей о контексте — это действительно хороший способ повысить точность изображений и моделей — и всего, что связано с данными — в областях, где у вас нет естественного хорошего охвата. Это та же логика, что и у Amazon, Netflix и других компаний, которые спрашивают, почему они что-то покупают и нравятся ли они им.

wired.com

CometML хочет сделать для машинного обучения то, что GitHub сделал для кода

Я почти уверен, что CometML — не первая компания, нацеленная на это пространство, и уж точно не последняя. Насколько я понимаю, предстоит проделать большую работу по управлению версиями данных/моделей и другим вещам, чтобы обеспечить возможность воспроизведения моделей и отслеживать изменения, которые могут повлиять на производительность.

techcrunch.com

Вот как США нужно подготовиться к эпохе искусственного интеллекта

Это довольно подробное обсуждение некоторых основных областей, в которых всем странам, вероятно, необходимо планировать воздействие ИИ. Даже если это не технология, меняющая мир, важно учитывать, как она повлияет на рабочие места, национальную безопасность и кибербезопасность.

technologyreview.com



Бывший руководитель Google открывает школу искусственного интеллекта с помощью Китая

Инициатором этого является Кай-Фу Ли из SInovation Ventures, один из видных участников обсуждения ИИ между США и Китаем. Что-то мне подсказывает, что это будет не последняя в своем роде школа для обучения людей тому, как обучать ИИ.

wired.com

Что нового в ИИ: глубокое обучение с подкреплением

Хорошее введение в глубокое обучение с подкреплением от Сэма Чаррингтона из подкаста This Week in ML/AI.

venturebeat.com

NVIDIA GTC 2018: Kubernetes, TensorFlow и столько графических процессоров, сколько вы можете потреблять

Обзор некоторых новостей (и основных тенденций) с недавней конференции Nvidia GPU Tech, включая поддержку Kubernetes.

redmonk.com

Генерация изображения из графов сцены

Исследование, проведенное группой, в которую входит Фей-Фей Ли из Google, по системам глубокого обучения, которые могут создавать сцены из описаний, а не просто делать наоборот.

arxiv.org



Облако и инфраструктура

Открытое вычислительное железо — это ускорение

Можно утверждать, что проект Open Compute не оказал того огромного влияния, на которое он был рассчитан, для всей отрасли, но, по-видимому, он создает множество инноваций для рабочих нагрузок, которые выигрывают от ускорения FPGA/GPU.

nextplatform.com

Представляем VPC Flow Logs — прозрачность сети почти в реальном времени

Узнайте больше о том, что происходит с вашими виртуальными частными облаками в облаке Google. Ожидайте большего, если вы согласитесь с тем, что VPC — это новый центр обработки данных.

googleblog.com

Equinix предлагает единую систему для всех ваших облачных ключей шифрования

Это имеет некоторый смысл, если учесть (A), что Equinix имеет подключения к основным облакам и, по крайней мере, близок к ним географически, и (B) что ему необходимо найти способ оставаться актуальным, поскольку основные облака продолжают поглощать рабочие нагрузки.

datacenterknowledge.com

Hyperpilot открыл исходный код 100% своих продуктов

На это, вероятно, стоит обратить внимание, если вы заинтересованы в оркестровке контейнеров, управлении кластерами или подобных областях, включая правильные размеры облачных экземпляров для рабочих нагрузок Kubernetes. Основатели очень умные.

medium.com

Microsoft блистает на NSDI ‘18

Здесь обсуждаются интересные исследования в области облачных сетей, а также исследования, над которыми работает Microsoft.

microsoft.com



Данные и аналитика

Масштабирование распределенной файловой системы Hadoop от Uber для роста

Видите ли, HDFS по-прежнему является ценным инструментом, несмотря на заявления о его упадке. На самом деле Uber принял его всего 3 года назад. При этом можно с уверенностью предположить, что эра массового использования Hadoop с открытым исходным кодом подходит к концу. Но если более новые, небольшие компании не хотят платить за облачные услуги, какой следующий лучший вариант?

uber.com

Весна объявления об окончании срока службы проекта Apache Hadoop

К вашему сведению, если вы использовали это. А также в качестве доказательства того, что Hadoop на самом деле уже более десяти лет.

spring.io

Заглянем под капот Amazon Neptune

Neptune — это служба графовой базы данных AWS. В нем кое-что говорится о ценности графовых баз данных, которые AWS был вынужден предложить, но есть много более известных вариантов с открытым исходным кодом.

zdnet.com

ИИ не может помочь без ваших данных, — говорит Гартнер, — так что делитесь, делитесь, делитесь!

Речь идет не столько об ИИ, сколько о том, насколько мы ценим наши личные данные и насколько мы ценим персонализацию. Независимо от того, являются ли они технически ИИ или нет, системы реальности, разработанные, чтобы помочь нам лично — даже такие простые вещи, как напоминания в календаре, — требуют данных, чтобы стать умнее.

theregister.co.uk

Появление маркетплейсов данных

Мы говорили об этой идее вечно, но я видел очень мало законных торговых площадок, не говоря уже о том, чтобы они были успешными. Открытые наборы данных и правительственные данные, конечно, но не коммерческие предприятия. Похоже, что для успеха потребуются свежие данные в режиме реального времени и готовность покупателей и продавцов играть по правилам.

hortonworks.com

За «большими данными и ИИ: элементы современной науки о данных»

LinkedIn объясняет концепции науки о данных, как и следует из названия.

linkedin.com