Омар Алонсо — главный специалист по данным в Microsoft. Он является автором статей по информационному поиску и был спикером на оригинальном Text By the Bay в 2015 году — посмотрите его прошлогоднюю речь, получившую очень высокую оценку, и ожидайте, что в этом году она будет основываться на ней. Качество меток имеет ключевое значение для рабочих процессов машинного обучения, и Омар имеет большой опыт создания процессов, обеспечивающих качество данных, от которых зависит все остальное в конвейере данных. Омар ответил на несколько вопросов о Data By the Bay (регистрация для очень ранних пташек открыта до 15 марта) ниже.

В. Как инженерия данных и наука о данных взаимодействуют в вашей работе и в вашей организации? Что хорошего, а чего не хватает?

В науке о данных есть тяжелая инженерная составляющая. Все этапы обработки, обработки и извлечения данных выполняются с использованием первоклассной инженерной инфраструктуры и процессов. Не могу говорить о хорошем/плохом из-за характера нашей работы.

В. Что вас больше всего волнует в пространстве данных сегодня? Чего вы хотите достичь и что вы хотите увидеть в следующем году?

Захватывающая часть: просмотр и изучение меняющихся наборов данных, создание новых наборов данных, понимание ценности высококачественных данных в производственных системах.

Что хотелось бы видеть: советы/рекомендации из реальной системы, практические истории и т.д.

В. Как вы впервые заинтересовались данными? Как это поможет вашей компании?

Личный интерес.

Наша компания работает с данными. Данные используются для широкого круга приложений и принятия решений.

В. Чего нам не хватает с точки зрения открытого исходного кода, образовательных учреждений, социальных возможностей для развития области данных в целом? Что сделало бы вашу работу более увлекательной, если бы компании и сообщества, работающие с данными, делали это лучше?

Я не совсем уверен. Тема развивается довольно быстро, поэтому я думаю, что образование должно быть главным приоритетом.

В. Что вы думаете о структуре сетки данных/матрицы конференции? В какой вертикали вы находитесь и какие другие вертикали вас больше всего интересуют или просто интересуют? Какие горизонтали — платформы и алгоритмы — наиболее подходят для вашей вертикали? Как мы можем дать участникам возможность максимально эффективно использовать матрицу?

Мне очень понравилось прошлогоднее мероприятие — переговоры были очень хорошо организованы вокруг набора основных тем.

В. С кем вы хотите встретиться в Data By the Bay и как мы все можем извлечь из этого максимальную пользу?

Я хотел бы встретить коллег и завести новых друзей, которые разделяют страсть к данным и приложениям, управляемым данными, в целом.