Арун Кумар - доцент кафедры компьютерных наук и инженерии, а также науки о данных (Институт науки о данных Халиджиоглу) в Калифорнийском университете в Сан-Диего. В настоящее время он преподает DSC 102: Системы масштабируемой аналитики. Его исследовательские интересы связаны с управлением данными и системами для машинного обучения. В свободное время он любит ходить в походы, писать стихи, вести блог и смотреть фильмы.

Интерес Кумара к компьютерам и управлению данными начался в старшей школе, где он изучил основы баз данных и языков программирования и был очарован тем, как мы храним и обрабатываем информацию. На протяжении всего своего высшего образования у него выросла склонность к системной перспективе, то есть к тому, как мы создаем алгоритмы для обработки и понимания данных. В то время системы машинного обучения (ML) появлялись и получали все большее распространение на новых конференциях и семинарах.

«В эту область вкладываются большие средства со стороны промышленности и правительства, поэтому это быстрорастущая область», - сказал Кумар. «Я рад видеть такой рост, и я рад, что был во главе волны роста систем данных для машинного обучения».

С точки зрения Кумара, множество изменений в области управления данными в сочетании с инвестициями со стороны промышленности и правительства заставили людей срочно обратить внимание на масштабируемую аналитику, способствуя ее развитию, исследованиям и приложениям.

Модные словечки также сыграли роль в растущем присутствии масштабируемых систем данных для машинного обучения, особенно «больших данных» и «облачных вычислений». Кумар объясняет, что «большой» в «больших данных» означает сложность и силу, как в «большой нефти» или «большом правительстве».

«Данные настолько огромны и разнообразны, что могут поступать с большой скоростью, и они такие обширные и часто беспорядочные», - сказал Кумар. «Он занимает огромное пространство разума организации с точки зрения денег, времени, человеческих усилий и так далее».

Так что нет, «большие данные» относятся не только к данным большого размера. Сообщество баз данных имеет дело с данными большого размера на протяжении десятилетий, но возникает проблема, как работать с гетерогенными, неструктурированными или разнообразными данными и сложными вычислениями, ориентированными на данные, такими как алгоритмы машинного обучения для таких данных.

Кумар считает, что облачные вычисления сейчас также набирают обороты, поскольку они обещают множество преимуществ с точки зрения управляемости и экономии средств для многих пользователей приложений, работающих с большими данными. Amazon, ведущий сторонник и поставщик облачных услуг, начал с осознания огромного потенциала в предоставлении людям возможности сдавать в аренду машины для вычислений, хранения и т. Д. Через программное обеспечение как услугу (SaaS) и другие предложения.

Влияние масштабируемого машинного обучения

Кумар видит большой потенциал в будущем масштабируемых систем данных для машинного обучения с широко распространенными приложениями в коммерческом мире, сфере здравоохранения и в обществе в целом.

«Первое: прогнозирующая сила возрастет; два: вы можете задавать более подробные вопросы, чем когда-либо прежде; три: вы можете начать создавать приложения для прогнозирования в гораздо большем масштабе, чем раньше », - сказал Кумар.

Давайте разберемся немного подробнее:

1. Прогностическая сила

В машинном обучении существует явление, известное как компромисс смещения и дисперсии, который, по сути, представляет собой противоречие между точностью наблюдаемых обучающих данных и возможностью обобщения на невидимые данные для прогнозирования. Глубокое обучение решает этот компромисс, позволяя моделям запоминать весь набор обучающих данных с чрезвычайно высокой точностью (практически без смещения, но все же предлагает достаточно низкую дисперсию и, следовательно, высокую общую точность прогноза - идеал). Чтобы поддерживать это, нам нужны более крупные наборы данных и сложные модели, что возможно с помощью масштабируемой аналитики.

2. Задавайте более подробные вопросы.

Масштабируемость позволяет нам собирать детальную информацию и задавать вопросы, как никогда раньше. Сбор огромных объемов данных позволяет получать более подробную и точную информацию с помощью мощных приложений. Возьмем, к примеру, биоинформатику, где секвенирование генов предоставляет чрезвычайно подробные данные о человеке, тем самым обеспечивая точную медицину, такую ​​как персонализированные рекомендации в фармакологии.

3. Крупномасштабные приложения

Системы для машинного обучения имеют множество приложений и множество реальных преимуществ. Это распространяется и на сельскохозяйственную отрасль: есть фермеры, которые используют системы, состоящие из подключенных интеллектуальных устройств (Интернет вещей), для мониторинга состояния своих ферм, таких как отслеживание животных и борьба с вредителями, которые повышают эффективность и обеспечивают комфорт, который никогда не был возможен. до.

Короче говоря, масштабируемые системы данных для машинного обучения помогают во всех сферах максимально автоматизировать рутинную работу, привлекать и удерживать клиентов, сокращать расходы и повышать эффективность. Кумар считает, что почти все компании последуют его примеру и будут продвигать вопросы о том, полезно ли применять машинное обучение в конкретных условиях и может ли это привести к экономии затрат и / или повышению производительности труда. Эта тенденция не ограничивается коммерческим сектором - некоммерческие области, такие как социальные науки и цифровые гуманитарные науки, также извлекают выгоду из преимуществ масштабируемых систем машинного обучения.

В связи с широким спектром приложений для масштабируемых систем машинного обучения Кумар видит растущую потребность в специалистах по данным, чтобы понимать проблемы бизнеса и использовать аналитические методы для оптимизации показателей компании (например, прогнозирование оттока клиентов, экономия затрат на электроэнергию для центров обработки данных).

Академические и промышленные круги или и то, и другое

Кумар не всегда знал, что хочет стать профессором. Изначально он планировал заниматься отраслевыми исследованиями, но в последние пару лет своей докторской степени тесное сотрудничество с другими магистрантами и старшими студентами и профессорами в близлежащих областях позволило ему понять, насколько он ценит эти отношения.

«Работая в качестве преподавателя, особенно в крупной исследовательской школе, такой как UCSD, вы можете увидеть действительно хороших студентов в течение как минимум пяти лет, если они защитят докторскую степень, и это очень полезный процесс, который вы просто не можете воспроизвести в промышленности. , а именно: они приходят, они взволнованы, они активно ищут новые идеи и превращаются в исследователя », - сказал Кумар. «Они начинают предлагать новые вещи, о которых вы никогда не думали. Это процесс, который видят только ученые ".

Хотя его исследования проводятся в академических кругах, текущие исследования Кумара сосредоточены на создании артефактов и прототипов программного обеспечения, имеющих отношение к промышленности. Это позволило ему получить исследовательские подарки (неограниченное финансирование) от таких компаний, как Google и Oracle, которые он получил очень избирательно. Ему нравится исследовать проблемы, основанные на принципах и математике, что позволяет ему делать открытия, которые еще не известны в отрасли и которые влияют на конечных пользователей.

Кумар считает, что тем, кто выбирает между карьерой в промышленности или академией, правильный выбор в конечном итоге зависит от человека (посмотрите его слайды о карьерных советах в области Data Science).

«С точки зрения интересов все сводится к тому, какой риск вы готовы терпеть, с каким тяжелым трудом вы хотите мириться, насколько вы увлечены своим собственным планом», - сказал Кумар. «Если вы хотите сделать что-то на границе знаний, где есть много неопределенности - что-то может сработать, что-то может потерпеть неудачу - исследования вам подойдут».

К счастью, исследования в области науки о данных не всегда подразумевают постоянную публикацию статей. В промышленности есть много возможностей для исследований, но Кумар объясняет, что исследования в академических кругах и в промышленности отличаются в нескольких аспектах.

«Степень свободы, которую вы получаете в своих исследовательских интересах, намного выше в академических кругах. В промышленности также за последние пять-десять лет исследования расширились, но они очень ориентированы на продукт и имеют отношение к чистой прибыли компании », - сказал Кумар. «В области искусственного интеллекта есть несколько более изысканных лабораторий, таких как DeepMind и OpenAI, но большинство других исследовательских групп в отрасли - Google, Microsoft, Facebook - по-прежнему руководствуются потребностями и продуктами компании. Но нельзя сказать, что это плохо. Многим людям нравится работать над актуальными вещами. [Они] могут сказать: «Я провел это исследование, оно было доставлено этой компанией, и теперь им пользуется 1 миллиард человек».

Кумар говорит, что 20 лет назад промышленность не имела такого масштаба воздействия. Но теперь такие компании, как Google, Facebook, Amazon, предоставляют такую ​​возможность из-за своей огромной пользовательской базы. Однако эти компании конкурируют друг с другом, в то время как ученые могут одновременно сотрудничать с главными соперниками отрасли. Что касается Кумара, он в настоящее время сотрудничает с Oracle, Google и Microsoft, и это было бы невозможно в промышленности. Университеты также позволяют преподавателям работать в промышленности летом или в творческий отпуск.

В этой области, говорит Кумар, люди довольно часто переключаются между академическим сообществом и промышленностью. Но нужно помнить одну вещь: вообще говоря, вернуться к академическим исследованиям очень сложно, и трудно поддерживать такой издательский репертуар, когда вы погружены в промышленность и продукты. С другой стороны, переход от академического сообщества к отрасли имеет очень приятный плюс в том, что ваша зарплата может увеличиваться вдвое или втрое, но с меньшими академическими свободами, меньшими возможностями для наставничества студентов и большей конкуренцией в отрасли.

Синтез культур

В своей исследовательской области базы данных и управления данными Кумар пользуется уникальной комбинацией нисходящего взаимодействия с различными областями и подходами к решению проблем. Он объединяет четыре основные культуры интеллектуального исследования, которые, как он объясняет: математические / формалистические; реальный мир / инженерия; естественнонаучный / экспериментальный; и гуманистические / социальные науки.

«В моем случае это сочетание абстрактных рассуждений и понимания концепций и идей математического стиля с конкретными программными артефактами, с которыми люди могут взаимодействовать, и это общая философия в мире баз данных», - сказал Кумар. «Это кросс-стек. Он проходит весь путь от абстрактной математики до программных систем, от понимания оборудования до понимания пользователя ».

Так же, как он может интегрировать академические круги с реальными приложениями, в исследовательских работах Кумара часто рассматриваются концепции с разных точек зрения. Например, в его статье может быть показано, как одно и то же технологическое открытие может снизить стоимость системы, а также повысить производительность труда пользователей.

«Такой синтез исследовательских культур более возможен в этой области, и это меня волнует», - сказал Кумар.