Стремительный рост науки о данных в последние годы вызывает споры. В этой дисциплине продолжается ряд споров, которые долгое время остаются нерешенными. В приведенном ниже кратком списке представлены наиболее частые дискуссии, которые я обычно вижу, обсуждаемые в Интернете, на конференциях и даже в моем небольшом личном кругу практикующих специалистов по данным. Список отображается без определенного порядка важности. Я считаю, что все они очень важны и убедительны. Давайте нырнем!

Дебаты №1 - Наука о данных и конфиденциальность

Это дискуссия, которая в наши дни является самой популярной в прессе. Я вижу статьи о широкомасштабном влиянии больших данных и ИИ на конфиденциальность во всех видах публикаций, включая газеты, журналы, блоги, не говоря уже об источниках в социальных сетях. Наиболее частые дискуссии касаются неправомерного использования данных крупнейшими игроками технологической индустрии: Facebook, Google, Amazon и другими. Мы все еще наблюдаем влияние скандала с Facebook / Cambridge Analytica вокруг президентских выборов в США в 2016 году. Новые скандалы с Facebook продолжают всплывать по мере того, как становится ясно, сколько личных данных компания предоставила другим технологическим компаниям без явное разрешение его пользователей.

Эти проблемы, связанные с наукой о данных и конфиденциальностью, станут еще более актуальными в ближайшие годы. Из-за опасений по поводу безопасности государственные учреждения устанавливают камеры в большем количестве мест. Достижения в технологии распознавания лиц, в значительной степени обусловленные глубоким обучением, сделают видеоданные более доступными для поиска. Это вызывает множество проблем с конфиденциальностью, которые противоречат антиутопическим целям таких стран, как Китай, у которого, по оценкам, есть около 200 миллионов камер наблюдения, направленных на своих граждан. Каждый год 28 января проводится новый ежегодный праздник, посвященный этой дискуссии, - День конфиденциальности данных. Эти дебаты вокруг данных и того, как их используют ученые, только начинаются.

Дебаты № 2 - R против Python

Это дебаты, которые никогда не заканчиваются. С почти религиозным рвением те, кто программирует на любом языке, яростно защищают свой любимый инструмент. Я видел, как длились месяцы или годы обсуждения на LinkedIn, Stack Overflow и других технологических сайтах. Споры на какое-то время стихают, но затем кто-то раздувает огонь, и они снова разгораются на долгие годы. R и Python остаются двумя самыми популярными языками, используемыми специалистами по данным.

Исходя из академических кругов, моим ранним языком науки о данных был R, потому что это то, что использовали мои профессора, и я придерживался его в течение многих лет. Но учитывая рост популярности Python, особенно в сообществе глубокого обучения, я уступил, поэтому теперь я регулярно использую оба языка в своей работе в качестве специалиста по данным. Это то, что я рекомендую сегодня всем специалистам по данным - независимо от того, с какого языка вы начали, просто выберите другой и используйте как R, так и Python. Скала или кто-нибудь Джулия?

Дискуссия №3. Является ли наука о данных всего лишь ребрендингом статистики?

Это обсуждение в некоторой степени личное для меня, так как мое образование связано с информатикой и прикладной статистикой. Я работал специалистом по анализу данных в то время, когда еще не существовало термина «наука о данных». Для меня наука о данных существовала столько же, сколько существуют компьютеры, а мысль об искусственном интеллекте восходит к 1950-м годам. В некотором смысле «наука о данных» - это действительно ребрендинг, но как специалисту по данным мне это очень нравится. Раньше, когда я оказывался на званом обеде и кто-то спросил, чем я зарабатываю на жизнь, мне было трудно объяснить свою работу: «Ну, я использую информатику, прикладную математику, статистику, теорию вероятностей и т. Д.» Именно в этот момент человек с неловким выражением лица ускользнул прочь. Теперь я могу заявить: «Я специалист по данным», и многие люди имеют приблизительное представление о том, что это такое.

Несколько лет назад моя альма-матер Калифорнийский университет в Лос-Анджелесе планировал получить степень магистра для студентов, желающих заниматься наукой о данных. После долгих обсуждений администрация решила использовать название магистр прикладной статистики вместо магистр науки о данных. Я считаю, что это было правильное решение, чтобы продлить срок действия программы. Термин наука о данных может показаться модным, но основные дисциплины не изменятся. Это было осознанное решение не проводить ребрендинг статистики.

Дискуссия №4. Кто может добиться наилучших результатов - специалисты по данным или эксперты в предметной области?

Это часто страстные споры не о том, могут ли специалисты по обработке данных предоставлять эффективные бизнес-решения, а о том, играют ли эксперты в предметной области значительную роль в предоставлении таких решений. Для меня эти дебаты кажутся бессмысленными, потому что эти два обозначения симбиотичны. Специалистам по обработке данных абсолютно необходимы эксперты в предметной области, если, конечно, специалист по данным не имеет определенного опыта в конкретной предметной области. Это часто случается, поскольку мы видим, как многие специалисты по обработке данных переходят в поле из других дисциплин. Я знаю нескольких докторов наук по психологии, которые также являются опытными специалистами по анализу данных, поэтому, если психология является предметной областью, у вас есть комплексное решение.

С другой стороны, специалистам в предметной области нужны специалисты по данным. Я имею в виду, что с Excel можно сделать так много!

Споры, возможно, начались с признания того, что Kaggle неоднократно демонстрировал, что точные решения машинного обучения можно создавать и тестировать на производительность без участия экспертов в предметной области. Большинство Kagglers не обладают достаточным опытом для решения тех задач, в которых они соревнуются. Кроме того, большинство конкурсов Kaggle выигрываются благодаря творческой разработке функций, которая может включать или не включать экспертов в предметной области. Конечно, главный контраргумент этим историям успеха состоит в том, что во многих из этих конкурсов эксперты в предметной области выдвигали исходную бизнес-гипотезу, задавая соответствующие вопросы и подготавливая данные.

В моих собственных проектах по науке о данных я постоянно работаю с экспертами в предметной области. Я бы даже не подумал подойти к проекту без доступа к людям, которые являются экспертами в своем бизнесе, стоящем за предложенной проблемой.

Дискуссия №5 - Неужели наука о данных мертва?

Я действительно не понимаю этого, и я вижу, что в последнее время этот вопрос обсуждается все чаще и чаще. Это все равно, что сказать, что информатика и прикладная статистика мертвы. Нет, они не. Но я думаю, что эта дискуссия возникла из-за опасений, что профессия в области науки о данных чрезмерно превращается в товар и что наша ценность не доводится до сведения корпоративных лидеров мнений, которые нанимают нас.

Вот хороший пример дискуссии, происходящей в LinkedIn: Data Science Dead через 5 лет или меньше. Автор представляет 5 наблюдений, объясняющих, почему, по его мнению, наука о данных идет по пути Додо. Я действительно согласен с большинством представленных пунктов, я просто не согласен с выводом. Я думаю, что вместо того, чтобы умирать, наука о данных просто уходит за рамки первоначальной шумихи. Это, наверное, и хорошо, но я не думаю, что суть науки о данных куда-то уйдет и останется с нами надолго.

Готовы участвовать во всех этих дебатах и ​​многом другом? Посетите ODSC East 2019 с 30 апреля по 3 мая в Бостоне!

— —

Прочтите больше статей по науке о данных на OpenDataScience.com, включая учебные пособия и руководства от новичка до продвинутого уровня! Подпишитесь на нашу еженедельную рассылку здесь и получайте последние новости каждый четверг!