Какой из них выбрать и что это значит для вас как начинающего Data Scientist и вашей потенциальной зарплаты?

Область науки о данных развивается очень быстро, но все же, почему люди продолжают возвращаться к вопросу о Python и Python. R время от времени?

Вероятно, их не устраивают ответы.

Знаю, знаю. Эта тема обсуждалась много раз, но вот мой исчерпывающий вывод по этой теме, чтобы перевести обсуждение на новый уровень.

Моя цель здесь — помочь новичкам в науке о данных выбрать, какой язык изучать, основываясь на моем личном опыте, знаниях и текущем уровне, целях и направлении отрасли, к которому они хотят присоединиться.

Поскольку я ежедневно использую Python в течение последних 5 лет или около того, я начну отсюда. Затем я дам обзор языка R и сравнение между ними. Наконец, несколько убедительных соображений о том, чему нужно учиться в первую очередь и кто может зарабатывать больше, исходя из глобального рынка труда.

питон

Если вы некоторое время следили за мной, вы могли видеть некоторые практические пошаговые руководства по машинному обучению с использованием Keras/TensorFlow, такие как Сверточные нейронные сети (CNN). Если нет, не беспокойтесь, я бы посоветовал начать с этих статей:



Учебное пособие по Python для начинающих. От «Hello World к функциям.
Это руководство — отправная точка моего большого проекта С нуля до специалиста по машинному обучению (ML). Основной…medium.datadriveninvestor.com»





Что касается более формального введения:

Python — это объектно-ориентированный язык программирования с открытым исходным кодом, совместимый со всеми основными операционными системами (Windows, Linux и macOS).

Python — это язык общего назначения, что означает, что его можно использовать для создания широкого спектра алгоритмов, от веб-программирования до машинного обучения.

В последние годы Python стал наиболее часто используемым языком программирования среди специалистов по данным, в первую очередь из-за его универсальности и удобства для начинающих.

Кроме того, сообщество Python довольно велико и активно занимается созданием хорошей системы поддержки и разработкой различных ресурсов и библиотек. Сообщество состоит из программистов, специалистов по данным и экспертов по машинному обучению.

Какие отрасли используют Python?

Как правило, Python популярен в организациях, которые выполняют многотипное программирование, чтобы оставаться в одной и той же языковой среде программирования.

Некоторые из конкретных отраслей и приложений включают, например:

  • Разработка программного обеспечения;
  • Настольные приложения с графическим интерфейсом, такие как трекер Pomodoro;
  • Веб- и интернет-разработка и сетевое программирование;
  • Доступ к базе данных и бизнес-приложения;
  • 3D графика и Компьютерное зрение;
  • Разработка игры.

Популярные библиотеки

С точки зрения Data Scientist, одними из самых популярных библиотек Python являются те, которые помогают обрабатывать различные виды данных, в том числе

  • Обработка и очистка данных (Pandas);
  • Численный и статистический анализ (NumPy и SciPy);
  • Визуализация данных (Matplotlib и Seaborn);
  • Машинное обучение (Scikit-Learn, Keras/TensorFlow и PyTorch).

А как насчет его соперника R?

Короче говоря, здесь все становится интереснее.

R

R был разработан статистиками как альтернатива с открытым исходным кодом дорогим инструментам, таким как MATLAB и SAS. Другими словами, R как язык был создан для аналитики и анализа данных до того, как наука о данных стала отдельной областью. Однако,

R не является языком общего назначения, то есть его нельзя использовать для других целей, кроме статистики*. Но это действительно хорошо.

**Обратите внимание, что наука о данных — это не только «крутые инструменты», такие как машинное обучение и искусственный интеллект.

Конечно, эти блестящие термины и их приложения прекрасны, особенно в эпоху обширных вычислительных мощностей. Не говоря уже о том, что любой желающий может начать проектировать собственные глубокие нейронные сети дома и обучать их бесплатно с помощью облачного графического процессора!

Однако основы Data Science — это более скучно звучащие (но чрезвычайно важные) понятия, такие как Статистика, Вероятность, Исчисление и Линейная алгебра и многие другие.

Таким образом, возможность работать в этих областях с помощью правильных инструментов не только полезна, но и необходима в современном мире.

Конечно, можно использовать алгоритмы машинного обучения как инструменты черного ящика, не понимая, что происходит под капотом. Но мне гораздо интереснее знать, что происходит внутри.

Возвращаясь к R, он также широко используется во многих отраслях.

Какие отрасли используют R?

Некоторые из конкретных отраслей и приложений включают, например:

  • Банковское дело, электронная коммерция, финансы;
  • биоинформатика, эпидемиология, генетика и разработка лекарств;

Таким образом, R выглядит как отличный вариант для погружения в поле. Кроме того, он совместим с операционными системами Linux и Windows.

Но каковы недостатки языка R? Ну и главный минус...

R не очень удобен для новичков.

Особенно тем, кто не знаком ни с одним языком программирования. Его синтаксис не стандартизирован, то есть он не соответствует английскому языку, как Python.

Следовательно, изучить R намного сложнее, чем Python.

Но некоторые говорят, что если вы хорошо разбираетесь в статистике, вам будет намного легче понять язык R, и что как только вы начнете, вам станет легче.

Популярные библиотеки

Некоторые из наиболее часто используемых библиотек в R:

  • Обработка данных (Tidyverse);
  • Очистка данных (Janitor плюс интерфейс для работы с Apache Spark);
  • Автоматическое формирование отчетов (Knitr);
  • Визуализация данных* (Ggplot2 и Esquisse);
  • Машинное обучение (Caret);
  • В частности, для медицинских и биологических данных (BioConductor).

**Обратите внимание, что библиотека ggplot2 считается более удобной для пользователя библиотекой визуализации, чем библиотека Python matplotlib. И его обновление Esquisse, которое привносит функциональность Tableau в R, может предложить даже больше — особенно интерактивное построение графиков.

Как мы видим, в R есть много хороших пакетов, и некоторые из них действительно созданы для конкретной отрасли, например, для здравоохранения и биоинформатики, например BioConductor.

Питон против. р

Какая из них лучше?

Как я обычно говорю, это зависит от целей и опыта. Оба языка имеют свои преимущества и недостатки.

Подытожу основные моменты:

  1. Поскольку язык R был создан аналитиками данных и статистиками до того, как наука о данных стала отдельной областью. Таким образом, поддержка, которую можно получить от сообщества R по вопросам, связанным с наукой о данных, вероятно, будет намного лучше, чем от сообщества Python. ;
  2. Python легче изучить, поскольку он основан на стандартизированном языке, особенно если вы не знакомы ни с какими другими языками программирования, но хотите начать карьеру в науке о данных;
  3. R фокусируется на статистике и, следовательно, более эффективен при работе со статистическими библиотеками;
  4. Python обычно быстрее, чем R, и поддерживает многотиповое программирование;
  5. R намного лучше справляется с визуализацией данных;
  6. Python лучше с глубоким обучением;

Потенциал заработка

Теперь мы, наконец, подошли к вопросу о потенциале заработка на обоих этих языках. Рассмотрим несколько ресурсов:

Согласно статистике Glassdoor в США, средняя зарплата разработчика Python составляет 83 885 долларов в год. В то время как для R Programmers — около 73 263 долларов в год.

Согласно недавнему опросу разработчиков Stack Overflow (2022 г.), разработчики Python в среднем зарабатывают 71,105 долларов, а те, кто использует R, — около 67,735 долларов.

Тенденция похожа на специалистов по данным. Те, кто использует Python, зарабатывают (в среднем) больше, чем те, кто использует язык R. Однако оплата ничем не отличается и зависит от отрасли, страны и опыта.

**Обратите внимание, что те разработчики и специалисты по данным, которые знают оба языка программирования, получают больше, чем те, кто использует только Python. Так что чем больше, тем веселее.

Личная рекомендация

Лично я бы выступал за Python, особенно для новичков, начинающих карьеру в области Data Science. Поскольку он более универсален и его можно использовать для многих других целей, потому что область постоянно развивается, и кто знает, где она будет через 5 или 10 лет? Так что с Python, наверное, проще переключиться на другое направление.

Кроме того, поскольку Python более удобен для начинающих, чем R, поэтому имеет смысл начать с Python, особенно если кто-то может чувствовать себя не очень комфортно со статистикой.

Говоря о статистике, как мы видели, потенциал заработка с Python устанавливает вас (в среднем) выше, чем с R.

Однако, если ваша область действительно специфична, например биоинформатика или здравоохранение, то R может предложить гораздо больше!

Хотя R намного лучше с визуализацией, чем Python.

Если кто-то является опытным специалистом по обработке данных и программистом, я уверен, что он может использовать любой язык, имея достаточно времени для адаптации. Но мои предложения относительно Python предназначены для начинающих, а не для более опытных профессионалов. Тем не менее, знание обоих языков делает человека еще выше на рынке труда.

Наконец, я считаю, что не существует одной обуви, которая подходила бы всем!

Важен, опять же, на мой взгляд, искренний интерес к любой области.

Контакт

Свяжитесь со мной в LinkedIn.

Загляните на мой GitHub.

P.S. Если вам нравится непрерывное чтение на прекрасной платформе Medium.com, подумайте о том, чтобы поддержать авторов этого сообщества, подписавшись на членство ЗДЕСЬ. Он стоит всего 5 долларов США в месяц и поддерживает всех авторов.

Подпишитесь на DDIntel Здесь.

Посетите наш сайт здесь: https://www.datadriveninvestor.com

Присоединяйтесь к нашей сети здесь: https://datadriveninvestor.com/collaborate