Те, кто работает с Predictive Analytics, всегда пытаются найти более эффективный способ. Мы выбрали область, которая может становиться все лучше и лучше с каждым днем. И в последние несколько лет, с развитием новых технологий и подходов к сбору данных, мы привлекаем к себе внимание, чтобы сделать именно это: найти лучшие способы. Традиционно существует три основных способа разработки моделей и алгоритмов для прогнозной аналитики: (1) дорогое решение SAS, (2) более дешевое, но столь же эффективное IBM SPSS или (3) «R» с открытым исходным кодом. Мы в CompassRed думаем, что есть четвертый вариант: использовать лучшее из всего.

Что такое R?

R — это относительно новая программа с открытым исходным кодом, похожая на давние проприетарные статистические программы IBM SPSS и SAS, обе из которых доступны уже почти 50 лет. R включает в себя набор основных функций подготовки данных, статистические функции, такие как линейная регрессия и дисперсионный анализ, а также возможность построения графиков. Помимо стандартных функций, большое количество пакетов, разработанных добровольцами, доступно в Комплексной сети архивов R (https://cran.r-project.org). Как и в случае со всем программным обеспечением с открытым исходным кодом, любой может разрабатывать и редактировать подпрограммы R.

Хорошее

Одним из наиболее важных преимуществ R является то, что он доступен бесплатно. Любой желающий может загрузить программное обеспечение и его пакеты с CRAN. Также нет лицензионных ограничений на продажу приложений, созданных с помощью кода R.

Еще одним важным преимуществом является то, что участники постоянно загружают новые процедуры, что обеспечивает доступ ко многим новейшим инновациям в статистическом анализе. Для проприетарных статистических программ новые подпрограммы доступны только в следующем выпуске программного обеспечения, которое может не появиться в течение года или более. Думайте об этом как о новом «Tesla» статистического программного обеспечения: зачем ждать модели следующего года, когда вы можете постоянно совершенствоваться?

Компании-разработчики проприетарного статистического программного обеспечения также обычно не позволяют пользователям напрямую общаться со своими командами разработчиков; напротив, имена разработчиков R публикуются с каждой подпрограммой R. Эта возможность напрямую общаться с разработчиками позволяет уведомлять их об ошибках и упрощает пользователям изменение подпрограмм R для самостоятельного исправления ошибок и добавления улучшений.

Плохое

Одним из основных недостатков R является время, необходимое для разработки подпрограмм. В отличие от IBM SPSS, для программы не был разработан сложный графический пользовательский интерфейс (GUI), хотя некоторый прогресс в этом направлении достигнут Microsoft's Revolution Analytics, которая недавно была куплена Microsoft и переименована в Microsoft R (Норман Ни , разработчик SPSS, одно время был генеральным директором Revolution Analytics). Без графического интерфейса R запускается из строковых команд.

Пользователи R должны принять принцип предупреждение о покупателях (пусть покупатель остерегается), поскольку ни одна организация не гарантирует целостность подпрограмм R. R Foundation продвигает использование R и облегчает общение между разработчиками и пользователями R, но не оценивает качество кода R. Как и в Википедии, пользователь предполагает, что любые недостатки в программе R будут постоянно обнаруживаться и исправляться пользователями. Использование R требует веры в силу краудсорсинга.

Открытость кода R означает, что внутри программного обеспечения существует некоторый риск заражения вирусами. Подпрограммы R всегда следует загружать через безопасное соединение с URL-адресом, начинающимся с https, а не с http. Фонд R делает следующее заявление относительно безопасности кода R:

«CRAN делает некоторые проверки этих бинарных файлов на наличие вирусов, но не может дать гарантий. Соблюдайте обычные меры предосторожности при загрузке исполняемых файлов».

Исходный код R обрабатывает данные в памяти (т. е. в оперативной памяти компьютера), что ограничивает его способность работать с большими наборами данных. Хотя разработчики создают решения, которые позволяют R хранить данные на жестком диске, пользователи должны убедиться, что их версия R поддерживает эту возможность, прежде чем использовать ее с большими наборами данных.

Лучший способ

Чтобы преодолеть некоторые недостатки R, можно рассмотреть возможность запуска R в проприетарной программе. Например, IBM SPSS позволяет легко добавлять подпрограммы R в свой графический интерфейс, поэтому можно использовать IBM SPSS в качестве платформы для запуска R, а R — как расширение возможностей IBM SPSS. То же самое можно сделать из SAS, но это не так просто.

Независимо от того, работает ли R отдельно или в проприетарном программном обеспечении, он стал неотъемлемой частью статистического анализа. Каждый день появляются улучшения, которые делают все наборы инструментов все более и более ценными, и в результате этих изменений мы, вероятно, увидим возрождение Predictive Intelligence. Искусственный интеллект (ИИ) и машинное обучение — все это способствует этому возрождению. Достижения в области предиктивной разведки основаны на успехе всех этих инструментов.