Изучение важных практик, применяемых специалистами по обработке и анализу данных и инженерами по машинному обучению, гарантирует, что работа будет выполняться качественно и эффективно для организации.

Существует большое количество курсов, посвященных основам программирования и обработки данных. Они хорошо подкрепляют различные концепции машинного обучения и показывают различные шаги, которые обычно выполняются при создании проекта с возможностями машинного обучения. Хотя эти курсы в основном сосредоточены на теоретических аспектах машинного обучения, может быть полезно, если вы научитесь уделять больше внимания передовым методам при создании приложений, связанных с наукой о данных и машинным обучением.

С ростом объемов данных и экспоненциальным ростом вычислительных мощностей резко возрос спрос на людей, которые могли бы использовать данные и генерировать прогнозы одновременно. с полезными идеями в зависимости от варианта использования проекта. Кроме того, существует множество должностей, связанных с данными, таких как инженер данных, архитектор данных, ученые данных, инженер глубокого обучения и инженер машинного обучения. Эти должности обычно требуют хорошего понимания обработки данных, разработки функций, извлечения, загрузки и обработки данных. Для таких должностей, как специалисты по обработке и анализу данных или инженеры по машинному обучению, часто важно создавать современные модели, которые действительно хорошо работают с тестовыми данными (данными, которые модели не видели). до). Поэтому, учитывая множество шагов, связанных с рабочим процессом науки о данных, становится важно также изучить полезные методы при создании приложения ML. Ниже приведены некоторые рекомендации, которым может следовать специалист по данным или инженер по машинному обучению, чтобы создать более качественный код и добиться лучших результатов для проекта.

Получите точное понимание бизнес-проблемы

С большим количеством обязанностей наряду с образом, часто бывает так, что можно попасть в поток без определения сроков или бизнес-целей проекта. Что усложняет ситуацию, так это то, что есть вероятность того, что вещи, связанные с ML в проекте, не будут четко сформулированы или определены. В этом случае может быть полезно принять меры, чтобы понять требования проекта, а также его масштабы и узнать, насколько осуществимо машинное обучение. Признание этих ключевых показателей и признание того, можно ли на самом деле внедрить искусственный интеллект и может ли он оказать положительное влияние на создаваемую ценность, может стимулировать ваши усилия и влияние на проект.

Начните с простой метрики

В машинном обучении существует множество показателей, таких как средняя абсолютная ошибка, среднеквадратическая ошибка, средняя абсолютная ошибка в процентах, среднеквадратические ошибки в случае проблем типа регрессии. Если мы рассмотрим проблемы классификации, у нас есть такие показатели, как точность, отзыв, точность, оценка f1, оценка микро-f1, оценка макро-f1 и многие другие. Глядя на все эти метрики, можно убедить использовать все эти метрики при тестировании и понимании этих моделей. Тем не менее, может быть сложно принять правильную метрику из-за их огромного количества. В этом случае лучше всего выбрать упрощенную метрику, которая легко интерпретируется и понятна в зависимости от проблемы. Узнав об этой метрике и проанализировав влияние, можно добавить ее в наш ML для прогнозов.

Создайте сильную команду по науке о данных

Наука о данных — это коммуникация, действие и автоматизация систем, что позволяет сократить человеческие усилия и помочь компаниям получить большую прибыль. Для создания инструментов с возможностями искусственного интеллекта важно работать с командой, обладающей обширными знаниями и идеями, начиная со сбора данных, подготовки данных, обучения моделей и развертывания службы в облаке, чтобы она была доступна для конечный пользователь. Другими словами, специалисты по данным могут не приносить большой пользы, если продукт, который они производят, не потребляется конечным пользователем. Поэтому они должны работать с командой людей, обладающих знаниями в разных областях, чтобы они могли создать и выпустить полнофункциональный продукт.

Научитесь производить впечатление на заинтересованных лиц

Хотя технические возможности продуктов машинного обучения и глубокого обучения впечатляют, они могут не иметь практически никакой ценности, если не впечатлят заинтересованных сторон бизнеса, а их развертывание не принесет большой прибыли с точки зрения прибыли. прибыль организации. Что я в основном имею в виду под приведенным выше утверждением, так это то, что, хотя у нас есть результаты моделей ML, которые имеют чрезвычайно низкую среднюю абсолютную ошибку, среднеквадратичную ошибку или любую из ошибок в этом отношении, если они не могут оказать влияние на бизнес, хотя они технически хороши структурирован и выполним, это означает, что организация не может монетизировать результаты, основанные на искусственном интеллекте. Таким образом, проблема должна быть определена на основе общего увеличения дохода в результате развертывания, прибыли и повышения вовлеченности клиента. Принимая во внимание эти факторы, можно лучше определить цели и результаты проекта, а также дополнительные расходы на инфраструктуру, необходимые для запуска алгоритмов.

Сообщите о своих результатах

Вы потратили значительное количество времени, скажем, месяц, на сбор дополнительных данных, получение ключевых сведений, а также на поиск наиболее важных функций, полезных для моделей машинного обучения, и в целом на определение результата. Теперь пришло время сформулировать ваши результаты команде, чтобы у них было необходимое время для принятия мер на основе ваших результатов. Хотя впечатляет то, что вы потратили много времени на то, чтобы понять бизнес-проблему, а также изучить наиболее важные особенности данных, неспособность разъяснить то, что вы узнали и над чем работали, часто может замедлить прогресс. проекта. Следовательно, было бы очень полезно сообщить команде об областях, которыми вы занимаетесь, а также о результатах, полученных в результате работы.

Постоянно отслеживайте результаты после развертывания

После этапа развертывания настало время постоянно отслеживать производительность моделей машинного обучения и следить за ухудшением производительности на основе прогнозов. Существуют важные ключевые показатели эффективности (KPI), которые помогают отслеживать, как работает модель машинного обучения в производственной среде. Таким образом, отслеживание производительности модели может помочь гарантировать, что модель оказывает влияние на бизнес и прибыль для организации.

Создайте сильное портфолио по науке о данных

Для тех, кто новичок в машинном обучении или науке о данных и не имеет опыта, чтобы стать таковым, может быть очень удобно, если вы создадите солидное портфолио своей работы, включающее ваши лучшие проекты и задания. Не стесняйтесь посмотреть это видео, в котором я рассказываю и объясняю важность портфолио для получения вашей первой работы в области науки о данных. Спасибо.

Заключение

Мы увидели некоторые важные практики, чтобы стать хорошим специалистом по данным или инженером по машинному обучению. Хотя в этой статье освещается множество передовых практик, есть и другие важные практики, которые можно было бы рассмотреть. Но мы надеемся, что эта статья даст вам хорошее представление о том, что можно сделать, чтобы стать эффективным специалистом по данным или инженером по машинному обучению. Спасибо, что нашли время прочитать эту статью.

Ваш членский взнос напрямую поддерживает Сухаса Маддали и других писателей, которых вы читаете. Вы также получите полный доступ ко всем историям на Medium. Нажмите на ссылку ниже, чтобы стать участником Medium и получить доступ к неограниченному списку статей. Ниже приведена ссылка. Спасибо.

https://suhas-maddali007.medium.com/membership

Ниже приведены способы, по которым вы можете связаться со мной или ознакомиться с моей работой. Спасибо.

GitHub: suhasmaddali (Сухас Маддали) (github.com)

LinkedIn: (1) Сухас Маддали, Северо-восточный университет, наука о данных | LinkedIn

Среда:Сухас Маддали — среда