В настоящее время большинство сообщений в блогах, руководств и содержания содержат фрагменты кода, чтобы представить концепцию науки о данных. Во-первых, вы можете сказать себе: «Конечно. Почему нет? Двух зайцев одним выстрелом, очевидно». Тем не менее, то, что вы могли бы испытать, — это подлая мысль: «Да, я в значительной степени выучил….. концепцию», но на самом деле? У вас есть? Конечно, нет!

Конечно, вы можете использовать, скажем, логистическую регрессию, только зная, что она используется для задач классификации, но чего вам не хватает, так это знания, когда ее использовать? Насколько эффективен будет для вашей конкретной задачи? С другой стороны, вы могли бы легко изменить структуру модели, обладая глубоким знанием основной концепции. Держу пари, вы бы выбрали последнее.

Мое скромное мнение, конечно, было бы глубокое погружение в книги, лекции и и т. д.. Поскольку содержание с фрагментами кода о концепции облегчает нашу жизнь,избегание всех затрат определенно спасет нас от ловушки «Я уже знаю это».

Первое, что мы, как специалисты по данным, должны понять, это то, что если контент о понятии, которое мы пытаемся изучить, имеет примерно такой фрагмент;

import sklearn ...

скорее всего, мы только научимся не концепции, а тому, как ее закодировать. Кроме того, создатели контента, такие как Statquest с Джошем Стармером, являются отличным источником концептуального обучения вместо простого способа.

Вот почему по всем вышеперечисленным причинам я начал свой стартап без кода мл, чтобы специалисты по данным, обладающие всеми знаниями концепций моделей, могли легко создать свой конвейер. Потому что я считаю, что если вы исключите кодирование из науки о данных, это будет основной концепцией. Те, кто разбирается в основных понятиях, превзойдут тех, кто сможет быстро написать код с помощью «руководств» в ближайшем будущем, когда в тренде будет AutoML.

Подпишитесь на меня и мой стартап в LinkedIn!