1) Научитесь очищать данные

Как бы мы все ни надеялись, что данные, которые мы используем, безупречны, реальность такова, что во многих случаях это не так! Изучите стандартные инструменты, такие как Pandas и NumPy, поскольку они стали инструментами для меня, как и для многих других, на нашем пути к созданию лучших алгоритмов.

Научиться работать с «не числом» (Нан) — это то, с чем раньше сталкивался каждый человек, работающий с данными. Таким образом, понимание влияния различных методов на модели, будь то установка значений Nan на экстремальные значения или просто полное отбрасывание значений Nan, может кардинально изменить результат.

2)Начните с основ

На данный момент мы все видели удивительные технологии, которые машинное обучение и искусственный интеллект принесли обществу, но прежде чем прыгнуть вглубь, найдите время, чтобы понять основы, такие как линейная регрессия, кластеризация K-средних и Наивный Байес. .

Все дело в прогрессе, а не в совершенстве, поэтому, прежде чем перейти к новейшим вещам, о которых вы только что слышали. Поймите, почему применяются определенные модели, потому что одна модель, скорее всего, не будет работать для решения всех задач, которые вы перед ней ставите!

3) Найдите способы сэкономить время!

Нет, я не имею в виду обходные пути, но разбивайте проблему и определяйте длительные или трудоемкие задачи, с которыми ваша программа будет постоянно сталкиваться. Такие задачи, как обучение модели, могут сильно различаться между устройствами. Одна из техник, которую я начал использовать в соответствии с парадигмой «Напиши один раз, запускай везде», — это травление.

Когда вы работаете с готовыми моделями в научном наборе, посмотрите, возможно ли использование параметра «n_jobs», так как это позволяет нескольким потокам работать над ускорением процесса. Еще одно улучшение рабочего процесса — травление вашей модели, это может сэкономить много времени и, что более важно, ресурсов процессора. Независимо от того, есть ли у вас передовое оборудование или минимальные требования, все, что нужно для рассола, — это несколько строк кода.

Сначала импортируйте встроенную библиотеку

импортный рассол

Затем мы сохраняем обученный классификатор в файле с расширением pickle, что позволяет один раз обучить классификатор на огромных наборах данных и обновлять его по мере необходимости. Если вам не нужно сохранять свою модель, просто прокомментируйте 2 следующие строки. Если вы знакомы с переключателями, это может быть местом для применения этих знаний.

clf = LinearRegression(n_jobs=-1) # n_jobs=-1 включает неограниченную многопоточность

clf.fit(X_train, y_train)

с open(‘linearRegression.pickle’, ‘wb’) как f:

pickle.dump(clf, f)

Независимо от того, только что вы сохранили модель или используете уже существующую модель, следующие 2 строки будут использовать этот файл рассола, если он существует.

pickle_in = открыть('[имя файла].picle','rb')

clf = pickle.load(pickle_in)