Давайте изучим науку о данных в 2020 году

Добро пожаловать в четвертую часть ускоренного курса по науке о данных. Речь пойдет о том, чтобы наконец что-то сделать с Python и данными. Я рассмотрю основные методы обработки данных. Как можно хранить информацию. Мы уже узнали, что хотим представлять наши данные в виде векторов и матриц.

Импорт данных

Мы можем начать с импорта файлов. Возможно, у вас уже есть на вашем компьютере

  • txts
  • Таблицы Excel
  • jsons
  • xmls
  • csv

И вы можете заставить все это работать, импортировав его в Jupyter Notebook.

Большая часть этого выполняется с помощью «open (…)», например, вот так:

Взгляните на Программирование на Python или Настоящий Python, чтобы узнать об этом больше.

То же самое и с другими формами файлов.

Мы уже знаем, что хотим представить наши данные в виде массивов (матриц, векторов), поэтому давайте посмотрим, как мы можем это сделать в Python.

Хранение данных

Теперь вопрос в том, как их хранить. Есть несколько стандартных способов сделать это.

Numpy Arrays - это простой способ представления массивов, а NumPy - одна из лучших библиотек для анализа данных. Поищите здесь официальную документацию. А вот фрагмент из Jupyter Notebook, если вы хотите определить вектор [1,2,3]:

Быстро и просто, правда?

Pandas - это библиотека с открытым исходным кодом под лицензией BSD, предоставляющая высокопроизводительные, простые в использовании структуры данных и инструменты анализа данных.

DataFrame, табличный формат электронных таблиц, является частью Pandas и также позволяет играть с данными. В этом примере показано, как использовать его для создания простой электронной таблицы:

Он действительно эффективен и удобен в использовании, особенно если вы раньше активно использовали Excel, все это будет вам хорошо знакомо.

Помимо этих двух очень эффективных пакетов, сам Python поставляется с множеством структур данных. Посмотрите, сколько их здесь. Просто чтобы пронумеровать пару, которая пригодится, когда дело доходит до манипулирования данными:

  • списки
  • словари
  • кортежи

Лучший способ научиться этому - поиграться с ним, поэтому откройте блокнот Jupyter прямо сейчас!

Получение данных из Интернета

Если на вашем компьютере нет каких-либо интересных данных, лучше всего просто почистить информацию из Интернета. С Python это довольно просто с такими пакетами, как запросы и BeautifulSoup (для очистки данных).

Большинство веб-сайтов легко очищаются с помощью запросов, и это всего лишь вопрос очистки.

Я подробнее расскажу о получении данных в следующей лекции, где я также приведу примеры извлечения кода из Интернета.

Если вы хотите увидеть видеоверсию этого текста, загляните сюда: