Давайте изучим науку о данных в 2020 году
Добро пожаловать в четвертую часть ускоренного курса по науке о данных. Речь пойдет о том, чтобы наконец что-то сделать с Python и данными. Я рассмотрю основные методы обработки данных. Как можно хранить информацию. Мы уже узнали, что хотим представлять наши данные в виде векторов и матриц.
Импорт данных
Мы можем начать с импорта файлов. Возможно, у вас уже есть на вашем компьютере
- txts
- Таблицы Excel
- jsons
- xmls
- csv
И вы можете заставить все это работать, импортировав его в Jupyter Notebook.
Большая часть этого выполняется с помощью «open (…)», например, вот так:
Взгляните на Программирование на Python или Настоящий Python, чтобы узнать об этом больше.
То же самое и с другими формами файлов.
Мы уже знаем, что хотим представить наши данные в виде массивов (матриц, векторов), поэтому давайте посмотрим, как мы можем это сделать в Python.
Хранение данных
Теперь вопрос в том, как их хранить. Есть несколько стандартных способов сделать это.
Numpy Arrays - это простой способ представления массивов, а NumPy - одна из лучших библиотек для анализа данных. Поищите здесь официальную документацию. А вот фрагмент из Jupyter Notebook, если вы хотите определить вектор [1,2,3]:
Быстро и просто, правда?
Pandas - это библиотека с открытым исходным кодом под лицензией BSD, предоставляющая высокопроизводительные, простые в использовании структуры данных и инструменты анализа данных.
DataFrame, табличный формат электронных таблиц, является частью Pandas и также позволяет играть с данными. В этом примере показано, как использовать его для создания простой электронной таблицы:
Он действительно эффективен и удобен в использовании, особенно если вы раньше активно использовали Excel, все это будет вам хорошо знакомо.
Помимо этих двух очень эффективных пакетов, сам Python поставляется с множеством структур данных. Посмотрите, сколько их здесь. Просто чтобы пронумеровать пару, которая пригодится, когда дело доходит до манипулирования данными:
- списки
- словари
- кортежи
Лучший способ научиться этому - поиграться с ним, поэтому откройте блокнот Jupyter прямо сейчас!
Получение данных из Интернета
Если на вашем компьютере нет каких-либо интересных данных, лучше всего просто почистить информацию из Интернета. С Python это довольно просто с такими пакетами, как запросы и BeautifulSoup (для очистки данных).
Большинство веб-сайтов легко очищаются с помощью запросов, и это всего лишь вопрос очистки.
Я подробнее расскажу о получении данных в следующей лекции, где я также приведу примеры извлечения кода из Интернета.
Если вы хотите увидеть видеоверсию этого текста, загляните сюда: