Если вам интересно изучать науку о данных, вы, вероятно, слышали о "Python". Это популярный язык программирования, часто используемый в науке о данных, машинном обучении и анализе данных.
Если вы хотите узнать, что такое наука о данных и с чего начать, посмотрите здесь.
В этой статье мы рассмотрим основные концепции Python, которые вы должны знать, прежде чем углубляться в науку о данных. Теперь расслабьтесь и следуйте дальше, потому что это будет захватывающее путешествие.
Почему эти понятия важно знать?
Эти концепции — то, что вам нужно, чтобы начать свое путешествие по науке о данных. Вы будете работать с ними в своей повседневной работе в качестве специалиста по данным, поэтому хорошо иметь четкое представление о том, как они работают.
Целые числа и числа с плавающей запятой в Python
Числа являются одним из самых фундаментальных понятий в науке о данных. И Python содержит представления (типы данных) для различных типов чисел, которые могут существовать. В основном они подразделяются на:
- Целые числа: это целые числа, которые в Python могут быть положительными или отрицательными. Примеры включают 200, -100, 67 и так далее.
- Числа с плавающей запятой/: это десятичные значения, которые могут быть как положительными, так и отрицательными. Примеры включают 200,65, -14,34, 53,0002 и так далее.
Строки в Python
В Python строки содержат буквенно-цифровые значения, которые обычно заключены в одинарные или двойные кавычки.
Пример включает "This article is helpful for you if you interested in python and data science."
.
Основы строк
Тип text
является одним из наиболее распространенных типов и часто называется string или, в Python, просто str
.
my_city = "New York" print(type(my_city)) #Single quotes have exactly #the same use as double quotes my_city = 'New York' print(type(my_city)) #Setting the variable type explicitly my_city = str("New York") print(type(my_city)) <class 'str'> <class 'str'> <class 'str'>
Как заменить часть строки
Метод replace ()
заменяет часть строки на другую. В качестве примера заменим «Мохаммад» на «Ахмед».
word = "Mohammad is a data scientist" word.replace("Mohammad","Ahmed")
Как повторить строку
Вы можете использовать символ *
для повторения строки.
Здесь мы умножаем слово «Токио» на 3.
words = "Tokyo" * 3 print(words) TokyoTokyoTokyo
join(): как объединить элементы Iterable в одну строку в Python
Используйте метод join()
, чтобы объединить все элементы, если они являются итерируемыми, в строку.
Основной синтаксис: string.join(iterable)
В соответствии с приведенным выше синтаксисом в качестве разделителя требуется строка.
Метод возвращает новую строку, что означает, что исходный итератор остается неизменным.
Поскольку метод join()
принимает только строки, если какой-либо элемент в итерируемом объекте имеет другой тип, будет выдана ошибка.
Давайте посмотрим несколько примеров со строкой.
присоединиться (): Строки
Метод join ()
помещает знак $
в качестве разделителя для каждого символа в строке.
my_string = 'beach' print('$'.join(my_string)) #output: b$e$a$c$h
Оператор сравнения в Python
Вы используете операторы сравнения для сравнения двух операндов. Когда операторы сравнения выполняются над двумя операндами, они возвращают логическое значение true или false. К операторам сравнения относятся:
- Знак больше
>
- Знак меньше
<
- Знак равенства
==
- Знак не равно
!=
- Больше или равно
>=
- Меньше или равно
<=
Вот несколько примеров: 2==2
приведет к True
. Также 5>= 5
приведет к True
, так как 5 также равно 5.
Оператор членства в Python
Вы используете операцию членства, чтобы определить, принадлежит ли значение последовательности/итерации. Последовательность может быть строкой символов, списком чисел или чем-то еще.
- Оператор членства включает в себя оператор
in
и операторnot in
. - Например, предположим, я хочу проверить, есть ли символ
b
в строке"What a time to be alive"
— я могу сделать это, введя следующий оператор, и результатом будет логическое значение.
"b" in "what a time to be alive" >>> True
Форматирование F-строки в Python
В некоторых случаях может потребоваться вставить значение переменной в строку.
- В Python существует несколько способов форматирования строк, но мы сосредоточимся на одном из них: формате f-literal.
- Давайте рассмотрим пример: у меня есть две переменные, имя и возраст, и я хочу включить их в строку, а затем распечатать всю строку.
age = 10 name = "Eagle" string = f"There are some birds of prey such as {name} that are older than {age} years." print(string) >>> There are some birds of prey such as Eagle that are older than 10 years.
Списки в Python
Вы используете списки для хранения или организации данных в последовательном порядке. Эти данные могут быть строкой, числом или итерируемыми объектами, такими как список.
- Список также является изменяемым, что означает, что он может расширяться и изменяться после того, как вы его объявите (вы добавите в него новые элементы).
- В Python вы можете создать список с квадратными скобками, а затем сохранить его в переменной. Например:
lst_of_num = [2, 3, 4, 2] diverse_lst = [4, "Folks", ["2", 4, 6, 7]]
Словари в Python
Словарь — это коллекция Python, в которой данные хранятся в виде пар ключ-значение. Вы можете создать словарь с помощью фигурных скобок. Кроме того, словари изменяемы. Например:
my_dict = {"names":["Grace", "Dave", "Jack"], "scores":[45, 56, 70]}
- Значение перед столбцом называется ключом и может содержать только неизменяемый тип данных, например строки, целые числа или кортежи. Значение после столбца просто называется значением и может содержать изменяемые и неизменяемые типы данных, такие как списки, словари и т. д.
- Вы можете получить доступ к значениям словаря с помощью ключей. Например, предположим, что я хочу получить имя студента из приведенного выше словаря. Я могу просто сделать это легко с помощью ключей, например:
print(my_dict["names"]) >>> ["Grace", "Dave", "Jack"]
Вам часто понадобятся словари для задач, связанных с парами ключ-значение, или когда вы хотите преобразовать что-то в серию/фрейм данных в Pandas (библиотека, с которой вы будете работать в основном для обработки данных).
Zip()
Функция в Python
Вы используете функцию zip для сжатия (объединения) двух итерируемых объектов, таких как список, кортеж, словарь и т. д. И каждый элемент каждого итерируемого объекта объединяется вместе.
- Другими словами, первый элемент первой итерации соединяется с первым элементом второй итерации. Обычно вы используете функцию zip для объединения двух списков или кортежей в словарь. Посмотрим, как это пойдет.
- Допустим, у меня есть список, содержащий имя учащегося, и другой список, содержащий оценку каждого учащегося. Теперь, если я хочу сопоставить имя каждого ученика с его соответствующей оценкой, я могу сделать это с помощью функции zip.
name = ["Dave", "Jerry", "Sasha"] score = [43, 56, 78] result = zip(name, score)
- Теперь мы закончили, но если вы печатаете результат из приведенного выше кода, это всегда объект Iterator.
- Последнее, что нам нужно сделать, это использовать функцию dict, которую вы используете для преобразования итерируемого объекта в словарь.
print(dict(result) >>> {"Dave":43, "Jerry":56, "Sasha":78}
Вы часто будете использовать функцию zip()
для присоединения списка к словарю в науке о данных.
Counter()
Функция в Python
Функция счетчика, как следует из названия, позволяет подсчитать, сколько раз встречаются значения в итерируемом объекте.
- Функция счетчика создает объект счетчика в виде словаря. Чтобы использовать counter(), нам нужно будет импортировать его из модуля коллекции. Давайте посмотрим, как это работает.
from collections import Counter lst = ["Free", "Code", "Camp", "Code", "Free"] print(Counter(lst)) >>> Counter({'Free': 2, 'Code': 2, 'Camp': 1})
- Вы будете часто использовать функцию
Counter
при обработке естественного языка в науке о данных.
Range()
Функция в Python
Функция диапазона, как следует из названия, предоставляет последовательность значений в пределах определенного диапазона, когда это необходимо. В основном это работает следующим образом: (начало, конец-1). То есть оно не будет включать последнее значение.
- Итак, допустим, мне нужен список чисел в диапазоне от 2 до 10. Поэтому я могу легко сделать это с помощью функции диапазона, а затем преобразовать результат в список вместо создания списка и последующего ввода этих элементов. Например:
# rememeber it's end-1 so it will display values from 2 to 10 no_range = range(2, 11) print(list(no_range)) >>> [2, 3, 4, 5, 6, 7, 8, 9, 10]
Вам часто понадобится функция range ()
, когда вам нужно получить список чисел с большим диапазоном в науке о данных.
For-циклы в Python
Оператор цикла for позволяет повторять задачу заданное количество раз. Синтаксис цикла for в основном выглядит так:
lst = ["Free", "Code", "Camp", "is", "the", "best", "place", "to", "learn"] for i in lst: print(i)
- Вам часто понадобятся циклы for в науке о данных, чтобы перебирать итерируемый объект и выполнять определенную задачу.
- Мы видим, что переменная
i
служит заполнителем для доступа к каждому элементу в списке.
Заключение
Спасибо, что нашли время прочитать эту статью. Надеюсь, вы узнали кое-что.