Очень важные концепции Python, с которыми нужно ознакомиться перед изучением науки о данных

Если вам интересно изучать науку о данных, вы, вероятно, слышали о "Python". Это популярный язык программирования, часто используемый в науке о данных, машинном обучении и анализе данных.

Если вы хотите узнать, что такое наука о данных и с чего начать, посмотрите здесь.

В этой статье мы рассмотрим основные концепции Python, которые вы должны знать, прежде чем углубляться в науку о данных. Теперь расслабьтесь и следуйте дальше, потому что это будет захватывающее путешествие.

Почему эти понятия важно знать?

Эти концепции — то, что вам нужно, чтобы начать свое путешествие по науке о данных. Вы будете работать с ними в своей повседневной работе в качестве специалиста по данным, поэтому хорошо иметь четкое представление о том, как они работают.

Целые числа и числа с плавающей запятой в Python

Числа являются одним из самых фундаментальных понятий в науке о данных. И Python содержит представления (типы данных) для различных типов чисел, которые могут существовать. В основном они подразделяются на:

Целые числа: это целые числа, которые в Python могут быть положительными или отрицательными. Примеры включают 200, -100, 67 и так далее.
Числа с плавающей запятой/: это десятичные значения, которые могут быть как положительными, так и отрицательными. Примеры включают 200,65, -14,34, 53,0002 и так далее.

Строки в Python

В Python строки содержат буквенно-цифровые значения, которые обычно заключены в одинарные или двойные кавычки.

Пример включает "This article is helpful for you if you interested in python and data science.".

Основы строк

Тип text является одним из наиболее распространенных типов и часто называется string или, в Python, просто str.

my_city = "New York"
print(type(my_city))

#Single quotes have exactly
#the same use as double quotes
my_city = 'New York'
print(type(my_city))

#Setting the variable type explicitly
my_city = str("New York")
print(type(my_city))
<class 'str'>
<class 'str'>
<class 'str'>

Как заменить часть строки

Метод replace () заменяет часть строки на другую. В качестве примера заменим «Мохаммад» на «Ахмед».

word = "Mohammad is a data scientist"
word.replace("Mohammad","Ahmed")

Как повторить строку

Вы можете использовать символ * для повторения строки.

Здесь мы умножаем слово «Токио» на 3.

words = "Tokyo" * 3 
print(words)

TokyoTokyoTokyo

join(): как объединить элементы Iterable в одну строку в Python

Используйте метод join(), чтобы объединить все элементы, если они являются итерируемыми, в строку.

Основной синтаксис: string.join(iterable)

В соответствии с приведенным выше синтаксисом в качестве разделителя требуется строка.

Метод возвращает новую строку, что означает, что исходный итератор остается неизменным.

Поскольку метод join() принимает только строки, если какой-либо элемент в итерируемом объекте имеет другой тип, будет выдана ошибка.

Давайте посмотрим несколько примеров со строкой.

присоединиться (): Строки

Метод join () помещает знак $ в качестве разделителя для каждого символа в строке.

my_string = 'beach'
print('$'.join(my_string))
#output: b$e$a$c$h

Оператор сравнения в Python

Вы используете операторы сравнения для сравнения двух операндов. Когда операторы сравнения выполняются над двумя операндами, они возвращают логическое значение true или false. К операторам сравнения относятся:

Знак больше >
Знак меньше <
Знак равенства ==
Знак не равно !=
Больше или равно >=
Меньше или равно <=

Вот несколько примеров: 2==2 приведет к True. Также 5>= 5 приведет к True, так как 5 также равно 5.

Оператор членства в Python

Вы используете операцию членства, чтобы определить, принадлежит ли значение последовательности/итерации. Последовательность может быть строкой символов, списком чисел или чем-то еще.

Оператор членства включает в себя оператор in и оператор not in.
Например, предположим, я хочу проверить, есть ли символ b в строке "What a time to be alive" — я могу сделать это, введя следующий оператор, и результатом будет логическое значение.

"b" in "what a time to be alive"

>>> True

Форматирование F-строки в Python

В некоторых случаях может потребоваться вставить значение переменной в строку.

В Python существует несколько способов форматирования строк, но мы сосредоточимся на одном из них: формате f-literal.
Давайте рассмотрим пример: у меня есть две переменные, имя и возраст, и я хочу включить их в строку, а затем распечатать всю строку.

age = 10
name = "Eagle"
string = f"There are some birds of prey such as {name} that are older than {age} years."
print(string)
>>> There are some birds of prey such as Eagle that are older than 10 years.

Списки в Python

Вы используете списки для хранения или организации данных в последовательном порядке. Эти данные могут быть строкой, числом или итерируемыми объектами, такими как список.

Список также является изменяемым, что означает, что он может расширяться и изменяться после того, как вы его объявите (вы добавите в него новые элементы).
В Python вы можете создать список с квадратными скобками, а затем сохранить его в переменной. Например:

lst_of_num = [2, 3, 4, 2]
diverse_lst = [4, "Folks", ["2", 4, 6, 7]]

Словари в Python

Словарь — это коллекция Python, в которой данные хранятся в виде пар ключ-значение. Вы можете создать словарь с помощью фигурных скобок. Кроме того, словари изменяемы. Например:

my_dict = {"names":["Grace", "Dave", "Jack"], "scores":[45, 56, 70]}

Значение перед столбцом называется ключом и может содержать только неизменяемый тип данных, например строки, целые числа или кортежи. Значение после столбца просто называется значением и может содержать изменяемые и неизменяемые типы данных, такие как списки, словари и т. д.
Вы можете получить доступ к значениям словаря с помощью ключей. Например, предположим, что я хочу получить имя студента из приведенного выше словаря. Я могу просто сделать это легко с помощью ключей, например:

print(my_dict["names"])
>>> ["Grace", "Dave", "Jack"]

Вам часто понадобятся словари для задач, связанных с парами ключ-значение, или когда вы хотите преобразовать что-то в серию/фрейм данных в Pandas (библиотека, с которой вы будете работать в основном для обработки данных).

`Zip()` Функция в Python

Вы используете функцию zip для сжатия (объединения) двух итерируемых объектов, таких как список, кортеж, словарь и т. д. И каждый элемент каждого итерируемого объекта объединяется вместе.

Другими словами, первый элемент первой итерации соединяется с первым элементом второй итерации. Обычно вы используете функцию zip для объединения двух списков или кортежей в словарь. Посмотрим, как это пойдет.
Допустим, у меня есть список, содержащий имя учащегося, и другой список, содержащий оценку каждого учащегося. Теперь, если я хочу сопоставить имя каждого ученика с его соответствующей оценкой, я могу сделать это с помощью функции zip.

name = ["Dave", "Jerry", "Sasha"]
score = [43, 56, 78]
result = zip(name, score)

Теперь мы закончили, но если вы печатаете результат из приведенного выше кода, это всегда объект Iterator.
Последнее, что нам нужно сделать, это использовать функцию dict, которую вы используете для преобразования итерируемого объекта в словарь.

print(dict(result)
>>> {"Dave":43, "Jerry":56, "Sasha":78}

Вы часто будете использовать функцию zip() для присоединения списка к словарю в науке о данных.

`Counter()` Функция в Python

Функция счетчика, как следует из названия, позволяет подсчитать, сколько раз встречаются значения в итерируемом объекте.

Функция счетчика создает объект счетчика в виде словаря. Чтобы использовать counter(), нам нужно будет импортировать его из модуля коллекции. Давайте посмотрим, как это работает.

from collections import Counter
lst = ["Free", "Code", "Camp", "Code", "Free"]
print(Counter(lst))
>>> Counter({'Free': 2, 'Code': 2, 'Camp': 1})

Вы будете часто использовать функцию Counter при обработке естественного языка в науке о данных.

`Range()` Функция в Python

Функция диапазона, как следует из названия, предоставляет последовательность значений в пределах определенного диапазона, когда это необходимо. В основном это работает следующим образом: (начало, конец-1). То есть оно не будет включать последнее значение.

Итак, допустим, мне нужен список чисел в диапазоне от 2 до 10. Поэтому я могу легко сделать это с помощью функции диапазона, а затем преобразовать результат в список вместо создания списка и последующего ввода этих элементов. Например:

# rememeber it's end-1 so it will display values from 2 to 10
no_range = range(2, 11)
print(list(no_range))
>>> [2, 3, 4, 5, 6, 7, 8, 9, 10]

Вам часто понадобится функция range (), когда вам нужно получить список чисел с большим диапазоном в науке о данных.

For-циклы в Python

Оператор цикла for позволяет повторять задачу заданное количество раз. Синтаксис цикла for в основном выглядит так:

lst  = ["Free", "Code", "Camp", "is", "the", "best", "place", "to", "learn"]
for i in lst:
	print(i)

Вам часто понадобятся циклы for в науке о данных, чтобы перебирать итерируемый объект и выполнять определенную задачу.
Мы видим, что переменная i служит заполнителем для доступа к каждому элементу в списке.

Заключение

Спасибо, что нашли время прочитать эту статью. Надеюсь, вы узнали кое-что.