Если вам интересно изучать науку о данных, вы, вероятно, слышали о "Python". Это популярный язык программирования, часто используемый в науке о данных, машинном обучении и анализе данных.

Если вы хотите узнать, что такое наука о данных и с чего начать, посмотрите здесь.

В этой статье мы рассмотрим основные концепции Python, которые вы должны знать, прежде чем углубляться в науку о данных. Теперь расслабьтесь и следуйте дальше, потому что это будет захватывающее путешествие.

Почему эти понятия важно знать?

Эти концепции — то, что вам нужно, чтобы начать свое путешествие по науке о данных. Вы будете работать с ними в своей повседневной работе в качестве специалиста по данным, поэтому хорошо иметь четкое представление о том, как они работают.

Целые числа и числа с плавающей запятой в Python

Числа являются одним из самых фундаментальных понятий в науке о данных. И Python содержит представления (типы данных) для различных типов чисел, которые могут существовать. В основном они подразделяются на:

  • Целые числа: это целые числа, которые в Python могут быть положительными или отрицательными. Примеры включают 200, -100, 67 и так далее.
  • Числа с плавающей запятой/: это десятичные значения, которые могут быть как положительными, так и отрицательными. Примеры включают 200,65, -14,34, 53,0002 и так далее.

Строки в Python

В Python строки содержат буквенно-цифровые значения, которые обычно заключены в одинарные или двойные кавычки.

Пример включает "This article is helpful for you if you interested in python and data science.".

Основы строк

Тип text является одним из наиболее распространенных типов и часто называется string или, в Python, просто str.

my_city = "New York"
print(type(my_city))

#Single quotes have exactly
#the same use as double quotes
my_city = 'New York'
print(type(my_city))

#Setting the variable type explicitly
my_city = str("New York")
print(type(my_city))
<class 'str'>
<class 'str'>
<class 'str'>

Как заменить часть строки

Метод replace () заменяет часть строки на другую. В качестве примера заменим «Мохаммад» на «Ахмед».

word = "Mohammad is a data scientist"
word.replace("Mohammad","Ahmed")

Как повторить строку

Вы можете использовать символ * для повторения строки.

Здесь мы умножаем слово «Токио» на 3.

words = "Tokyo" * 3 
print(words)

TokyoTokyoTokyo

join(): как объединить элементы Iterable в одну строку в Python

Используйте метод join(), чтобы объединить все элементы, если они являются итерируемыми, в строку.

Основной синтаксис: string.join(iterable)

В соответствии с приведенным выше синтаксисом в качестве разделителя требуется строка.

Метод возвращает новую строку, что означает, что исходный итератор остается неизменным.

Поскольку метод join() принимает только строки, если какой-либо элемент в итерируемом объекте имеет другой тип, будет выдана ошибка.

Давайте посмотрим несколько примеров со строкой.

присоединиться (): Строки

Метод join () помещает знак $ в качестве разделителя для каждого символа в строке.

my_string = 'beach'
print('$'.join(my_string))
#output: b$e$a$c$h

Оператор сравнения в Python

Вы используете операторы сравнения для сравнения двух операндов. Когда операторы сравнения выполняются над двумя операндами, они возвращают логическое значение true или false. К операторам сравнения относятся:

  • Знак больше >
  • Знак меньше <
  • Знак равенства ==
  • Знак не равно !=
  • Больше или равно >=
  • Меньше или равно <=

Вот несколько примеров: 2==2 приведет к True. Также 5>= 5 приведет к True, так как 5 также равно 5.

Оператор членства в Python

Вы используете операцию членства, чтобы определить, принадлежит ли значение последовательности/итерации. Последовательность может быть строкой символов, списком чисел или чем-то еще.

  • Оператор членства включает в себя оператор in и оператор not in.
  • Например, предположим, я хочу проверить, есть ли символ b в строке "What a time to be alive" — я могу сделать это, введя следующий оператор, и результатом будет логическое значение.
"b" in "what a time to be alive"

>>> True

Форматирование F-строки в Python

В некоторых случаях может потребоваться вставить значение переменной в строку.

  • В Python существует несколько способов форматирования строк, но мы сосредоточимся на одном из них: формате f-literal.
  • Давайте рассмотрим пример: у меня есть две переменные, имя и возраст, и я хочу включить их в строку, а затем распечатать всю строку.
age = 10
name = "Eagle"
string = f"There are some birds of prey such as {name} that are older than {age} years."
print(string)
>>> There are some birds of prey such as Eagle that are older than 10 years.

Списки в Python

Вы используете списки для хранения или организации данных в последовательном порядке. Эти данные могут быть строкой, числом или итерируемыми объектами, такими как список.

  • Список также является изменяемым, что означает, что он может расширяться и изменяться после того, как вы его объявите (вы добавите в него новые элементы).
  • В Python вы можете создать список с квадратными скобками, а затем сохранить его в переменной. Например:
lst_of_num = [2, 3, 4, 2]
diverse_lst = [4, "Folks", ["2", 4, 6, 7]]

Словари в Python

Словарь — это коллекция Python, в которой данные хранятся в виде пар ключ-значение. Вы можете создать словарь с помощью фигурных скобок. Кроме того, словари изменяемы. Например:

my_dict = {"names":["Grace", "Dave", "Jack"], "scores":[45, 56, 70]}
  • Значение перед столбцом называется ключом и может содержать только неизменяемый тип данных, например строки, целые числа или кортежи. Значение после столбца просто называется значением и может содержать изменяемые и неизменяемые типы данных, такие как списки, словари и т. д.
  • Вы можете получить доступ к значениям словаря с помощью ключей. Например, предположим, что я хочу получить имя студента из приведенного выше словаря. Я могу просто сделать это легко с помощью ключей, например:
print(my_dict["names"])
>>> ["Grace", "Dave", "Jack"]

Вам часто понадобятся словари для задач, связанных с парами ключ-значение, или когда вы хотите преобразовать что-то в серию/фрейм данных в Pandas (библиотека, с которой вы будете работать в основном для обработки данных).

Zip() Функция в Python

Вы используете функцию zip для сжатия (объединения) двух итерируемых объектов, таких как список, кортеж, словарь и т. д. И каждый элемент каждого итерируемого объекта объединяется вместе.

  • Другими словами, первый элемент первой итерации соединяется с первым элементом второй итерации. Обычно вы используете функцию zip для объединения двух списков или кортежей в словарь. Посмотрим, как это пойдет.
  • Допустим, у меня есть список, содержащий имя учащегося, и другой список, содержащий оценку каждого учащегося. Теперь, если я хочу сопоставить имя каждого ученика с его соответствующей оценкой, я могу сделать это с помощью функции zip.
name = ["Dave", "Jerry", "Sasha"]
score = [43, 56, 78]
result = zip(name, score)
  • Теперь мы закончили, но если вы печатаете результат из приведенного выше кода, это всегда объект Iterator.
  • Последнее, что нам нужно сделать, это использовать функцию dict, которую вы используете для преобразования итерируемого объекта в словарь.
print(dict(result)
>>> {"Dave":43, "Jerry":56, "Sasha":78}

Вы часто будете использовать функцию zip() для присоединения списка к словарю в науке о данных.

Counter() Функция в Python

Функция счетчика, как следует из названия, позволяет подсчитать, сколько раз встречаются значения в итерируемом объекте.

  • Функция счетчика создает объект счетчика в виде словаря. Чтобы использовать counter(), нам нужно будет импортировать его из модуля коллекции. Давайте посмотрим, как это работает.
from collections import Counter
lst = ["Free", "Code", "Camp", "Code", "Free"]
print(Counter(lst))
>>> Counter({'Free': 2, 'Code': 2, 'Camp': 1})
  • Вы будете часто использовать функцию Counter при обработке естественного языка в науке о данных.

Range() Функция в Python

Функция диапазона, как следует из названия, предоставляет последовательность значений в пределах определенного диапазона, когда это необходимо. В основном это работает следующим образом: (начало, конец-1). То есть оно не будет включать последнее значение.

  • Итак, допустим, мне нужен список чисел в диапазоне от 2 до 10. Поэтому я могу легко сделать это с помощью функции диапазона, а затем преобразовать результат в список вместо создания списка и последующего ввода этих элементов. Например:
# rememeber it's end-1 so it will display values from 2 to 10
no_range = range(2, 11)
print(list(no_range))
>>> [2, 3, 4, 5, 6, 7, 8, 9, 10]

Вам часто понадобится функция range (), когда вам нужно получить список чисел с большим диапазоном в науке о данных.

For-циклы в Python

Оператор цикла for позволяет повторять задачу заданное количество раз. Синтаксис цикла for в основном выглядит так:

lst  = ["Free", "Code", "Camp", "is", "the", "best", "place", "to", "learn"]
for i in lst:
	print(i)

  • Вам часто понадобятся циклы for в науке о данных, чтобы перебирать итерируемый объект и выполнять определенную задачу.
  • Мы видим, что переменная i служит заполнителем для доступа к каждому элементу в списке.

Заключение

Спасибо, что нашли время прочитать эту статью. Надеюсь, вы узнали кое-что.