В этой статье мы обсудим важность баз данных и использование языка структурированных запросов SQL.

Теперь эта тема, как и многие другие, очень зависит от ситуации, поскольку вы, как специалист по данным, обычно не будете нести ответственность за фактическую настройку и администрирование баз данных. Но на регулярной основе вы будете запрашивать базы данных, потому что именно там хранятся все пользовательские данные из компании-разработчика программного обеспечения, в которой вы работаете, или данные ваших клиентов, или данные транзакций, и большая часть этого будет храниться в реляционных базах данных, поэтому вы будете использовать SQL, однако в некоторых случаях в небольших компаниях вы можете отвечать за настройку базы данных или выполнять административные задачи. С этим и, надеюсь, в более крупных компаниях вас не будет.

И затем, на дальнем конце спектра, если вы имеете дело с проблемами больших данных, вы можете использовать базы данных типа NoSQL. Итак, мы поговорим обо всех этих различных типах баз данных и о том, для чего они полезны. Но основное внимание будет уделено базам данных SQL, будет использоваться SQLite, а также некоторые распределенные опции с Postgres.

Что такое базы данных?

Определение представляет собой хранилище данных, предназначенное для хранения данных очистки и обработки. Компании, которым вы будете ждать поступления структурных данных, а затем будете запрашивать определенные подмножества данных, чтобы ответить на вопросы или обновить существующие данные. Давайте взглянем на типичную структуру базы данных. Обычно база данных будет заполнена таблицами. Это пример одной таблицы.

У вас есть строки, и у вас есть столбцы. Например, здесь у нас есть столбцы: Имя, Фамилия, Город и Возраст. Это может быть таблица о пользовательских данных. Затем в строке у нас будет каждый экземпляр пользователя, в первой строке у нас есть Адриан Гамильтон, город Анахайм и возраст 73 года. Примерно так устроены все реляционные базы данных. Теперь есть разные типы ввода. Здесь у нас есть строка и числовой тип ввода. Существуют также другие спецификации, например объекты datetime, и вы можете иметь целое число, а также значение с плавающей запятой с десятичными знаками, а затем другие спецификации базы данных допускают другие более специализированные типы данных.

SQL против NoSQL

Итак, в чем разница между SQL и NoSQL? На самом деле это приобретение языка, но обычно продолжение относится к реляционным базам данных, а не к продолжению. Что касается нереляционных баз данных, то основное отличие заключается в том, что SQL имеет структурированную схему. Например, мы только что видели таблицы со строками и столбцами.

В то время как в базах данных NoSQL нет схемы, нет столбцов или строк, на самом деле это объекты. Если вы занимались программированием веб-приложений, одной из наиболее распространенных баз данных NoSQL является Mongo DB. Таким образом, каждый экземпляр в базе данных хранится как объект javascript, поэтому это пары ключ-значение. В основном, как словарь работает в python, так что еще раз повторю, что большинство данных в традиционных компаниях, даже стартапах, хранятся в реляционных базах данных, поэтому вы будете использовать SQL. Когда вы столкнетесь с проблемами потоковой передачи больших данных, вы будете использовать базы данных NoSQL, и причина этого в том, что вы имеете дело с необработанными файлами журналов, возможно, данными, которые появляются каждую секунду или даже чаще. Таким образом, у вас есть сотни, тысячи и тысячи точек данных каждый день. И чтобы поместить это в базу данных SQL, которую мы только что получили, потребуется много места и памяти. Таким образом, вы используете неструктурированные схемы для хранения этих необработанных данных, а затем, в конечном итоге, обрабатываете их и помещаете в базы данных SQL, которые люди могут просматривать, когда они агрегированы и проанализированы.

SQL

Это расшифровывается как язык структурированных запросов. Это самый распространенный язык баз данных, используемый в мире. SQL используют многие люди, не являющиеся программистами. Многие аналитики данных, администраторы БД, системные администраторы. Там находится большая часть данных. Все компании хранятся, поэтому есть много людей, которые не обязательно работают в технических областях, использующих SQL-запросы. У него очень простой для чтения синтаксис, и для запросов вы должны придерживаться определенной структуры и словаря. В основном вы используете набор общих утверждений, которые вы комбинируете с определенной логикой для выражения намерения.

Если вы хотите узнать больше о нашем учебном курсе по науке о данных, посетите наш веб-сайт. Вы также можете увидеть, как выглядит профиль нашего класса и чем занимаются наши выпускники.

Кроме того, в середине 2019 года мы запускаем курс по обработке данных. Подпишитесь на нашу рассылку, чтобы быть в курсе об учебной программе и ее запуске.