Публикации по теме 'big-data'


Как извлекать данные с веб-сайтов на основе JavaScript с помощью Splash
Scrapy - это фреймворк с открытым исходным кодом для создания веб-сканеров (также известных как пауки). Распространенным препятствием при разработке пауков Scrapy и веб-парсинга в целом является работа с сайтами, которые используют большое количество JavaScript. Поскольку многие современные веб-сайты построены на JavaScript, для правильного отображения страницы им требуется запускать скрипты. Во многих случаях страницы также представляют модальные окна и другие диалоги, с которыми..

Обзор основных моментов: создание значимых и действенных идей на основе пользовательского контента
Основные моменты обзора: получение содержательной и полезной информации на основе содержания, созданного пользователями Платформы пользовательского контента, такие как Zomato, генерируют миллионы обзоров каждый месяц. Возможно, это один из ключевых отличительных факторов. Пользователь полагается на обзоры Zomato, чтобы решить, какие рестораны посетить, но в то же время есть вероятность потеряться в тысячах отзывов, которые может иметь ресторан. Мы решили предоставить пользователям..

Что такое Data Science и почему это будущее
Интересный факт - согласно отчету 2011 года, в 2020 году мир будет генерировать в 50 раз больше данных, чем в 2011 году. Таким образом, с таким резким увеличением потока данных появились новые инструменты, позволяющие правильно использовать необработанные данные и использовать его плодотворно. Data Science охватывает все такие инструменты, методы и технологии, которые помогают нам обрабатывать данные и использовать их во благо. Это междисциплинарное сочетание вывода данных,..

Программирование на Python для начинающих, часть 11 (Что нового в Python 3.10?)
Привет, ребята Я вернулся с новой статьей о том, что нового в Python 3.10. Его бета-версия уже доступна. Я рад поделиться некоторыми новыми и выдающимися функциями Python 3.10, и я уверен, что вы найдете этот материал полезным для себя. Давайте начнем обсуждение… Недавно выпущена бета-версия Python 3.10. Мы рассмотрим некоторые из наиболее важных функций, включенных в Python 3.10. Основная цель новой бета-версии Python — сделать программирование питоническим и более удобным,..

Распознавание эмоций на лице: одно правило 1–0 DeepLearning
Одно правило 1–0 DeepLearning В своей попытке создать искусственный эмоциональный интеллект я сначала обратил внимание на глубокое обучение. Основная причина - недавний успех в решении задач компьютерного зрения, так как в настоящее время я работаю над частью, которая определяет эмоции по лицам (у меня уже есть часть, которая понимает содержание написанных нами слов ). Итак, последние полтора месяца я проходил онлайн-курсы , читал онлайн-книги и изучал инструмент глубокого..

Расскажите об архитектуре Apache Flume.
Apache Flume — это устройство, которое используется для передачи больших объемов потоковых данных в HDFS. Компиляция лог-данных с веб-серверов в лог-файлы и их агрегация для просмотра в HDFS — типичный пример использования Flume. Flume поддерживает различные выходы, такие как следующие. «хвост» (который передает данные из локального файла и записывает через Flume в HDFS, аналогично команде «хвост» Unix) Логи с машины Apache log4j (позволяет Java-приложениям записывать события через..

Presto SQL (Trino) Правильный регистр, Initcap: как использовать заглавную первую букву каждого слова в Presto
В Trino (ранее Presto) отсутствует часто используемая функция, доступная в Excel, Hive, Oracle, PLSQL, Db2, python,… вот довольно простой и эффективный способ решить эту проблему своими руками. Я отчаянно нуждался в этом, но я не мог найти ничего особенного для Трино ( Престо теперь Трино ). Я обнаружил, что это довольно простой обходной путь, который может работать для любой строки с любым количеством слов. Возьмем, к примеру, имя в нижнем регистре ... Было ли это полезно?..