Публикации по теме 'data'


Почему мы используем стратификацию в Train_test_split?
Давайте сначала поймем, почему мы Train_test_split наши данные . Итак, цель машинного обучения с учителем — построить модель, которая хорошо работает с новыми данными. Теперь, как вы знаете, у нас нет новых данных, кроме тех, что у нас есть, так почему бы не разделить эти данные на обучающие и тестовые данные, где модель будет обучаться с использованием обучающих (основных) данных, и мы можем протестировать тестовые данные? Звучит круто, верно? Но здесь есть проблема :(. Данные могут..

Методы настройки гиперпараметров :: Все о поиске по сетке :: ML
Поиск по сетке — это метод настройки гиперпараметров, используемый для оптимизации производительности моделей машинного обучения. В машинном обучении гиперпараметры — это параметры, которые нельзя узнать из данных и которые необходимо установить перед обучением. Примеры гиперпараметров включают скорость обучения, силу регуляризации и количество скрытых слоев в нейронной сети. Идея поиска по сетке заключается в исчерпывающем поиске в предварительно определенном диапазоне значений..

Уроки, извлеченные при сборе данных с динамических сайтов для моего проекта регрессионного машинного обучения
Хотелось бы, чтобы эта статья была о том, как поделиться своим опытом о том, как много я заработал с помощью «двух строк кода» для парсинга веб-сайта или «как я создал краулер, чтобы запускать его годами». Моя цель состояла в том, чтобы извлечь данные о зарплате с Indeed.com или данные о недвижимости с Zillow.com , но, к сожалению, из-за динамического содержимого HTML я не смог успешно очистить данные или любые учебные пособия, доступные на Youtube или Medium.com , оказались..

Развитие способов формата файла данных
Подпишитесь на Quantifiers для статей Fin/Analytics Формат файла данных определяет стандартные способы хранения информации в файле или базе данных. Нам нужны разные форматы файлов для разных вариантов использования. Например, если мы знаем, что только системы Python будут читать наш файл, мы можем выбрать формат Pickle, поскольку он очень оптимизирован. Формат данных CSV был наиболее широко используемым вариантом для хранения данных. Используя CSV, мы можем читать и записывать..

Избегайте конкуренции
Получите отличную внештатную работу с ограниченной конкуренцией, такой как UpWork, Guru.com и Fiverr Есть несколько способов найти внештатную работу с ограниченной конкуренцией: Специализируйтесь в определенной нише . Сосредоточив внимание на конкретной нише или отрасли, вы можете сузить круг потенциальных конкурентов и выделиться как эксперт в своей области. Создайте сильный личный бренд : создав…

Как Intrinio создает стандартизированные фундаментальные данные? | Интринио
Финансовые отчеты, которые публично торгуемые компании подают в SEC, могут быть золотой жилой информации. И, как и в случае с золотом, может потребоваться немало усилий, чтобы извлечь из этих заявлений реальную ценность. Вы можете потратить недели на составление карты этих данных самостоятельно (на что у вас, вероятно, нет времени) или заплатить фирме с тысячами аналитиков, которые изучают документы для вас (что может быть непомерно дорого, особенно для небольших компаний). К счастью,..

Отправить уведомление о данных с помощью Python SMTP
Полное руководство для профессионалов в области данных (бизнес-аналитика) Отправить уведомление о данных с помощью Python SMTP Отправка бизнес-отчетов и электронной почты с помощью Python smtplib Постановка задачи: Для специалистов по обработке данных очень важно сообщать отчеты нетехническим пользователям, особенно если в данных есть какие-то отклонения от нормы. Судя по моему опыту работы, большинство аналитиков отправляли бизнес-отчеты пользователям вручную - они обрабатывали..