Публикации по теме 'machine-learning'


Классификация многоязычных документов
Классификация многоязычных документов Как создать приложение НЛП, не зависящее от языка. Использование неструктурированных данных становится обязательным условием для поддержки и развития бизнеса, основанного на данных. Разработка текстовых функций, которые могут улучшить производительность модели NLP , требует сочетания лингвистики, науки о данных и опыта в области бизнеса. Этого достаточно для стартапа, но как насчет того, чтобы ваш продукт стал вирусным и вы выйдете на мировой..

Забудьте все, что вы знали о прогнозировании
Теперь, когда вы знаете, почему мы начали прогнозировать миндаль , вам может быть любопытно, как мы это делаем? Наш подход прост — мы анализируем данные. Во-первых, давайте начнем с вещей, которые мы не делаем: Телефонные опросы или мнения Посетите сады (ну, не для целей прогнозирования…) Соберите образцы миндаля Считай орехи (мы чокнутые, но не ТАКИЕ чокнутые) Анализ с помощью классической статистики Вы можете подумать — никакой классической статистики, я думал, что..

Как я улучшил свой результат в табличном соревновании Kaggle от 21 августа, используя CCA
В последних нескольких постах я вел хронику своих усилий по достижению хороших результатов на главном веб-сайте по науке о данных, Kaggle’s, табличном соревновании за август 2021 года. В самой последней публикации, которую я разместил, где я обсуждал GenericUnivariateSelect, селектор функций в sklearn, библиотеке машинного обучения Python, я также был застигнут врасплох, когда получил бронзовую медаль за эту работу. Ссылку на этот пост можно найти здесь:..

Машинное обучение в финансах и экономике
Это будет серия постов или сеть / график историй, если можно, по машинному обучению в финансах и экономике. Я считаю, что глубокое понимание сектора, в котором используется ИИ, не менее важно, чем сами модели. Таким образом, каждый пост будет либо углубляться в основы финансового сектора, либо модели машинного обучения. Это также сделано для закрепления моих знаний и понимания сектора FinTech. Хотя меня всегда безмерно интересовала эта область, я никогда не проходил структурированный..

Настройка Google colab для работы с kaggle (и наборами данных)
Google colab отлично подходит для исследований данных, машинного обучения и экспериментов с глубоким обучением, тем более, что в нем установлено большинство полезных пакетов, и вы получаете бесплатное использование графического процессора (в значительной степени обязательно, если в ваших экспериментах используются нейронные сети). Если вам также нравится участвовать в соревнованиях Kaggle (или просто играть с их наборами данных), вы также можете использовать ядра Kaggle. Однако я не..

Insight Data Engineering отмечает 4-летний юбилей
Insight Data Engineering отмечает 4-летний юбилей Через четыре года и сотни стипендиатов после того, как Insight начала свою первую сессию Data Engineering , мы готовимся отметить знаменательную дату встречей в Пало-Альто в четверг, 24 мая. Мы не только поздравляем друг друга с проделанной большой работой, но и приглашаем некоторых наших выпускников представить свои работы: Артур Видмер : старший. Инженер по данным в Netflix, коммиттер Apache Airflow Остин Оуян :..

Основные функции spaCy: сравнение производительности для португальского, французского и английского языков
С июня 2020 г. я больше не буду использовать Medium для публикации новых историй. Пожалуйста, посетите мой личный блог, если вы хотите продолжить читать мои статьи: https://vallant.in . spaCy — отличный инструмент для НЛП. Библиотека с открытым исходным кодом бесплатна, быстра и проста в использовании. У spaCy также есть замечательные функции, такие как тот факт, что он использует неразрушающую токенизацию и поддерживает множество языков. Но мы знаем, как тяжело работать с..