Публикации по теме 'data'


Как машинное обучение использует модерацию контента?
Около 5 миллиардов пользователей всемирной паутины каждую минуту обновляют сотни изображений, видео, обзоров продуктов, текстов и блогов. Не считаете ли вы, что контент должен пройти модерацию? Многие посещают свои платформы социальных сетей для развлечения и проведения досуга. Покупатели нуждаются в хорошем обслуживании и продуктах при совершении покупок в Интернете. Сообщения в блогах не должны содержать явного или оскорбительного содержания, спама по электронной почте или даже средств..

Освоение Train-Test-Split со стратификацией в наборе данных CooperUnion
Введение В этой статье мы рассмотрим, как создать разделение набора данных для обучения и тестирования, сохраняя при этом сбалансированное распределение категорий. Мы будем использовать набор данных CooperUnion, который представляет собой набор данных об автомобилях, включая их марку, модель, год выпуска и различные характеристики. Разделив набор данных на наборы для обучения и тестирования, мы можем оценить производительность модели на невидимых данных. Однако важно поддерживать..

Обеспокоены ли ваши данные своим качеством и заранее сообщают вам об этом?
Многие организации страдают от низкого качества данных при использовании устаревших, непоследовательных и ошибочных данных из нескольких источников данных, таких простых, как наличие пяти разных имен для одного и того же клиента. Это съедает драгоценное время бизнес-пользователей и аналитиков, которые работают с противоречивыми отчетами, неправильными бизнес-планами и в конечном итоге принимают неверные решения. Неверные решения имеют свои издержки. Согласно исследованию Gartner,..

Различные попытки искусственного общего интеллекта, часть 1
Преодоление разрыва между искусственным интеллектом и общим искусственным интеллектом: Десять заповедей для человеческого интеллекта (arXiv) Автор: Ананта Наир , Фарнуш Банаи-Кашани Аннотация . В области искусственного интеллекта наблюдается взрывной рост и экспоненциальный успех. Последний этап разработки продемонстрировал способность глубокого обучения решать множество сложных проблем во множестве областей. Многие из этих сетей достигли и превзошли человеческие стандарты,..

Исследовательские работы, основанные на использовании машинного обучения в области исследования ДНК
Частичное машинное обучение с учетом продукта на библиотеках с кодировкой ДНК ( arXiv ) Автор: Полина Биндер , Меган Лоулер , ЛаШадрик Грейди , Нил Карлсон , Сумуду Лилананда , Светлана Белянская , Джо Франклин , Николас Тилманс , Анри Палаччи Аннотация: библиотеки, кодируемые ДНК (DEL), используются для быстрого крупномасштабного скрининга малых молекул в отношении белка-мишени. Эти комбинаторные библиотеки создаются с помощью нескольких циклов химии и лигирования..

5 проектов по науке о данных, которые обеспечат вам работу в 2023 году
Вот 5 идей проекта по науке о данных, которые вы можете рассмотреть: Оптимизация цен с помощью регрессионного анализа Выявление мошенничества в финансовых операциях Распознавание изображений для автономных транспортных средств Анализ настроений по данным социальных сетей Классификация текстов для запросов в службу поддержки клиентов Давайте рассмотрим каждый из этих шагов на схеме Оптимизация цен с помощью регрессионного анализа Оптимизация цен с помощью регрессионного..

Автостопом по настройке гиперпараметров
Иногда может быть достаточно использования scikit-learn для настройки гиперпараметров — по крайней мере, для личных проектов. Для долгосрочных проектов, когда вам нужно отслеживать проведенные эксперименты, а разнообразие различных архитектур, которые вы пробуете, постоянно растет, этого может быть недостаточно. Голые кости Первая версия скрипта была простой, но удовлетворяла большинство наших потребностей. Требования были: Легко запустить Вы будете запускать этот скрипт много..