Публикации по теме 'data'
Как машинное обучение использует модерацию контента?
Около 5 миллиардов пользователей всемирной паутины каждую минуту обновляют сотни изображений, видео, обзоров продуктов, текстов и блогов. Не считаете ли вы, что контент должен пройти модерацию? Многие посещают свои платформы социальных сетей для развлечения и проведения досуга. Покупатели нуждаются в хорошем обслуживании и продуктах при совершении покупок в Интернете. Сообщения в блогах не должны содержать явного или оскорбительного содержания, спама по электронной почте или даже средств..
Освоение Train-Test-Split со стратификацией в наборе данных CooperUnion
Введение
В этой статье мы рассмотрим, как создать разделение набора данных для обучения и тестирования, сохраняя при этом сбалансированное распределение категорий. Мы будем использовать набор данных CooperUnion, который представляет собой набор данных об автомобилях, включая их марку, модель, год выпуска и различные характеристики. Разделив набор данных на наборы для обучения и тестирования, мы можем оценить производительность модели на невидимых данных. Однако важно поддерживать..
Обеспокоены ли ваши данные своим качеством и заранее сообщают вам об этом?
Многие организации страдают от низкого качества данных при использовании устаревших, непоследовательных и ошибочных данных из нескольких источников данных, таких простых, как наличие пяти разных имен для одного и того же клиента. Это съедает драгоценное время бизнес-пользователей и аналитиков, которые работают с противоречивыми отчетами, неправильными бизнес-планами и в конечном итоге принимают неверные решения.
Неверные решения имеют свои издержки.
Согласно исследованию Gartner,..
Различные попытки искусственного общего интеллекта, часть 1
Преодоление разрыва между искусственным интеллектом и общим искусственным интеллектом: Десять заповедей для человеческого интеллекта (arXiv)
Автор: Ананта Наир , Фарнуш Банаи-Кашани
Аннотация . В области искусственного интеллекта наблюдается взрывной рост и экспоненциальный успех. Последний этап разработки продемонстрировал способность глубокого обучения решать множество сложных проблем во множестве областей. Многие из этих сетей достигли и превзошли человеческие стандарты,..
Исследовательские работы, основанные на использовании машинного обучения в области исследования ДНК
Частичное машинное обучение с учетом продукта на библиотеках с кодировкой ДНК ( arXiv )
Автор: Полина Биндер , Меган Лоулер , ЛаШадрик Грейди , Нил Карлсон , Сумуду Лилананда , Светлана Белянская , Джо Франклин , Николас Тилманс , Анри Палаччи
Аннотация: библиотеки, кодируемые ДНК (DEL), используются для быстрого крупномасштабного скрининга малых молекул в отношении белка-мишени. Эти комбинаторные библиотеки создаются с помощью нескольких циклов химии и лигирования..
5 проектов по науке о данных, которые обеспечат вам работу в 2023 году
Вот 5 идей проекта по науке о данных, которые вы можете рассмотреть:
Оптимизация цен с помощью регрессионного анализа Выявление мошенничества в финансовых операциях Распознавание изображений для автономных транспортных средств Анализ настроений по данным социальных сетей Классификация текстов для запросов в службу поддержки клиентов
Давайте рассмотрим каждый из этих шагов на схеме
Оптимизация цен с помощью регрессионного анализа
Оптимизация цен с помощью регрессионного..
Автостопом по настройке гиперпараметров
Иногда может быть достаточно использования scikit-learn для настройки гиперпараметров — по крайней мере, для личных проектов.
Для долгосрочных проектов, когда вам нужно отслеживать проведенные эксперименты, а разнообразие различных архитектур, которые вы пробуете, постоянно растет, этого может быть недостаточно.
Голые кости
Первая версия скрипта была простой, но удовлетворяла большинство наших потребностей.
Требования были:
Легко запустить
Вы будете запускать этот скрипт много..