КЛЮЧЕВЫЕ СЛОВА: IBM Watson, прогнозирование дыхательной способности, машинное обучение, здравоохранение.

Мы выполнили прогнозирование данных о дыхательной способности с использованием IBM Watson for Advance Analytics и лучшего построения модели машинного обучения с меньшим объемом данных и большей точностью.

Введение :

Здесь я попытался построить модель машинного обучения для прогнозирования дыхательной способности и уменьшить количество проблем в секторе здравоохранения, потому что здравоохранение является одной из важных областей в мире. У нас есть проблемы со здоровьем среди 1/3 населения мира. У нас очень мало данных в здравоохранении, поэтому использование меньшего количества данных нам нужно для решения небольших проблем в здравоохранении, например, я выбираю IBM Watson для прогнозирования емкости дыхания. Поскольку у нас очень минимальный уровень данных, связанных с дыхательной емкостью, я выбираю IBM Watson. IBM Watson используется для построения модели машинного обучения с использованием минимального количества данных и большей точности.

II. Цель

Наша цель — спрогнозировать объем дыхания спортсменов, спортсменов, пациентов и людей, используя методы анализа данных для более точного построения машинного обучения в IBM Watson.

III. Пройдите через машинное обучение

Машинное обучение — это область компьютерных наук, в которой используются статистические методы, чтобы дать компьютерным системам возможность «обучаться» (например, постепенно повышать производительность при выполнении конкретной задачи) с данными без явного программирования. Название «машинное обучение» было придумано Артуром Сэмюэлем в IBM в 1959 году. IBM является первой компанией, внедрившей машинное обучение и развившейся из изучения теории распознавания образов и вычислительного обучения в искусственном интеллекте. Машинное обучение исследует изучение и построение алгоритмов, которые могут обучаться. и делать прогнозы на основе данных.

IV. Пройдитесь с IBM Watson

i) Что такое Ватсон?

IBM Watson — это последние инновации в области машинного обучения. Watson позволяет вам учиться большему с меньшим объемом данных. Благодаря богатому отраслевому опыту IBM вы можете интегрировать ИИ в свои наиболее важные бизнес-процессы. Вы можете создавать модели с нуля или использовать наши API и предварительно обученные бизнес-решения. Независимо от того, как вы используете Watson, ваши данные и идеи принадлежат вам и только вам.

ii). Почему Ватсон?

Только Watson дает вам полный контроль над тем, что для вас важно. С Watson в IBM Cloud вы сохраняете право собственности на свои данные, идеи, обучение и интеллектуальную собственность. Ваши бизнес-процессы становятся умнее с Watson. От здравоохранения и образования до финансов, транспорта и энергетики Watson обучают ведущие специалисты в вашей области, поэтому вы можете быстро внедрить их в существующие рабочие процессы. Watson понимает язык вашей отрасли и использует глубокие знания предметной области, чтобы помочь вам быстрее принимать более обоснованные решения. Ваши данные ценны, независимо от того, сколько (или мало) у вас есть. Watson может принимать, обогащать и нормализовать самые разные типы данных без какой-либо дополнительной интеграции, что позволяет вам с легкостью использовать данные из самых разных источников.

III). Как это?

Создавайте и обучайте модели машинного обучения с помощью лучших инструментов и новейших знаний в социальной среде, созданной учеными по данным и для них. IBM Watson Machine Learning — это предложение IBM Cloud с полным спектром услуг, которое упрощает совместную работу разработчиков и специалистов по данным для интеграции возможностей прогнозирования в их приложения. Служба машинного обучения — это набор API-интерфейсов REST, которые можно вызывать из любого языка программирования для разработки приложений, которые принимают более взвешенные решения, решают сложные проблемы и улучшают результаты пользователей. Используйте интерфейс командной строки и клиент Python для управления артефактами. Расширьте свое приложение с помощью искусственного интеллекта с помощью Watson Machine Learning REST API. Воспользуйтесь преимуществами управления моделями машинного обучения (система непрерывного обучения) и развертывания (онлайн, пакетная обработка, потоковая передача). Выберите любую из широко поддерживаемых платформ машинного обучения: Tensorflow, Keras, Caffee, Pytorch, Spark MLlib, scikitlearn, xgboost и SPSS.

V. Прохождение с Health Care

По данным Всемирной организации здравоохранения, рак всех типов ежегодно уносит около 680 000 жизней в Индии, что делает его второй основной причиной смерти в стране после болезней сердца (2). Ежегодно в Индии диагностируется 1 миллион новых случаев рака, и ожидается, что к 2020 году этот показатель вырастет в 5 раз. Из них более 200 000 человек ежегодно получают лечение от рака в учреждениях Manipal в Индии. Больница Manipal использует Watson для онкологии, чтобы помочь врачам определить варианты индивидуального, основанного на фактических данных лечения рака по всей Индии два года спустя. Цель IBM — расширить возможности лидеров, защитников и влиятельных лиц в области здравоохранения посредством поддержки, которая помогает им достигать замечательных результатов, ускорять открытия, устанавливать важные связи и обрести уверенность на пути к решению самых серьезных мировых проблем в области здравоохранения.

VI. Методологии

Выше я упоминаю все методологии и технические термины, используемые в IBM Watson. Что-то новое, но не сложное.

VI.1 Новый поток моделирования

Соедините узлы, чтобы создать поток моделирования для изучения ваших данных и обучения моделей машинного обучения. В этом потоке моделирования мы можем выбрать средство моделирования времени выполнения машинного обучения. В этом средстве моделирования я создаю SPARK как построитель времени выполнения, потому что SPARK будет работать намного лучше, чем другие платформы, и он будет работать с вычислениями в памяти. В Modeler Flow мы можем построить поток нашей модели с помощью статистических методов и моделей машинного обучения.

VI.2 Создать блокнот с помощью Ml

Первоначально нам нужно создать проект с Watson Studio, моделью машинного обучения, потоком моделирования, набором данных, Python и R Notebooks для работы с другими методами машинного обучения, глубокого обучения и статистических методов.

VI.3 Импорт данных

Импорт данных очень важен при построении модели, это основа модели. В этом наборе данных о дыхательной емкости есть 725 наблюдений с 6 переменными. Атрибут «Емкость дыхания» имеет значения «Емкость дыхания» людей, значения измеряются в секундах. Возрастной признак имеют люди в возрасте от 3 до 19 лет. Атрибутом роста обладают люди ростом от 45 до 81 см. Дым является категориальным атрибутом, он имеет два уровня факторов «нет» и «да». Пол является категориальным атрибутом, он также имеет два фактора «мужской» и «женский». Кесарево сечение тоже категорический признак, в нем тоже есть два фактора «нет» и «да».

VI.4 Уточнение данных

Уточнить данные используется для поиска структуры набора данных, он расскажет о моей структуре данных с некоторыми статистическими показателями, именами атрибутов, типами данных атрибутов. Очищает и формирует ваши данные, чтобы подготовить их к анализу. Используя технику уточнения, мы можем выполнять нарезку, фильтрацию, агрегатные функции и т. д.

VI.5 Операции записи

Операции записи имеют выбор, сортировку, агрегирование, добавление. Используя операции записи, я преобразую свой набор данных в nonsmoker_male, nonsmoker_female, smoke_male, smoke_female соответственно.

VI.6 Полевые операции

Полевые операции имеют фильтр, автоматическую предварительную обработку данных, изменение типа данных, реклассификацию, группировку, разделение, изменение порядка полей. Автоматическая предварительная обработка данных используется для удаления нулевых значений и нормализации набора данных.

VI.7 Графики

Визуализация данных — это способ показать сложные данные в графической и простой для понимания форме. Кроме того, поскольку изображение стоит тысячи слов, графики и графики могут быть очень эффективными для передачи четкого описания данных. Это более эффективно, это более привлекательно, это более эффективно. Визуализация используется для изучения набора данных. Визуализация содержит графики, диаграммы, графики и т. д.

Исследовательская аналитика данных является основной частью аналитики данных, потому что мы можем исследовать и находить идеи с помощью EDA. IBM Watson имеет 35 и более различных типов диаграмм, графиков, графиков, карт. Здесь я использую гистограмму, коробочную диаграмму, точечную диаграмму, тепловую карту для прогнозирования дыхательной способности. Используя IBM Watson, мы можем создавать диаграммы с меньшими затратами времени.

я). Анализ гистограммы

Гистограмма представлена ​​числовыми значениями и показывает диапазон, асимметрию, эксцесс и распределение в визуальном формате. На этой диаграмме я построил гистограмму атрибута «Емкость дыхания». Дыхательная емкость нормально распределена, и ее средние и медианные значения близки к одинаковым, а диапазон значений от 5 до 60. Это означает, что все люди имеют дыхательную емкость от мин5 до макс 60, и у одного человека 5, у другого человека 60. Например Мудрый мы можем найти идеи через гистограмму.

ii). Анализ бокс-графика

Блочная диаграмма также работает с числовыми значениями и рассказывает о минимуме, максимуме, медиане, 25-м квартиле, 75-м квартиле, диапазоне и выбросе. Здесь я построил блочную диаграмму для объема дыхания и атрибутов возраста. В наборе данных о дыхательной способности большинство людей находятся в возрасте от 9 до 16 лет, поэтому нам нужно найти информацию для дальнейших движений.

iii) Анализ графика рассеяния

Точечная диаграмма в основном используется для поиска связи между двумя атрибутами, изменением точки данных и выбросом. Здесь я поместил точечный график для атрибутов «Емкость дыхания» и «Возраст». Здесь ось «X» — это возраст, а ось «Y» — объем дыхания. На основе этой диаграммы мы можем найти идеи. По оси «X» Возраст увеличивается, как и по оси «Y» Дыхательная способность также увеличивается. Это означает, что всякий раз, когда Возраст человека увеличивается, его/ее Дыхательный объем также увеличивается. Здесь Дыхательный объем зависит от возраста, и значения линейны.

IV). Анализ тепловой карты

Тепловая карта используется для поиска меры корреляции в визуальном формате для более чем одного атрибута. Здесь представлено два цвета, синий цвет означает, что он не сильно коррелирован, а розовый цвет означает, что он сильно коррелирован. Здесь я построил тепловую карту для атрибутов дыма, связанного с атрибутом дыма. Вот эта диаграмма показывает, когда женщины и мужчины не курят, когда женщины и мужчины курят, каково среднее, соответственно какие женщины не курят, у них среднее меньше, у остальных среднее больше.

VI.8 Выбор модели

Выбор модели — одна из основных частей машинного обучения. Используя выбор модели, мы делаем нашу машину интеллектуальной. В машинном обучении есть две основные модели: одна линейная модель, а другая нелинейная модель. Большинство алгоритмов машинного обучения имеют линейную модель. IBM Watson предоставляет автоматический классификатор, автонумерацию, байесовскую сеть, дерево C&R, случайные деревья, GLE, линейное, линейное-AS, регрессию, LSVM, логистику, нейронную сеть, KNN, PCA/фактор, выбор функций, анализ правил ассоциации, Apiriori, Последовательность, аномалия, K-средние, SVM одного класса, XGBoost Linear, XGBoost Tree, XGBoost-AS, алгоритмы машинного обучения.

Нам нужно выбрать нашу модель на основе информации и результатов EDA. В нашем наборе данных о дыхательной емкости атрибут дыхательной емкости является зависимой переменной, остальные атрибуты являются независимой переменной, поскольку атрибут дыхательной емкости зависит от всех других атрибутов. Данные о дыхательной емкости, установленные для всех атрибутов, являются линейными, поэтому нам нужно использовать линейную модель. Здесь я использовал метод MLR (многолинейная регрессия), и это самая популярная линейная модель для точного прогнозирования.

Множественная линейная регрессия (MLR)

я). Что такое МЛР?

Простая линейная регрессия будет ссылаться на одну независимую переменную, чтобы сделать прогноз. MLR используется для изучения взаимосвязи между более чем одним предиктором (X) с одной целевой (Y) переменной. Регрессия даст лучшее принятие решений.

ii). Когда?

Регрессия — очень известная и первая модель машинного обучения. Сэр Фрэнсис Гальтон ввел этот термин в 1886 году. Я построил две модели для прогнозирования, самый первый базовый метод MLR, регрессия второго гребня. Используя метод MLR, я разделяю свой набор данных случайным образом, 80:20 или метод K-fold для данных обучения и тестирования.

VI.9 Оценка модели

Оценка модели имеет от десяти до двенадцати метрик, наиболее популярными метриками являются среднеквадратическая ошибка (MSE), R², среднеквадратическая ошибка (RMSE). Метрики расскажут о точности моей модели. IBM Watson выдаст пять значений метрик одним щелчком мыши.

Если наша модель имеет большую точность, то наша модель подходит. Здесь я получил точность 59%, поэтому мне нужно перестроить модель, используя регрессию Риджа. Ридж-регрессия для соответствия регрессии с использованием гиперпараметра, когда мой MLR, SLR не подходит. Я строю две модели для прогнозирования, самую первую — метод MLR, вторую — регрессию хребта. Регрессия попытается автоматически подобрать мою модель, используя гиперпараметр.

VI.10 Выход

Когда модель имеет большую точность, мы можем более точно прогнозировать значения. Используя значения Intercept и Coefficient, я могу предсказать объем дыхания всех людей. Y=Bo+B1X1+B2X2+B3X3…BnXn. B0 — значение Intercept модели B1 — значение коэффициента X1, X2, X3 — значение независимой переменной Y — значение зависимой переменной.

Наша модель даст минимальную емкость дыхания, среднюю емкость дыхания, максимальную емкость дыхания в секундах.

VII Заключение

IBM Watson — это фантастическая платформа для машинного обучения, глубокого обучения для всех областей, и она помогает специалистам по обработке и анализу данных, поскольку прогнозирование объема дыхания — это потрясающая область в здравоохранении. Эта модель машинного обучения помогает прогнозировать объем дыхания людей в ноль рупий в течение нескольких секунд и с большей точностью. Прогнозирование дыхательной способности полезно для спортсменов, спортсменов, пациентов и всех людей для проверки и улучшения их дыхательной способности.

«Не только аналитика данных является новой тенденцией, и аналитику данных необходимо создавать модели машинного обучения с помощью интеллекта, но также аналитик данных несет ответственность за решение проблемы людей и бизнеса».

Спасибо, что прочитали мою статью.

Если есть какие-либо разъяснения, вы можете прокомментировать меня в любое время

Мне нужно протестировать мою модель в реальном мире, тогда я загружу исходный код