Предиктивная аналитика

Смертельно или восхитительно - ИИ для прогнозирования токсичности грибов

Простой пример использования прогнозной аналитики.

В поисках интересных вариантов использования ИИ я нашел данные UCI ядовитых и съедобных грибов.

Всего с 8124 строками и четкой целью (поиск признаков, указывающих на ядовитый гриб и построение прогнозной модели), это идеальный пример того, как мы можем использовать ИИ с небольшими данными.

Я проанализировал набор данных с помощью инструмента без кода Apteo.

Изучение набора данных

Набор данных содержит 8124 строки или 8124 уникальных гриба и 23 столбца.

Столбцы включают в себя практически все основные характеристики гриба, включая характеристики шляпки, жабр, стебля, а также такие вещи, как его запах, популяция и среда обитания.

Вот полный список:

cap-shape: bell=b,conical=c,convex=x,flat=f, knobbed=k,sunken=s
cap-surface: fibrous=f,grooves=g,scaly=y,smooth=s
cap-color: brown=n,buff=b,cinnamon=c,gray=g,green=r,pink=p,purple=u,red=e,white=w,yellow=y
bruises: bruises=t,no=f
odor: almond=a,anise=l,creosote=c,fishy=y,foul=f,musty=m,none=n,pungent=p,spicy=s
gill-attachment: attached=a,descending=d,free=f,notched=n
gill-spacing: close=c,crowded=w,distant=d
gill-size: broad=b,narrow=n
gill-color: black=k,brown=n,buff=b,chocolate=h,gray=g, green=r,orange=o,pink=p,purple=u,red=e,white=w,yellow=y
stalk-shape: enlarging=e,tapering=t
stalk-root: bulbous=b,club=c,cup=u,equal=e,rhizomorphs=z,rooted=r,missing=?
stalk-surface-above-ring: fibrous=f,scaly=y,silky=k,smooth=s
stalk-surface-below-ring: fibrous=f,scaly=y,silky=k,smooth=s
stalk-color-above-ring: brown=n,buff=b,cinnamon=c,gray=g,orange=o,pink=p,red=e,white=w,yellow=y
stalk-color-below-ring: brown=n,buff=b,cinnamon=c,gray=g,orange=o,pink=p,red=e,white=w,yellow=y
veil-type: partial=p,universal=u
veil-color: brown=n,orange=o,white=w,yellow=y
ring-number: none=n,one=o,two=t
ring-type: cobwebby=c,evanescent=e,flaring=f,large=l,none=n,pendant=p,sheathing=s,zone=z
spore-print-color: black=k,brown=n,buff=b,chocolate=h,green=r,orange=o,purple=u,white=w,yellow=y
population: abundant=a,clustered=c,numerous=n,scattered=s,several=v,solitary=y
habitat: grasses=g,leaves=l,meadows=m,paths=p,urban=u,waste=w,woods=d

Проблема двоичной классификации

Существует два класса: P (ядовитые) и E (съедобные), что упрощает задачу двоичной классификации. Этот гриб ядовит или съедобен?

Нам повезло, что набор данных довольно равномерно разделен между этими двумя классами, поэтому нам не нужно выполнять какую-либо предварительную обработку (в отличие от проблем двоичной классификации, когда данные несбалансированы, например, с наборами данных о мошенничестве с кредитными картами).

Какие атрибуты указывают на ядовитый гриб?

Загружая CSV в Apteo, мы выбираем столбец class (ядовитый или съедобный) в качестве ключевого показателя эффективности, который мы хотим измерить.

Это автоматически говорит нам, какие признаки указывают на ядовитый гриб.

Как мы видим, такие атрибуты, как цвет и запах споры, очень указывают на то, является ли гриб ядовитым.



Грибы, которые« пахнут - AmericanMushrooms.com
Поделитесь грибами, которые пахнут ВАЖНОЕ ПРИМЕЧАНИЕ Этот ресурс размещен без каких-либо гарантий в отношении абсолютной таксономии… americanmushrooms.com »



Это согласуется с выводами собирателей грибов, которые сообщают о ядовитых грибах, пахнущих как тухлый окорок или гнилая плоть. Между тем, многие съедобные грибы имеют запах, напоминающий приятный запах абрикоса, огурца или корки арбуза.

Кроме того, отпечатки спор многое говорят нам о том, ядовиты ли грибы. Их можно получить, отрезав ножку гриба и поместив его шляпку на бумагу на несколько часов. У вас остается цвет, который часто является верным признаком того или иного вида (например, белые следы спор обычно принадлежат видам мухоморов, в то время как ложный зонтик оставляет следы зеленых спор).

Прогнозы

У грибной охоты долгая история. Сегодня он по-прежнему популярен во многих местах, особенно в сельской местности.

Однако это не значит, что у нас это хорошо получается. С 1999 по 2016 год было зарегистрировано 133 700 случаев проглатывания ядовитых грибов только в Соединенных Штатах. К сожалению, 704 из этих случаев привели к серьезным травмам и 52 человека погибли.



Мы можем ввести характеристики нового гриба в Apteo и получить прогноз вероятности того, что он будет ядовитым или съедобным.

Например, мы собрали гриб необычного вида - у него кольцо на стебле, белые жабры, белый отпечаток спор и слабый запах мыла.

Включив эти атрибуты в нашу прогностическую модель, он правильно предсказывает токсичность. Лучше держись подальше!

Резюме

Существует распространенный миф о том, что искусственный интеллект требует огромных вычислительных мощностей, данных и опыта.

Если вы пытаетесь создать ультрасовременную модель, такую ​​как GPT-3, или строите новую архитектуру, например BrainOS, это правда, что вам понадобятся эти вещи.

Однако большинство компаний имеют дело не с миллиардами точек данных, а с тысячами, и могут получить большую пользу от более простых моделей, таких как деревья решений и случайный лес, без необходимости в технических знаниях.