Быстро развивающаяся область машинного обучения позволяет анализировать большие наборы данных, чтобы получать новые идеи и связи, которые никогда раньше не осознавались. Из-за универсальности такого исследования машинное обучение использовалось в ряде различных областей, чтобы раскрыть то, что скрыто в море сложных данных. В одной области, в частности в здравоохранении, есть особая возможность использовать возможности машинного обучения для анализа больших наборов данных и использования результатов в практических приложениях.

Несмотря на обещания машинного обучения в здравоохранении и других смежных областях, есть узкое место, которое замедляет скорость прогресса. Это узкое место — доступ к высококачественным наборам данных, необходимым для обучения и тестирования алгоритмов машинного обучения. Существует множество наборов данных, но лишь немногие из них легко доступны исследователям. Эта ситуация в основном связана с характером самих наборов данных Healthcare; идентифицируемая информация в наборах данных означает, что доступ к данным защищен несколькими мерами для обеспечения конфиденциальности пациентов.

Чтобы устранить узкое место в доступе к данным и обеспечить конфиденциальность наших пациентов, мы предоставляем набор данных гистопатологических изображений рака легких и толстой кишки (LC25000) всем исследователям машинного обучения, в котором была удалена вся личная информация пациентов. Все изображения в наборе данных деидентифицированы, соответствуют требованиям HIPAA, проверены и доступны для бесплатной загрузки исследователям ИИ любым способом, который они считают нужным, не беспокоясь о нарушении законов о конфиденциальности пациентов. Набор данных содержит 25 000 цветных изображений, распределенных по 5 классам. Каждый класс содержит 5000 изображений следующих гистологических образований: аденокарцинома толстой кишки, доброкачественная ткань толстой кишки, аденокарцинома легкого, плоскоклеточный рак легкого и доброкачественная ткань легкого.

Не следует игнорировать значение тканей, выбранных для набора данных. Вместе рак легких и толстой кишки являются двумя наиболее распространенными причинами смерти от рака в Соединенных Штатах. С помощью этого набора данных исследователи данных могут предоставить ценную информацию, которая, если ее применить на практике, потенциально может спасти миллионы жизней. Особенно в районах, сильно пострадавших от нехватки патологоанатомов или значительной нехватки ресурсов. Мы призываем другие команды сделать свои наборы данных доступными, чтобы помочь продвинуть постоянно растущую синергию между машинным обучением и здравоохранением.

Набор данных LC25000 содержит 25 000 цветных изображений с пятью классами по 5 000 изображений в каждом. Все изображения имеют размер 768 x 768 пикселей и представлены в формате jpeg. Наш набор данных можно загрузить в виде zip-файла размером 1,85 ГБ LC25000.zip. После распаковки основная папка lung_colon_image_set содержит две подпапки: colon_image_sets и lung_image_sets. Подпапка colon_image_sets содержит две дополнительные подпапки: подпапку colon_aca с 5 000 изображений аденокарциномы толстой кишки и подпапку colon_n с 5 000 изображений доброкачественных тканей толстой кишки. Подпапка lung_image_sets содержит три дополнительных подпапки: подпапка lung_aca с 5000 изображений аденокарцином легких, подпапка lung_scc с 5000 изображений плоскоклеточного рака легких и подпапка lung_n с 5000 изображений доброкачественных тканей легких.

Вы можете прочитать больше о наборе данных LC25000 здесь и найти гиперссылку для скачивания здесь.