Полезные репозитории для машинного обучения

_______________________________________________________________ ОБЩЕДОСТУПНО

________________________________________________________________

BBall-Reference: очень большой репозиторий для всех данных, связанных с NBA, полезный для обучения нейронной сети, такой как классификатор, для группировки игроков NBA вместе для оценки производительности. Этот набор данных, похожий по идее на CARMELO, можно использовать для оценки игроков НБА.

Сводка плей-офф НБА 2016 | Basketball-Reference.com
Результаты, статистика, лидеры и многое другое для плей-офф NBA 2016.www.basketball-reference.com

2. Стэнфордская коллекция сетевых данных

Стэнфордская коллекция больших сетевых данных
@misc{snapnets, author = {Юре Лесковец и Андрей Кревл}, title = {{Наборы данных SNAP}: {Stanford} Большой набор сетевых данных… snap.stanford.edu

большая часть этого набора данных касается социальных сетей. Как следует из названия, можно построить нейронную сеть, чтобы предсказать, как эти дружеские отношения развиваются и как дружба коррелирует с другими вещами. Полезным проектом было бы изучение того, как дружба естественным образом распространяется, чтобы определить, использует ли кто-то бота или является ботом, чтобы обеспечить лучший опыт для всех.

3. Служба данных Великобритании:

UK Data Service
Всеобъемлющий ресурс, финансируемый ESRC, для поддержки исследователей, преподавателей и политиков, которые зависят от высоких…www.ukdataservice.ac.uk

Огромный набор данных, который содержит информацию о социальных и экономических данных в Великобритании. Хороший алгоритм линейной регрессии можно использовать для прогнозирования различных вещей и выявления лиц, подверженных риску. С помощью этой информации лица, ответственные за разработку политики, могут направлять средства в более срочные области.

4. Генбанк

ГенБанк. - PubMed - NCBI
Nucleic Acids Res. 2013 Январь; 41 (выпуск базы данных): D36-42. doi: 10.1093/нар/gks1195. Epub 2012, 27 ноября. Поддержка исследований, N…www.ncbi.nlm.nih.gov

Набор данных различной информации о ДНК. С некоторым кодированием и маркерами можно использовать этот набор данных в качестве нейронной сети, чтобы увидеть, какие последовательности влияют на заболевание, и, поскольку мы знаем, что некоторые заболевания являются рецессивными, мы можем идентифицировать группы риска, которые не знают, что они подвержены риску. и обеспечить лучшую профилактику. Другое использование - определение происхождения на основе генетики, что поможет некоторым людям узнать, откуда они произошли.

5. Изображения Berkeley Benchmark

Набор данных и эталон сегментации Беркли
Цель этой работы — предоставить эмпирическую основу для исследований в области сегментации изображений и обнаружения границ. Кому…www2.eecs.berkeley.edu

Это набор изображений с бенчмарками, и этот набор данных невероятно важен для исследований. С помощью этого набора данных можно обучить нейронную сеть решению задачи обнаружения изображений. Это уже очень горячая тема в области, которая использует самые современные идеи в попытках получить наилучшую производительность.

ЧАСТНЫЕ НАБОРЫ ДАННЫХ

Данные ЦЕРН

Аутентификация Cern
Редактировать описаниеlogin.cern.ch

ЦЕРН — это институт физических исследований, который ищет существование таких вещей, как мюоны. С их данными ученые могут экстраполировать результаты и узнать о физике элементарных частиц. Набор данных требует авторизации.

2. http://chicagotonight.wttw.com/2016/06/01/chicago-police-use-algorithm-predict-combat-violence

Город Чикаго использует судимость города, чтобы предсказать граждан, которые могут стать жертвами или виновниками насилия с применением огнестрельного оружия. Эти данные, очевидно, являются конфиденциальными, но исследователи, работающие над этим алгоритмом, очевидно, имеют доступ на основе соглашения о неразглашении. Я бы предположил, что обучение классификатору - лучший способ решить проблему такого типа. Мы могли бы использовать эту же информацию для выявления лиц, подвергающихся риску, и для других целей, таких как эксплуатация.

3. Большинство больниц, очевидно, имеют набор данных о проблемах пациентов, их удовлетворенности и лечении. Эти данные, очевидно, являются конфиденциальными, но, если они доступны, их можно использовать для выявления типов пациентов, которым требуется дополнительная помощь. Вероятно, это можно сделать с помощью классификатора.

4. У Google есть большая база данных наших поисковых запросов, которую он уже использует для сбора информации о наших покупательских привычках. Это делается с помощью классификатора. Я уверен, что Google мог бы (и, вероятно, использует) эту информацию, чтобы определить, какой тип классификации различных групп людей исследует Интернет, чтобы предсказать, какой тип сайтов вам нужен. К сожалению, деньги покупают влияние и в Интернете.

https://www.google.com/settings/ads/anonymous?hl=ru&sig=ACi0TCj0JH6hcLuQuhwQE9VoGitfV_smihMotFOEKqLPAWhNcj0emhc09pf7QB2piAGQ4P-0taLpsrZ-IxerjLf91Qk5hh_LuOzAD7EE2a9gHzQcAYiFarU

5. Я почти уверен, что ЦРУ будет поддерживать базу данных о лицах, причастных к терроризму, и с этим мы, возможно, сможем использовать k-mean, чтобы найти неожиданные связи и получить более полную информацию о том, кто на кого повлиял. Возможно, мы могли бы обучить нейронную сеть находить людей из группы риска. Однако я считаю, что это было бы ОЧЕНЬ неэтично.

Полезные репозитории для машинного обучения

Вопросы по теме