К концу моего 5-го семестра по специальности Компьютерная инженерия в NIT Surat все мои товарищи либо искали стажировку, либо получили ее в кампусе. Я был одним из тех, кто нашел хорошую стажировку, особенно исследовательскую. Раньше я проходил несколько стажировок в стартапах, а также у меня был собственный стартап, поэтому на этот раз я хотел пройти исследовательскую стажировку, которая идеально подошла бы для моих будущих начинаний. Первой ошибкой, которую я сделал, было то, что я помнил о своих CGPA, я не подавал заявку ни на одну из программ стажировки в зарубежных университетах, предполагая, что меня вырежут из списка непосредственно во время фильтрации, что происходило не всегда.

Я начал составлять список профессоров со всего мира, работающих в области науки о данных и машинного обучения в течение ноября-декабря, и начал рассылать электронные письма профессорам из моего списка к концу декабря. Это была моя вторая ошибка, так как в то время по всему миру были рождественские и зимние каникулы. За это время я разослал около 50–60 писем, подбирая конкретный контент для каждого профессора. Я начал получать автоматически генерируемые ответы с упоминанием «В отпуске», «В поездке», «Не в офисе» и т. Д. Пожилые люди всегда говорили, что для прохождения исследовательской стажировки все, что вам нужно, - это терпение, и это то, что я держится долго. К марту я понял, что сейчас самое время.

В марте я подал заявку на стажировку в несколько институтов и несколько стартапов, работающих в моей сфере интересов. По сути, март был для меня самым сложным месяцем, так как 30 марта я собирался написать GRE, и мне также пришлось пройти исследовательскую стажировку. Скоординировать и то и другое одновременно было непросто. В моем ежедневном расписании было чтение для GRE утром и вечером, а во второй половине дня были запланированы собеседования с профессорами и стартапами. После GRE, в понедельник днем ​​на следующей неделе, я сидел с другом и искал результаты программы, и там я получил свою первую исследовательскую стажировку под руководством Проф. Ганеша Баглера из Центра вычислительной биологии, IIIT Дели (1 интервью), и проект должен был работать над анализом пищевых пар (молекулярный уровень) с использованием машинного обучения. В среду я получил еще два предложения от Yourstory, Бангалор (1 интервью) и Индийского института населенных пунктов (IIHS), Бангалор (2 интервью). В Yourstory проект заключался в создании инструмента машинного обучения, который на основе данных интервью сам генерирует статьи и рассказы с использованием обработки естественного языка. В IIHS проект заключался в автоматизации классификации земного покрова по снимкам Landsat 8 и Sentinel 2. Теперь проблема была в выборе, куда идти: p

Я сделал то, что говорило мое сердце, и решил принять предложение IIHS, Бангалор.

Индийский институт населенных пунктов (IIHS) - это национальное учебное заведение, приверженное делу справедливого, устойчивого и эффективного преобразования индийских поселений.

Вот что они говорят о себе. Лучше всего здесь было то, что мне приходилось работать под руководством нескольких профессоров и наставников, все из которых имели ученые степени известных зарубежных университетов. Мне дали ночлег в их гостевом доме на неделю. 10 мая 2017 года я начал стажировку в IIHS, Бангалор. Я был там рано в первый день, сидя на стойке регистрации, когда ко мне подошла дама из People Function, поприветствовала меня «Добро пожаловать в IIHS» и взяла меня с собой, и я выполнил все формальности и прочее. В тот день я встретился со всеми, кто работает в IIHS, в рамках экскурсии по кампусу города. Забавно было то, что я был там в официальных костюмах, а люди были в повседневной одежде и куртах. В первый же день я узнал, что никто в профессиональном мире не использовал слова «сэр» и «мэм». Я должен был называть своих профессоров и наставников по именам. Я был весьма удивлен, увидев здесь людей, которые после многих лет исследований писали жилищную политику для различных правительств, некоторые проектировали системы отвода воды, а некоторые занимались исследованием различных планов городских поселений по всему миру. В геопространственной лаборатории у меня были замечательные товарищи по имени Локеш, Чару и Нилакши, которые познакомили меня с основами географических информационных систем. Я задавал им очень глупые вопросы, и они всегда были готовы мне помочь. Они были геопространственными ниндзя в лаборатории, которые делали рабочую среду веселой.

Неделя 1 - Лаборатория городской информатики

Первый проект, который мне дали, принадлежал Шрия Ананд, городской статистик из Принстонского университета. В рамках ее проекта анализа цен на жилье сбор данных был большой проблемой, и я пришел им на помощь. Мне пришлось создать инструмент, который получает такие данные, как цены, широта, долгота, местонахождение, площадь в квадратных футах, новое / перепродажа и т. Д. Со всех популярных платформ жилья. В то время я знал, как очищать данные с помощью Python, и думал, что это простая первая задача, пока я не наткнулся на платформу бесконечной прокрутки волшебных кирпичей. Всякий раз, когда вы прокручиваете до конца, генерируются новые данные, а высота страницы увеличивается. Обычные библиотеки, такие как beautifulsoup, здесь бесполезны, и они должны использовать автоматизацию браузера Selenium. Мне пришлось заняться бесконечной прокруткой и получить данные как есть. Наконец, я внедрил некоторый код javascript в модуль selenium моего сценария python, который сделал это за меня, который доступен здесь. К концу той недели я был готов с приложением PyQt, которое выполняет за вас всю автоматизацию браузера и выполняет парсинг.

Неделя 2 - Геопространственная лаборатория

Я был в восторге от модного слова Геопространственный интеллект, и еще больше был взволнован, проведя по нему небольшое исследование. Тема была «Как машинное обучение может быть применено к геопространственным данным и как мы можем произвести анализ автоматически?». Этот проект был моим основным проектом во время стажировки, и мне пришлось работать под руководством Тейи Маллади, исследователя из Университета Твенте, Нидерланды и Кришначандрана Балакришнана, исследователя и градостроителя из Калифорнийского университета, Беркли. Сначала у меня было несколько встреч с ними, чтобы узнать общую картину проекта. Короче говоря, то, что я могу вам сказать, основано на спутниковых снимках, они хотели напрямую определить высоту зданий, класс людей, живущих в этих поселениях, тип сельскохозяйственных культур, выращиваемых в регионе, прогнозирование городского развития городов и все безумное дерьмо. вы могли мечтать. Согласно нашим переговорам, мне пришлось провести исследование и построить интеллектуальную систему, которая могла бы делать такого рода классификации на основе спутниковых изображений. Итак, на второй неделе я просмотрел много материала о OpenCV (компьютерное зрение), о том, как все это работает и что все, что я могу использовать из этого.

Неделя 3 - Геопространственная лаборатория

Теперь я был готов развить все свои навыки, которые у меня были до сих пор, в области науки о данных, машинного обучения, компьютерного зрения и географических информационных систем. Я получил несколько изображений диапазона Landsat 8 от моих товарищей в лаборатории. Landsat 8 имеет 11-полосные изображения, которые объединены в единый спутниковый снимок. Все мы слышали о форматах изображений, таких как jpg, png, gif, tiff и т. Д., И эти изображения групп были в формате Geotiff. Особенность изображений Geotiff заключается в том, что каждый пиксель здесь имеет некоторые значения RGB, а также долготу и широту, привязанные к пикселю. Это было то, о чем я даже не мог представить… бум! Вы загружаете это изображение в программное обеспечение, и оно напрямую вписывается в карту мира для всего геопространственного анализа. OpenCV мог бы принять все форматы изображений, но дерьмо Geotiff! Погуглив, я узнал, что OpenCV в одиночку ничего не может для меня сделать. Я наткнулся на еще одну удивительную вещь под названием GDAL - Библиотека абстракции геопространственных данных, которая используется для чтения Geotiffs и всех имеющихся геопространственных данных. OpenCV может в одиночку просто читать значения RGB (на самом деле BGR, как фактически следует OpenCV) из геотиффов. Затем я начал извлекать данные RGB из полос, изучая алгоритмы машинного обучения, такие как нейронные сети, SVM и деревья решений, чтобы назвать некоторые из них, и применять их к данным для проверки результатов (точности). У меня был пул обучающих данных для алгоритмов, но получение данных в формате обучающего набора было сложной задачей.

Помимо работы, культура в IIHS до сих пор представляет собой смесь академических кругов и промышленности. Я нашел приличный однократный PG, чтобы жить в Бангалоре за 5000 баксов после того, как провел 4 дня. Выходные - это всегда весело, когда в городе есть друзья из колледжа. Ночная жизнь великолепна, так как отличные пабы можно найти на каждой улице. У меня была поездка в Нанди-Хиллз, твердую монолитную массу из гранита и лучшую живописную горную станцию ​​в окрестностях Бангалора (60 км). Единственное, что мне пока не понравилось, так это то, что здесь пробки :)

В заключение: всегда приятно использовать знания информатики в других междисциплинарных областях, таких как геоинформатика, городское планирование и развитие населенных пунктов. Мне нужно еще многое изучить, гораздо больше возможностей извлечь из данных Landsat для достижения окончательных результатов моей летней стажировки. Надеюсь, все пройдет хорошо!