Стажировки "Будущих профессоров" кадрового резерва. Игнатов Дмитрий

Игнатов Дмитрий Игоревич, кандидат наук, кафедра анализа данных и искусственного интеллекта,

отделение прикладной математики, доцент, научный сотрудник

Великобритания, Лондон, Университетский колледж.

В ходе подготовки к стажировке пришлось уменьшить время пребывания до двух недель, т.к. дела и визовые формальности долго не отпускали, и в итоге я остался очень рад тому, что удалось вырваться.

В UCL я был в гостях у Девида Барбера – ридера (аналог доцента) Департамента компьютерных наук и научного сотрудника Центра вычислительной статистики и машинного обучения (Centre for Computational Statistics and Machine Learning). Девид – молодой, достаточно открытый и целеустремленный ученый, работающий в тесном контакте с различными коллегами над открытыми задачами в машинном обучении.

Девид является автором книги Bayesian Reasoning and Machine Learning, которая представляет собой введение в байесовскую парадигму машинного обучения и охватывает множество современных задач машинного обучения.

Как пишет Девид на своей странице, любой у кого есть финансирование для поездки и интересная задача в области машинного обучения может приехать к нему на стажировку.Моя задача была посвящена анализу мультимодальных данных. Например, для модальности три, примером таких данных может служить так называемая фолксономия, структура вида <пользователи-теги-ресурсы>. Такие фолксономические данные можно изобразить в виде триадического гиперграфа как на рисунке ниже:

Оранжевые узлы соответствуют ученым, зеленые – статьям (ресурсам), которые помечены тегами (синие узлы). Каждый треугольник в таком графе говорит, что конкретные ученый пометил данным тегом некоторый ресурс, например, некто Poelmans пометил статью 3 тегом DomViol (Domestic Violence). Ранее мы с коллегами предложили ряд алгоритмов для нахождения сообществ в таких графах, как бимодальных (пользователь-ресурс), так и тримодальных – алгоритмы бикластеризации и трикластеризации, соответственно. Недавно нашу статью, посвященную этим алгоритмам, приняли в журнал Machine Learning. В сотрудничестве с Девидом мы намеревались нащупать мостики между дискретным алгебраическим подходом, который близок нашей группе, и вероятностным, байесовским, взглядом на проблему поиска кластеров (сообществ) в мультимодальных сетях.

В Лондоне я жил в гостинице рядом с Рассел Сквер, правда меня на одну ночь переселяли в гостиницу неподалеку, т.к. центральная часть Лондона просто забита туристами и бронировать что-либо на длительный период нужно сильно заранее.

Друзья говорили, что в UCL неплохие общежития, но в виду краткосрочности визита этот вопрос я не прорабатывал. Помимо встречи с Девидом я делал доклад для коллег из его департамента, в этом мне помогал аспирант Гай Левер, и познакомился с Сайрой Миан, почетным профессором UCL, которая предложила мне использовать наши методы для кластеризации научных текстов в области биопродуктов, сельскохозяйственной высокоэкологичной продукции и отчетов по отраслям т.н. Green Economy. Она отметила, что наш метод в чем-то похож на т.н. тематическое моделирование (которое придумали ее соавторы, некто Д. Блей и М. Джордан), т.е. вероятностное распределение текстов по темам на основе их текстового содержания. Это действительно так, но наши методы дискретные и позволяют получить еще и иерархию темы-тексты в виде графа, что дополняет анализ в случае пересекающихся тематик. Так мостик в одну сторону перекидывается легко – мы можем визуализировать результаты вероятностной бикластеризации с помощью диаграмм порядка. В ходе стажировки я откопал статью Ивена ван Мехелена психолога и математика, в которой тоже применялась похожая вероятностная модель, но для нахождения групп пациентов, которые демонстрируют некоторые типы поведения в определенных ситуациях – т.е. налицо задача трикластеризации. Что касается реальных продвижений исследований, то пока времени не хватало даже на то чтобы осмыслить уже найденное и прочитанное, но где-то в голове эти идеи

прокручиваются, часть роздана студентам и кое-что мы в скором времени обязательно посчитаем. Еще в UCL почти еженедельно проходят различные встречи и выступления по машинному обучению, так я побывал на семинаре серии Microsoft Research CSML Seminar Series, посвященной работам молодых исследователей из UCL, поданных на NIPS (одну из конференций уровня A+ в машинном обучении). Я познакомился с Эндрю Макдональдом, который рассказал про спектальную регуляризацию, Каспером Чвялковcки и его исследованиями с применением техники «дикого» бутстрепа в машинном обучении, а также с Баладжи Лакшминараянаном и его экспериментами с Мондриановскими лесами для задачи классификации.

Что же касается Лондона, то город этот многолюдный с хорошо известными достопримечательностями и символикой, традиционно довольно высокими ценами и узкими вагонами метро на старых линиях – отрадно то, что практически все музеи можно посещать бесплатно. Университет не менее многолюдное место, поэтому работать можно в холлах департамента и библиотеках, а также в shared-rooms на 15-20 человек оборудованных столами и компьютерами. Большинство лондонских колледжей входят в состав полумифического образования University of London (17 колледжей и 10 институтов), поэтому я выбрал тот, в котором расположена один из ведущих в Англии центров по моей тематике. Нельзя сказать, что с культурой питания в Королевсте все хорошо, английские завтраки по утрам в гостинице – это здорово, а вот нормальный обед с супом, пожалуй, можно отыскать только в китайском или японском ресторане неподалеку. Кстати, кафе при университете мне не приглянулось.

Отрадно, что в ходе стажировки мне удалось попасть в качестве докладчика и в Кембридж, пожалуй, в еще один ведущий исследовательский центр по машинному обучению и информационному поиску в Королевстве, принадлежащий компании Майкрософт. Сам город оказался менее загруженным и более консерватиным, чем Лондон, но и в Лондоне при желании можно было ощутить дух старой доброй Англии, а в Кембридже это было сделать еще проще просто свернув в какой-нибудь колледжский дворик и полюбоваться на еще цветующую в ноябре магнолию и старинные здания.

Перед отъездом в Кембридж, а там я окзалася всего на один день, со мной вышла история – старейший банк России всучил мне фунты, которые не принимались к оплате уже как почти год, благодаря чему я и упустил поезд, пока достояв в очереди и получив отказ в оплате, узнал про это. К счастью, в ближайшем пункте обмена 50 фунтовую купюру мне разменяли с комиссией и я успел на следующий поезд. Кстати, это был знаметый Кингс Кросс и у меня была возможность сделать чекин на платформе 9¾.

А вот в Кембридже у меня приняли злополучные фунты в магазине Кембридж Университи Пресс и я стал богаче на несколько килограмм отличных книг по машинному обучению и майнингу данных.

В Майкрософт Рисеч попадаешь буквально прямо с вокзала, сотрудники здесь приветливые и благожелательные, все окна и стены исписаны формулами, так что видно развитие научной мысли сотрудников буквально в самих кабинетах.

Мне удалось забежать в археологический музей и дойти до реки Кем и немного погулять по городу. В самом Лондоне помимо общения с коллегами я тоже старался много гулять, посетить музеи и галереи, парки. Однажды я побывал в гостях в лондонской квартире, расположенной в многоэтажного доме в районе неподалеку под названием Barbican, повесил там абажур и попытался починить велосипед.

Улетая домой, я чуть было не попал в еще одно приключение. Метро оказалось не только старинным и узким с лифтами вместо эскалаторов, но и легкомысленным к своим обязательствам. Пока я ехал в свой терминал аэропорта Хитроу поезд решил не торопиться, дважды передумал куда ему ехать и в итоге высадил меня на одну станцию до и пришлось ждать следующего поезда, вместе с другими пассажирами, с нетерпением поглядывая на табло, тем временем его показания меняться не спешили и декларировали 12 минут до прибытия еще целых 12 минут, а потом все-таки начали обратный отсчет. Быть может, mind the gap – это the gap of the mind? Но рейс, как водится у хороших отечественных компаний, задержали и я успел не в притык – еще и подождать довелось. Встретил своего коллегу, а когда-то студента, который возвращался с конференции по теории игр в Оксфорде, и мы мило общались почти весь обратный путь, поменявшись местами с уступчивым соотечественником.

Что можно посоветовать резервисту, собирающемуся в путешествие на зарубежную стажировку? Англия, конечно же, стоит того, чтобы ее посетить, быть может Лондон не самое лучшее место для спокойных размышлений, но и там есть умиротворяющие парки с почти с вечнозеленой травой и вековыми деревьями.

В университетах хотя и многолюдно, но зато можно встретить ведущих профессионалов из самых разных стран и завести знакомства, начать сотрудничество. Все расходы на непредвиденные путешествия стоит все-таки предвидеть. Так Кембридж не входил в мои планы, но ненулевая вероятность была, видимо, стоило вписать. К сожалению, транспортные расходы на посещение Кембриджа так и не удалось возместить, т.к. их покрывала компания Майкрософт, выплачивая напрямую организации, а финансовое взаимодействие университетов и зарубежных организаций по таким вопросам в России не отлажено, но сама поездка того стоила. В остальном, думаю, поможет хорошее планирование – решать вопросы о приезде с зарубежными коллегами и хлопотать над пригласительными и рекомендательными письмами стоит сильно заранее, а отчетные документы – аккуратно собирать и хранить.

Хотелось бы выразить отдельную благодарность Екатерине Прокофьевой и сотрудникам Управления академического развития, помогавшим в организации поездки.