вторник, 23 января 2018 г.

Гороскопы, большие данные, школьники ВКонтакте: интервью с Иваном Смирновым



Мы поговорили с Иваном Смирновым о том, почему одни школьники ВКонтакте интересуются гороскопами, а другие - стихами, как приходят идеи для новых исследований, и почему о мире можно узнать всё из журнала The Economist.

Иван - руководитель группы в Институте Образования ВШЭ, которая занимается применением методов data science к исследованиям образования.

                                   
Ты учился на математика, а потом на биолога, и сейчас занимаешься социальными исследованиями: образованием и взаимоотношениями школьников в онлайне-сети ВКонтакте. Расскажи, почему ты решил перейти в другую область, и насколько тяжело это было?

Биологию я изучал в Центре Междисциплинарных Исследований в Париже. В центре была очень необычная атмосфера по сравнению с тем, к чему я привык в России. Вместо иерархической и негибкой системы российских университетов здесь ученые с мировым именем общались со студентами на равных, обучение строилось вокруг исследовательских проектов, а вместо экзамена могла быть командная защита проекта. При этом студенты могли сами формировать программу своего обучения, объединяться в клубы, приглашать лекторов и т.п. Все это меня вдохновило на исследования образования, и я решил, что хочу делать что-то подобное в России.  Я решил, что сначала нужно в этом разобраться, поэтому поступил в аспирантуру по образованию.

Переход был легким. Мне кажется, сложно бывает, если человек насильно попадает в другую среду и должен отказываться от всего, к чему привык. А я пришел в новую область, потому что мне это было интересно, и я хотел этим заниматься. Думаю, легко было еще и потому, что это был не первый переход. Когда таких переходов накапливается достаточное количество, то ко всему начинаешь относиться проще. Один из моих научных руководителей Александр Сидоркин приводил такой пример: в российской традиции принято придавать большое значение разделению объекта и предмета исследования, на эту тему могут даже вестись ожесточенные споры. Но в английском языке и то, и другое обозначается одним словом, и человеку, побывавшему в англоязычной средe поэтому проще не придавать этому значения.

Единственная трудность, наверное, заключалась в том, что иногда даже от признанных специалистов в новой области доводилось слышать вещи, которые, как я знал благодаря предыдущей квалификации, очевидно ложны. При этом все в аудитории, вроде бы, согласны. В такие моменты чувствуешь себя участником эксперимента Аша на конформизм и начинаешь сомневаться в собственной адекватности. Помогало то, что потом попадались источники, подтверждающие мои мысли, и я чувствовал, что я не совсем один. Вот это чувство одиночества мне кажется важной проблемой. Поэтому у меня есть такое правило, что если кто-то в обсуждении уже высказал примерно то же самое, что ты, то не стоит это лишний раз повторять, но вот если замечаешь, что все вокруг говорят одно, а ты думаешь другое, то важно это высказать, потому что может быть в аудитории сидит кто-то и начинает зря сомневаться в самой себе.

Дружеские связи между школьниками ВКонтакте в Санкт-Петербурге. Узлы - школы, связи - дружба в сети ВКонтакте между учениками школ. Источник: визуализация И. Смирнова.

Твоя недавняя статья о том, что со временем школьники пишут все более сложными фразами ВКонтакте, и интернет не ухудшил их грамотность, как многие думают. Такая идея, казалось бы, могла вполне возникнуть при разговоре с нашими родителями, которые сетуют на то, что молодежь стала меньше читать книжек и стала более неграмотной, чем раньше. А как к тебе приходят идеи о новых исследованиях? Ты много читаешь о том, что делают другие исследователи, или идеи приходят и при обычных разговорах с близкими?

Я думаю, если бы меня попросили сесть и придумать что-то, то это бы у меня не получилось, даже несмотря на то, что под рукой был бы интернет с практически безграничной информацией. Идеи обычно рождаются как-то по-другому. Вначале ты чем-то заинтересуешься, и мысль поселяется у тебя в голове. После этого ты живешь обычной жизнью, но иногда попадается какая-то статья, на которую ты в иной ситуации не обратил бы внимания, но, так как у тебя в голове где-то на заднем плане есть эта мысль, то замечаешь, что статья может быть с ней связана, мысль как-то обогащается и остается в твоей голове, пока в какой-то момент не превратится в удачную идею. Поэтому мне кажется важным не только количество входящей информации, статей или случайных разговоров, которые спровоцируют рождение идеи, но и постоянное нахождение в голове большого количества разных мыслей.

У тебя есть свой блог на Медиуме, где ты пишешь о том, что в интернете до сих пор существует социальное неравенство. Например, успевающие ученики интересуются лучшими стихами великих поэтов и интересными фактами, а менее успевающиегороскопами. Насколько было сложно объяснять такие, казалось бы, анекдотичные результаты коллегам, которые привыкли работать с более традиционными данными, а не с данными из социальных сетей?

Это не совсем блог, скорее, эксперимент, в котором я хотел в серии популярных заметок рассказать о результатах своей диссертации. Хорошо известно, что текст диссертации часто никто кроме автора не читает полностью. Даже научный руководитель. По-моему, это нелепо.

Что касается вопроса, то проблема у меня, скорее, в обратном. Анекдотические истории и разные красивые картинки отлично воспринимаются публикой, а когда я пытаюсь говорить о деталях, то все машут рукой: ну да, ну да, какие-то технические подробности, мы верим, что ты все сделал правильно. Вот это не очень хорошо. Люди любят обсуждать и интерпретировать результаты, и недостаточно сомневаются в их достоверности. При этом чем сложнее методы, тем охотнее люди им верят. Часто ссылаются на какую-нибудь продвинутую статистическую модель, которая благодаря своей сложности должна разрешить все вопросы. Чем сложнее модель, тем охотнее ей верят люди, хотя должно быть наоборот. Любое усложнение модели требует дополнительных предположений, часто эти предположения не проверяются, а иногда даже заведомо ложны.

Ты сейчас руководишь новой лабораторией в Высшей школе экономики, которая занимается онлайн-поведением школьников. Расскажи подробнее, чем вы планируете заниматься.

Наши исследования можно отнести к двум темам: “Неравенство в цифровом веке” и “Благополучие учащихся в цифровом веке”. Неравенство — классическая тема для социальных исследований, однако развитие технологий ставит новые вопросы. Например, многие надеялись, что распространение интернета приведет к уменьшению неравенства, так как он предоставляет всем равный доступ к практически ко всему человеческому знанию. Но в реальности, похоже, происходит обратное. Развитие технологий не только ставит новые вопросы, но и позволяет нам собирать гораздо большее количество данных с гораздо большим разрешением. Мы можем не только констатировать сам факта неравенства, но и изучать его в динамике, отслеживать детальную эволюцию. Это в свою очередь может помочь найти способы борьбы с ним.

Вторая тема, о благополучии учащихся, мне кажется, важна потому, что результаты образовательной системы обычно оцениваются через образовательные достижения, то есть, через оценки учащихся. Но благополучие учеников не сводится только к их академической успеваемости. Интересно понять, а как они себя чувствуют, какой у них уровень тревожности, достаточно ли они спят, нет ли у них проблем в социальной жизни. Здесь технологии снова играют двойную роль. С одной стороны, они могут влиять на все эти процессы, а с другой, впервые позволяют нам их детально изучать за счет данных из социальных сетей, мобильных устройств и подобных источников.


Связи лайков Вконтакте между учащимися Высшей Школы Экономики, которая имеет кампусы в Санкт-Петербурге, Перми и Нижнем Новгороде. Узлы - студенты, связи - дружеские связи между ними ВКонтакте. Фиолетовые узлы - первокурсники, красные - второкурсники, зеленые - третьекурсники, бирюзовые - четверокурсники. Источник: визуализация И. Смирнова.

Какие темы сейчас популярны в твоей области? Чем многие занимаются?

Сейчас в социальных исследованиях набирает популярность использование последних достижений в области машинного обучения, таких, например, как глубинное обучение. В недавно опубликованной статье авторы обучили алгоритм предсказывать по фотографиям из Google Street View демографические характеристики района. Подобные работы позволяют получить точные оценки характеристик, которые было бы невозможно собрать в больших масштабах. Например, научившись предсказывать уровень депрессии по твиттам, можно затем построить детальную карту депрессии целой страны, а затем выявить факторы, которые с ней связаны, и получить новое знание.

В другой работе исследовалось гендерное неравенство на популярном сайте для дизайнеров. Авторы обнаружили, что работы мужчин получают в среднем больше лайков. Тогда они обучили нейронную сеть предсказывать пол автора по картинке. Им удалось добиться достаточно высокой точности. После этого они добавили предсказанный моделью пол в свою модель и выяснили, что именно он, а не фактический пол определяет большее количество лайков. То есть пользователи предпочитают не мужчин-авторов, а определенный тип картинок, и этот тип картинок гораздо чаще рисуют мужчины.

Еще могу порекомендовать книжки:

Какие программы ты используешь для анализа своих данных? За кого ты в противостоянии R и Python?

Когда я впервые решил посмотреть на данные ВКонтакте, то написал скрипт на PHP, а для визуализации использовал одну из библиотек JavaScript. Я долгое время работал веб-разработчиком, и это были наиболее комфортные для меня языки программирования. Потом мне потребовалась статистика и я вначале считал в MATLAB, а потом, когда не нашел необходимой мне функции, установил R. Нетрудно догадаться, что использование большого количества технологий не очень эффективно. Так что я решил перейти Python и теперь весь процесс от сбора данных до финальных графиков у меня в одной среде, это очень удобно. Хотя я занимаюсь программированием больше десяти лет, а на Python перешел только недавно, я уже не могу себе представить свою жизнь без него. Это язык с минимальным порогом вхождения и большой выразительностью. Ну, и это де-факто стандарт в data science.

Мы знаем, что ты читаешь все номера журнала The Economist. Расскажи, что еще ты читаешь, слушаешь или смотришь, чтобы быть в курсе того, что происходит в научном мире?

Иногда я думаю о том, что если бы мне нужно было выбрать между тем, чтобы отказаться от The Economist или отказаться от всех остальных источников информации, то я выбрал бы последнее. Это может показаться странным, но я воспринимаю это как обычное разделение труда. Если кто-нибудь хочет купить себе автомобиль, он не пытается собрать его сам, а вместо этого доверяет автомобилю, сделанному компанией-специалистом. Точно так же я доверяю сбор и анализ информации о мире лучшей в этой области компании. Для того чтобы следить за тем, что происходит в области data science, я подписан на еженедельную рассылку Data Science Community Newsletter.

Что касается научного мира, то тут у меня другая стратегия. Здесь я слежу за теми людьми, которые мне кажутся интересными. Почти у всех западных ученых есть активный Твиттер, так что я подписываюсь на него. И в дополнение подписываюсь в Google Scholar на уведомления о новых статьях интересных мне авторов. И стараюсь посещать лучшие конференции в той области, которой занимаюсь. Это мне кажется обязательным. Если посетить ведущую конференцию в интересующей области, то можно сразу составить хорошее представление о том, что в ней происходит. Такую же картину сложно получить удаленно, так как статей публикуется слишком много. В этом смысле конференция служит эффективным агрегатором, таким же как The Economist, или Data Science Community Newsletter.

Как проходит твой обычный день? Как ты занимаешься исследованиями, что делаешь в течение дня?
У меня есть три режима: писать, считать и думать. Писать я могу только в первой половине дня, хотя я и сова. И только после чашки кофе. Обычно мне сложно сконцентрироваться на написании текстов, поэтому я выделяю себе на это побольше дней, так чтобы за один раз можно было написать не так много. Считать я, наоборот, могу очень долго и, когда пишу какой-то код, легко могу засидеться на работе до десяти вечера или дома глубоко за полночь. А думаю я, когда куда-нибудь иду. На работе для этого приходится ходить туда-обратно по коридору :)



***
Что еще можно почитать на связанные темы:
Еще один гостевой пост в нашем блоге от Егора Лавренчука. О том, как математик Эйлер однажды задумался о загадке семи мостов Кенигсберга: "можно ли пройти каждый мост по одному разу и вернуться в исходное место?", и как это вылилось затем в изучение графов, сетей, интернета, и запутанных отношений между людьми -- во все то, чем мы занимаемся сейчас.
* Иван советует рассылки, на которые он подписан и за которыми регулярно следит. Мы ранее делали подборку рассылок, которые спецализируются на анализе социальных сетей.
* Краткую версию статьи Ивана о том, что со временем пользователи ВКонтакое становятся грамотнее, можно почитать на MIT Technology Review.

Комментариев нет:

Отправить комментарий