Показаны сообщения с ярлыком блоги. Показать все сообщения
Показаны сообщения с ярлыком блоги. Показать все сообщения

вторник, 23 января 2018 г.

Гороскопы, большие данные, школьники ВКонтакте: интервью с Иваном Смирновым



Мы поговорили с Иваном Смирновым о том, почему одни школьники ВКонтакте интересуются гороскопами, а другие - стихами, как приходят идеи для новых исследований, и почему о мире можно узнать всё из журнала The Economist.

Иван - руководитель группы в Институте Образования ВШЭ, которая занимается применением методов data science к исследованиям образования.

                                   
Ты учился на математика, а потом на биолога, и сейчас занимаешься социальными исследованиями: образованием и взаимоотношениями школьников в онлайне-сети ВКонтакте. Расскажи, почему ты решил перейти в другую область, и насколько тяжело это было?

Биологию я изучал в Центре Междисциплинарных Исследований в Париже. В центре была очень необычная атмосфера по сравнению с тем, к чему я привык в России. Вместо иерархической и негибкой системы российских университетов здесь ученые с мировым именем общались со студентами на равных, обучение строилось вокруг исследовательских проектов, а вместо экзамена могла быть командная защита проекта. При этом студенты могли сами формировать программу своего обучения, объединяться в клубы, приглашать лекторов и т.п. Все это меня вдохновило на исследования образования, и я решил, что хочу делать что-то подобное в России.  Я решил, что сначала нужно в этом разобраться, поэтому поступил в аспирантуру по образованию.

Переход был легким. Мне кажется, сложно бывает, если человек насильно попадает в другую среду и должен отказываться от всего, к чему привык. А я пришел в новую область, потому что мне это было интересно, и я хотел этим заниматься. Думаю, легко было еще и потому, что это был не первый переход. Когда таких переходов накапливается достаточное количество, то ко всему начинаешь относиться проще. Один из моих научных руководителей Александр Сидоркин приводил такой пример: в российской традиции принято придавать большое значение разделению объекта и предмета исследования, на эту тему могут даже вестись ожесточенные споры. Но в английском языке и то, и другое обозначается одним словом, и человеку, побывавшему в англоязычной средe поэтому проще не придавать этому значения.

Единственная трудность, наверное, заключалась в том, что иногда даже от признанных специалистов в новой области доводилось слышать вещи, которые, как я знал благодаря предыдущей квалификации, очевидно ложны. При этом все в аудитории, вроде бы, согласны. В такие моменты чувствуешь себя участником эксперимента Аша на конформизм и начинаешь сомневаться в собственной адекватности. Помогало то, что потом попадались источники, подтверждающие мои мысли, и я чувствовал, что я не совсем один. Вот это чувство одиночества мне кажется важной проблемой. Поэтому у меня есть такое правило, что если кто-то в обсуждении уже высказал примерно то же самое, что ты, то не стоит это лишний раз повторять, но вот если замечаешь, что все вокруг говорят одно, а ты думаешь другое, то важно это высказать, потому что может быть в аудитории сидит кто-то и начинает зря сомневаться в самой себе.

Дружеские связи между школьниками ВКонтакте в Санкт-Петербурге. Узлы - школы, связи - дружба в сети ВКонтакте между учениками школ. Источник: визуализация И. Смирнова.

Твоя недавняя статья о том, что со временем школьники пишут все более сложными фразами ВКонтакте, и интернет не ухудшил их грамотность, как многие думают. Такая идея, казалось бы, могла вполне возникнуть при разговоре с нашими родителями, которые сетуют на то, что молодежь стала меньше читать книжек и стала более неграмотной, чем раньше. А как к тебе приходят идеи о новых исследованиях? Ты много читаешь о том, что делают другие исследователи, или идеи приходят и при обычных разговорах с близкими?

Я думаю, если бы меня попросили сесть и придумать что-то, то это бы у меня не получилось, даже несмотря на то, что под рукой был бы интернет с практически безграничной информацией. Идеи обычно рождаются как-то по-другому. Вначале ты чем-то заинтересуешься, и мысль поселяется у тебя в голове. После этого ты живешь обычной жизнью, но иногда попадается какая-то статья, на которую ты в иной ситуации не обратил бы внимания, но, так как у тебя в голове где-то на заднем плане есть эта мысль, то замечаешь, что статья может быть с ней связана, мысль как-то обогащается и остается в твоей голове, пока в какой-то момент не превратится в удачную идею. Поэтому мне кажется важным не только количество входящей информации, статей или случайных разговоров, которые спровоцируют рождение идеи, но и постоянное нахождение в голове большого количества разных мыслей.

У тебя есть свой блог на Медиуме, где ты пишешь о том, что в интернете до сих пор существует социальное неравенство. Например, успевающие ученики интересуются лучшими стихами великих поэтов и интересными фактами, а менее успевающиегороскопами. Насколько было сложно объяснять такие, казалось бы, анекдотичные результаты коллегам, которые привыкли работать с более традиционными данными, а не с данными из социальных сетей?

Это не совсем блог, скорее, эксперимент, в котором я хотел в серии популярных заметок рассказать о результатах своей диссертации. Хорошо известно, что текст диссертации часто никто кроме автора не читает полностью. Даже научный руководитель. По-моему, это нелепо.

Что касается вопроса, то проблема у меня, скорее, в обратном. Анекдотические истории и разные красивые картинки отлично воспринимаются публикой, а когда я пытаюсь говорить о деталях, то все машут рукой: ну да, ну да, какие-то технические подробности, мы верим, что ты все сделал правильно. Вот это не очень хорошо. Люди любят обсуждать и интерпретировать результаты, и недостаточно сомневаются в их достоверности. При этом чем сложнее методы, тем охотнее люди им верят. Часто ссылаются на какую-нибудь продвинутую статистическую модель, которая благодаря своей сложности должна разрешить все вопросы. Чем сложнее модель, тем охотнее ей верят люди, хотя должно быть наоборот. Любое усложнение модели требует дополнительных предположений, часто эти предположения не проверяются, а иногда даже заведомо ложны.

Ты сейчас руководишь новой лабораторией в Высшей школе экономики, которая занимается онлайн-поведением школьников. Расскажи подробнее, чем вы планируете заниматься.

Наши исследования можно отнести к двум темам: “Неравенство в цифровом веке” и “Благополучие учащихся в цифровом веке”. Неравенство — классическая тема для социальных исследований, однако развитие технологий ставит новые вопросы. Например, многие надеялись, что распространение интернета приведет к уменьшению неравенства, так как он предоставляет всем равный доступ к практически ко всему человеческому знанию. Но в реальности, похоже, происходит обратное. Развитие технологий не только ставит новые вопросы, но и позволяет нам собирать гораздо большее количество данных с гораздо большим разрешением. Мы можем не только констатировать сам факта неравенства, но и изучать его в динамике, отслеживать детальную эволюцию. Это в свою очередь может помочь найти способы борьбы с ним.

Вторая тема, о благополучии учащихся, мне кажется, важна потому, что результаты образовательной системы обычно оцениваются через образовательные достижения, то есть, через оценки учащихся. Но благополучие учеников не сводится только к их академической успеваемости. Интересно понять, а как они себя чувствуют, какой у них уровень тревожности, достаточно ли они спят, нет ли у них проблем в социальной жизни. Здесь технологии снова играют двойную роль. С одной стороны, они могут влиять на все эти процессы, а с другой, впервые позволяют нам их детально изучать за счет данных из социальных сетей, мобильных устройств и подобных источников.


Связи лайков Вконтакте между учащимися Высшей Школы Экономики, которая имеет кампусы в Санкт-Петербурге, Перми и Нижнем Новгороде. Узлы - студенты, связи - дружеские связи между ними ВКонтакте. Фиолетовые узлы - первокурсники, красные - второкурсники, зеленые - третьекурсники, бирюзовые - четверокурсники. Источник: визуализация И. Смирнова.

Какие темы сейчас популярны в твоей области? Чем многие занимаются?

Сейчас в социальных исследованиях набирает популярность использование последних достижений в области машинного обучения, таких, например, как глубинное обучение. В недавно опубликованной статье авторы обучили алгоритм предсказывать по фотографиям из Google Street View демографические характеристики района. Подобные работы позволяют получить точные оценки характеристик, которые было бы невозможно собрать в больших масштабах. Например, научившись предсказывать уровень депрессии по твиттам, можно затем построить детальную карту депрессии целой страны, а затем выявить факторы, которые с ней связаны, и получить новое знание.

В другой работе исследовалось гендерное неравенство на популярном сайте для дизайнеров. Авторы обнаружили, что работы мужчин получают в среднем больше лайков. Тогда они обучили нейронную сеть предсказывать пол автора по картинке. Им удалось добиться достаточно высокой точности. После этого они добавили предсказанный моделью пол в свою модель и выяснили, что именно он, а не фактический пол определяет большее количество лайков. То есть пользователи предпочитают не мужчин-авторов, а определенный тип картинок, и этот тип картинок гораздо чаще рисуют мужчины.

Еще могу порекомендовать книжки:

Какие программы ты используешь для анализа своих данных? За кого ты в противостоянии R и Python?

Когда я впервые решил посмотреть на данные ВКонтакте, то написал скрипт на PHP, а для визуализации использовал одну из библиотек JavaScript. Я долгое время работал веб-разработчиком, и это были наиболее комфортные для меня языки программирования. Потом мне потребовалась статистика и я вначале считал в MATLAB, а потом, когда не нашел необходимой мне функции, установил R. Нетрудно догадаться, что использование большого количества технологий не очень эффективно. Так что я решил перейти Python и теперь весь процесс от сбора данных до финальных графиков у меня в одной среде, это очень удобно. Хотя я занимаюсь программированием больше десяти лет, а на Python перешел только недавно, я уже не могу себе представить свою жизнь без него. Это язык с минимальным порогом вхождения и большой выразительностью. Ну, и это де-факто стандарт в data science.

Мы знаем, что ты читаешь все номера журнала The Economist. Расскажи, что еще ты читаешь, слушаешь или смотришь, чтобы быть в курсе того, что происходит в научном мире?

Иногда я думаю о том, что если бы мне нужно было выбрать между тем, чтобы отказаться от The Economist или отказаться от всех остальных источников информации, то я выбрал бы последнее. Это может показаться странным, но я воспринимаю это как обычное разделение труда. Если кто-нибудь хочет купить себе автомобиль, он не пытается собрать его сам, а вместо этого доверяет автомобилю, сделанному компанией-специалистом. Точно так же я доверяю сбор и анализ информации о мире лучшей в этой области компании. Для того чтобы следить за тем, что происходит в области data science, я подписан на еженедельную рассылку Data Science Community Newsletter.

Что касается научного мира, то тут у меня другая стратегия. Здесь я слежу за теми людьми, которые мне кажутся интересными. Почти у всех западных ученых есть активный Твиттер, так что я подписываюсь на него. И в дополнение подписываюсь в Google Scholar на уведомления о новых статьях интересных мне авторов. И стараюсь посещать лучшие конференции в той области, которой занимаюсь. Это мне кажется обязательным. Если посетить ведущую конференцию в интересующей области, то можно сразу составить хорошее представление о том, что в ней происходит. Такую же картину сложно получить удаленно, так как статей публикуется слишком много. В этом смысле конференция служит эффективным агрегатором, таким же как The Economist, или Data Science Community Newsletter.

Как проходит твой обычный день? Как ты занимаешься исследованиями, что делаешь в течение дня?
У меня есть три режима: писать, считать и думать. Писать я могу только в первой половине дня, хотя я и сова. И только после чашки кофе. Обычно мне сложно сконцентрироваться на написании текстов, поэтому я выделяю себе на это побольше дней, так чтобы за один раз можно было написать не так много. Считать я, наоборот, могу очень долго и, когда пишу какой-то код, легко могу засидеться на работе до десяти вечера или дома глубоко за полночь. А думаю я, когда куда-нибудь иду. На работе для этого приходится ходить туда-обратно по коридору :)



***
Что еще можно почитать на связанные темы:
Еще один гостевой пост в нашем блоге от Егора Лавренчука. О том, как математик Эйлер однажды задумался о загадке семи мостов Кенигсберга: "можно ли пройти каждый мост по одному разу и вернуться в исходное место?", и как это вылилось затем в изучение графов, сетей, интернета, и запутанных отношений между людьми -- во все то, чем мы занимаемся сейчас.
* Иван советует рассылки, на которые он подписан и за которыми регулярно следит. Мы ранее делали подборку рассылок, которые спецализируются на анализе социальных сетей.
* Краткую версию статьи Ивана о том, что со временем пользователи ВКонтакое становятся грамотнее, можно почитать на MIT Technology Review.

вторник, 31 мая 2016 г.

Итоги месяца: май

И вновь итоги месяца. На этот раз про то, что произошло в мае.


понедельник, 14 декабря 2015 г.

Кого читать: Лада Адамик

Обычно мы пишем об интересных исследованиях, но в этот раз решили написать о  Ладе Адамик – известной ученой, который работает над интересными исследованиями.
       Лада - один из самых известных и цитируемых исследователей социальных сетей. В последние годы фокус ее исследований сконцентрирован на структуре и динамике онлайн-сетей, а также диффузии информации.
       Она соавтор одной из самых популярных работ по сетевому анализу «The political blogosphere and the 2004 US election: divided they blog». Лада хорошо известна и молодым исследователям сетевых структур, так как она ведет один из самых популярных вводных курсов по сетевому анализу на Курсере. Наконец, карьера Адамик сама по себе очень интересна. В 2012 Лада перешла работать из университета Мичигана в Фейсбук.

Лада Адамик. Источник

Карьера
Лада Адамик начала заниматься исследованиями социальных сетей в конце 1990-х годов (CV) в аспирантуре физического факультета Стэнфорда. Её первые статьи были посвящены структурным характеристикам веб-графов. После окончания аспирантуры в 2001 г. Лада переходит работать в Hewlett Packard. В этот период у неё появляются работы, посвященные распространению информации в социальных онлайн-сетях. В 2005 у Адамик выходят ее наиболее цитируемые и известные статьи: «The political blogosphere and the 2004 US election: divided they blog» и «Tracking information epidemics in blogspace» (эта статья получила награду как самая влиятельная публикация десятилетия по версии Web Intelligence).


Сети взаимодействий между блогами демократов (синие вершины) и республиканцев (красные вершины). Источник.

       В этом же году Лада переходит работать в Центр сложных систем в университете Мичигана (там работает еще один замечательный сетевик Марк Ньюман).  В Мичигане Адамик занимается проектами по обмену знаниями в социальных сетях (на примере форумов вопросов/ответов, Q&A forums), диффузии информации и структурными характеристиками онлайн-сетей. В этот период у нее вышло много интересных исследований про онлайн-сети, уже тогда она работала с большими данными – сетями с миллионами вершин и десятками миллионов ребер. В 2012 г. Лада переходит из университета Мичигана в Facebook Data Science Team. С тех фокус исследований Лады полностью сместился в область анализа поведения пользователей Фейсбука (список ее работ).

Подход к исследованиям
Исследования Лады Адамик привлекают интерес в первую очередь из-за любопытных и необычных результатов. В отличие от многих сетевиков-физиков, например Марка Ньюмана и Альберта-Ласло Барабаши, Адамик не разрабатывает методологию сетевого анализа, а решает прикладные задачи, и, что немаловажно, всегда уделяет большое внимание описанию процедур сбора и анализа данных. Для решения этих задач она использует самый разнообразный инструментарий, не ограничиваясь «традиционными» методами и моделями, что отличает ее как мультидисциплинарного исследователя. Например, привлекает внимание ее работа «The evolution of memes on Facebook», в которой для анализа мемов и их изменений (мутации) используются статистические модели из генетики. Адамик с соавторами (в числе которых значится и генетик из Сингапура) отмечают, что аналогичные подходы могут быть использованы не только для анализа контента социальных сетей, но и для иных социальных взаимодействий.

Сеть вопросов и ответов на форумах. Цвет вершин зависит от «экспертности» актора. Красные – наиболее высококвалифицированные. Источник.

Сегодня Лада работает в Фейсбук, у нее по-прежнему с завидной регулярностью выходит курсеровский курс по социальным сетям, она часто выступает на конференциях. Работа в Facebook Data Science дает ей возможность анализировать огромные по объему данные, малодоступные простому смертному исследователю. Надеемся, что в будущем мы увидим немало ее работ на основе этих данных.