Показаны сообщения с ярлыком вычислительные социальные науки. Показать все сообщения
Показаны сообщения с ярлыком вычислительные социальные науки. Показать все сообщения

вторник, 13 марта 2018 г.

Старая история на новый лад - почему физикам и лирикам не удается договориться

Все чаще социологи и «компьютерщики» работают над одними и теми же вопросами, но получают на них разные ответы. Часто такие работы относят к аналитической социологии (analytical sociology, дальше будем называть «AS») или вычислительным социальным наукам (computational social science, далее «CSS»). И в том, и в другом направлении много и социологов, и исследователей из компьютерных наук, однако в AS преобладают социологи, а в CSS - физики, математики, информатики. Мы задались вопросом, в чем же различия между этими направлениями, и попробовали спрогнозировать, какими будут социальные исследования в будущем.
Сразу начнем с плохого – пока между социологами и исследователями их компьютерных наук нет любви и взаимопонимания. Представители аналитической социологии во многих своих статьях, в личных беседах и публичных обсуждениях пытаются продемонстрировать скептическое отношение к представителям компьютерных социальных наук. Например, «аналитики» в недавней статье в журнале «Journal of Computational Social Science» назвали своих коллег из CSS просто «физиками, занимающимся вычислениями в социологии» и подчеркнули, что «несмотря на то, что аналитическая социология и компьютерные социальные науки имеют много общего (…), у них различная исследовательская ориентация и амбиции», откровенно намекая на то, что исследования компьютерных социальных наук какие-то не такие. Звучит обидно.


Где-то здесь находятся AS и CSS. Источник.

       В чем же разница в этих «исследовательских ориентациях и амбициях» у AS и CSSПредставители AS очень часто упрекают CSS в зацикленности на анализе взаимосвязей между переменными, а не на поиске причинно-следственных связей, построении сложных механизмов и социологической рефлексии. «Если результаты [эмпирического исследования] не могут быть впоследствии переведены на язык механизмов, то исследование ценится меньше», указывают представители аналитической социологии.
У представителей AS два аргумента. Во-первых, социальные механизмы «более интеллектуально удовлетворительны» (cогласимся, не самое убедительное и весьма эфемерное утверждение). Во-вторых, эти социальные механизмы должны быть понятны для того, чтобы использоваться при принятия решений. И если относительно первого пункта еще можно поспорить, то второе замечание выглядит убедительно. Чтобы принимались какие-то решения, например, о вакцинации населения, ученые должны предоставить простое объяснение того, каким образом происходит заражение, и почему только определенный порядок вакцинации приведет к снижению заболеваемости. Вполне вероятно, что современные методы анализа данных, например, нейронные сети, смогут продемонстрировать куда большую предсказательную силу и смоделировать значительно более продуктивную политику вакцинации. Но это будут данные, полученные из «черного ящика», а к такому лица, принимающие решения, на данном этапе не готовы. Аналогичной точки зрения придерживается и Петр Сафронов из Института Образования ВШЭ. «Методы науки о данных, позволяя делать предсказания, часто не дают возможности выстроить объяснение, интерпретацию», - говорит он в интервью для Постнауки.  При этом новые методы данных постепенно все чаще и чаще используются в коммерческом секторе, принося значительную прибыль и демонстрируя высокую эффективность. Почему бы не воспользоваться уже зарекомендовавшими себя инструментами и довериться «черному ящику»?
Журналы, где публикуются приверженцы CSS и AS также совершенно разные. Статьи по аналитической социологии публикуются в социологических журналах: American Journal of Sociology, Sociological Review, Social Networks. А вот CSS публикуются чаще в естественно-научных изданиях из ‘hard science’ – Nature, Science, PNAS, Scientific Reports. И, разумеется, представители AS и CSS не очень активно ссылаются друг на друга, хотя, порой, эти ссылки напрашиваются сами собой.




        Приведем простой пример, который близок нам, как большим любителям социальных сетей. Одно из свойств сетей - это гомофилия, или склонность похожих людей быть связанными друг с другом. Например, наши друзья, как правило, одного с нами пола, у нас схожее образование, интересы и вкусы. В вычислительных социальных науках для оценки гомофилии широко применяется коэффициент ассортативности, предложенный Марком Ньюманом. Он очень прост и элегантен – это коэффициент корреляции между характеристиками человека и его друзей. Соответственно, если похожие люди дружат  – то коэффициент ассортативности ближе к 1. Если непохожие люди дружат, то ассортативность будет стремиться к -1. Но аналитические социологи вряд ли будут оценивать степень гомофилии через ассортативность. Скорее всего, в статье будут использованы более сложные методы, например, модели случайных графов или стохастического моделирования, и будет показано, что сходство по каким-то признакам - статистически значимый предиктор формирования связей, и он меняется со временем определенным образом. Одним словом, будет показано, каким образом и почему гомофилия может формироваться, но сама степень гомофилии не будет оценена! И это лишь один из примеров того, как «аналитики» и «компьютерщики» игнорируют друг друга. 
Дункан Ваттс отмечает, что в социальных науках сейчас есть два типа исследователей – «высокомерные компьютерщики» и «обороняющиеся социологи». Любопытно, что каждая группа стопроцентно уверена в своей уникальности, хотя выигрышной стратегией в данном случае выглядит именно объединение усилий и совместное решение научных задач. И если исследователи предполагают, что, вызывая на поединок своих коллег они все делают правильно, то мы в этом не уверены. Новые технологии, новые данные, новые методы и новая жизнь задают крайне высокую планку исследователям общества. Чтобы осмыслить дивный новый мир нужно уметь всё: получать и анализировать большие данные с использованием новых методов, интерпретировать полученные результаты, а также делать на основе этого практические выводы.
        В этой связи расскажем об исследовательнице, которая успешно совмещает в своей работе и теорию, и методы – Сандру Гонзалез-Бэйлон. Занимаясь коллективным действием и политическими сетями, Сандра корректно и аккуратно встраивает в свои исследования как глубокую теорию, так и современные методы на больших данных. Она публикует результаты своих исследований как в классических социологических и политологических, так и в естественно-научных журналах. Например, ее недавняя статья о том, как происходит вовлечение Твиттер-пользователей в обсуждение испанских протестов. Сандра с коллегами (между прочим, физиками) проанализировали структуру и динамику социальной сети протестующих в Твиттере, то есть речь идет о по-настоящему больших данных. Участниками сети становились пользователи, использовавшие определенный протестный хэштэг. Выяснилось, что позиция в социальной сети - степень центральности и близость к «центру» или к «периферии» - фактически не связана с реальным поведением пользователя. Получается, что активным может быть как человек, активно вовлеченный в протестное сообщество и общающийся с другими активистами, так и довольно «изолированный». Эти выводы подтверждают теорию о том, что протесты, организованные через социальные сети, оказываются более «горизонтальными» по структуре. Эта работа ставит вопросы о коллективном действии, о разных типах поведения в онлайн и оффлайн-пространстве и показывает, насколько социальный мир - комплесная система. Вот такой случай успешного совмещения теории и методов. Такие примеры показывают, что совместить AS и CSS реально.

вторник, 23 января 2018 г.

Гороскопы, большие данные, школьники ВКонтакте: интервью с Иваном Смирновым



Мы поговорили с Иваном Смирновым о том, почему одни школьники ВКонтакте интересуются гороскопами, а другие - стихами, как приходят идеи для новых исследований, и почему о мире можно узнать всё из журнала The Economist.

Иван - руководитель группы в Институте Образования ВШЭ, которая занимается применением методов data science к исследованиям образования.

                                   
Ты учился на математика, а потом на биолога, и сейчас занимаешься социальными исследованиями: образованием и взаимоотношениями школьников в онлайне-сети ВКонтакте. Расскажи, почему ты решил перейти в другую область, и насколько тяжело это было?

Биологию я изучал в Центре Междисциплинарных Исследований в Париже. В центре была очень необычная атмосфера по сравнению с тем, к чему я привык в России. Вместо иерархической и негибкой системы российских университетов здесь ученые с мировым именем общались со студентами на равных, обучение строилось вокруг исследовательских проектов, а вместо экзамена могла быть командная защита проекта. При этом студенты могли сами формировать программу своего обучения, объединяться в клубы, приглашать лекторов и т.п. Все это меня вдохновило на исследования образования, и я решил, что хочу делать что-то подобное в России.  Я решил, что сначала нужно в этом разобраться, поэтому поступил в аспирантуру по образованию.

Переход был легким. Мне кажется, сложно бывает, если человек насильно попадает в другую среду и должен отказываться от всего, к чему привык. А я пришел в новую область, потому что мне это было интересно, и я хотел этим заниматься. Думаю, легко было еще и потому, что это был не первый переход. Когда таких переходов накапливается достаточное количество, то ко всему начинаешь относиться проще. Один из моих научных руководителей Александр Сидоркин приводил такой пример: в российской традиции принято придавать большое значение разделению объекта и предмета исследования, на эту тему могут даже вестись ожесточенные споры. Но в английском языке и то, и другое обозначается одним словом, и человеку, побывавшему в англоязычной средe поэтому проще не придавать этому значения.

Единственная трудность, наверное, заключалась в том, что иногда даже от признанных специалистов в новой области доводилось слышать вещи, которые, как я знал благодаря предыдущей квалификации, очевидно ложны. При этом все в аудитории, вроде бы, согласны. В такие моменты чувствуешь себя участником эксперимента Аша на конформизм и начинаешь сомневаться в собственной адекватности. Помогало то, что потом попадались источники, подтверждающие мои мысли, и я чувствовал, что я не совсем один. Вот это чувство одиночества мне кажется важной проблемой. Поэтому у меня есть такое правило, что если кто-то в обсуждении уже высказал примерно то же самое, что ты, то не стоит это лишний раз повторять, но вот если замечаешь, что все вокруг говорят одно, а ты думаешь другое, то важно это высказать, потому что может быть в аудитории сидит кто-то и начинает зря сомневаться в самой себе.

Дружеские связи между школьниками ВКонтакте в Санкт-Петербурге. Узлы - школы, связи - дружба в сети ВКонтакте между учениками школ. Источник: визуализация И. Смирнова.

Твоя недавняя статья о том, что со временем школьники пишут все более сложными фразами ВКонтакте, и интернет не ухудшил их грамотность, как многие думают. Такая идея, казалось бы, могла вполне возникнуть при разговоре с нашими родителями, которые сетуют на то, что молодежь стала меньше читать книжек и стала более неграмотной, чем раньше. А как к тебе приходят идеи о новых исследованиях? Ты много читаешь о том, что делают другие исследователи, или идеи приходят и при обычных разговорах с близкими?

Я думаю, если бы меня попросили сесть и придумать что-то, то это бы у меня не получилось, даже несмотря на то, что под рукой был бы интернет с практически безграничной информацией. Идеи обычно рождаются как-то по-другому. Вначале ты чем-то заинтересуешься, и мысль поселяется у тебя в голове. После этого ты живешь обычной жизнью, но иногда попадается какая-то статья, на которую ты в иной ситуации не обратил бы внимания, но, так как у тебя в голове где-то на заднем плане есть эта мысль, то замечаешь, что статья может быть с ней связана, мысль как-то обогащается и остается в твоей голове, пока в какой-то момент не превратится в удачную идею. Поэтому мне кажется важным не только количество входящей информации, статей или случайных разговоров, которые спровоцируют рождение идеи, но и постоянное нахождение в голове большого количества разных мыслей.

У тебя есть свой блог на Медиуме, где ты пишешь о том, что в интернете до сих пор существует социальное неравенство. Например, успевающие ученики интересуются лучшими стихами великих поэтов и интересными фактами, а менее успевающиегороскопами. Насколько было сложно объяснять такие, казалось бы, анекдотичные результаты коллегам, которые привыкли работать с более традиционными данными, а не с данными из социальных сетей?

Это не совсем блог, скорее, эксперимент, в котором я хотел в серии популярных заметок рассказать о результатах своей диссертации. Хорошо известно, что текст диссертации часто никто кроме автора не читает полностью. Даже научный руководитель. По-моему, это нелепо.

Что касается вопроса, то проблема у меня, скорее, в обратном. Анекдотические истории и разные красивые картинки отлично воспринимаются публикой, а когда я пытаюсь говорить о деталях, то все машут рукой: ну да, ну да, какие-то технические подробности, мы верим, что ты все сделал правильно. Вот это не очень хорошо. Люди любят обсуждать и интерпретировать результаты, и недостаточно сомневаются в их достоверности. При этом чем сложнее методы, тем охотнее люди им верят. Часто ссылаются на какую-нибудь продвинутую статистическую модель, которая благодаря своей сложности должна разрешить все вопросы. Чем сложнее модель, тем охотнее ей верят люди, хотя должно быть наоборот. Любое усложнение модели требует дополнительных предположений, часто эти предположения не проверяются, а иногда даже заведомо ложны.

Ты сейчас руководишь новой лабораторией в Высшей школе экономики, которая занимается онлайн-поведением школьников. Расскажи подробнее, чем вы планируете заниматься.

Наши исследования можно отнести к двум темам: “Неравенство в цифровом веке” и “Благополучие учащихся в цифровом веке”. Неравенство — классическая тема для социальных исследований, однако развитие технологий ставит новые вопросы. Например, многие надеялись, что распространение интернета приведет к уменьшению неравенства, так как он предоставляет всем равный доступ к практически ко всему человеческому знанию. Но в реальности, похоже, происходит обратное. Развитие технологий не только ставит новые вопросы, но и позволяет нам собирать гораздо большее количество данных с гораздо большим разрешением. Мы можем не только констатировать сам факта неравенства, но и изучать его в динамике, отслеживать детальную эволюцию. Это в свою очередь может помочь найти способы борьбы с ним.

Вторая тема, о благополучии учащихся, мне кажется, важна потому, что результаты образовательной системы обычно оцениваются через образовательные достижения, то есть, через оценки учащихся. Но благополучие учеников не сводится только к их академической успеваемости. Интересно понять, а как они себя чувствуют, какой у них уровень тревожности, достаточно ли они спят, нет ли у них проблем в социальной жизни. Здесь технологии снова играют двойную роль. С одной стороны, они могут влиять на все эти процессы, а с другой, впервые позволяют нам их детально изучать за счет данных из социальных сетей, мобильных устройств и подобных источников.


Связи лайков Вконтакте между учащимися Высшей Школы Экономики, которая имеет кампусы в Санкт-Петербурге, Перми и Нижнем Новгороде. Узлы - студенты, связи - дружеские связи между ними ВКонтакте. Фиолетовые узлы - первокурсники, красные - второкурсники, зеленые - третьекурсники, бирюзовые - четверокурсники. Источник: визуализация И. Смирнова.

Какие темы сейчас популярны в твоей области? Чем многие занимаются?

Сейчас в социальных исследованиях набирает популярность использование последних достижений в области машинного обучения, таких, например, как глубинное обучение. В недавно опубликованной статье авторы обучили алгоритм предсказывать по фотографиям из Google Street View демографические характеристики района. Подобные работы позволяют получить точные оценки характеристик, которые было бы невозможно собрать в больших масштабах. Например, научившись предсказывать уровень депрессии по твиттам, можно затем построить детальную карту депрессии целой страны, а затем выявить факторы, которые с ней связаны, и получить новое знание.

В другой работе исследовалось гендерное неравенство на популярном сайте для дизайнеров. Авторы обнаружили, что работы мужчин получают в среднем больше лайков. Тогда они обучили нейронную сеть предсказывать пол автора по картинке. Им удалось добиться достаточно высокой точности. После этого они добавили предсказанный моделью пол в свою модель и выяснили, что именно он, а не фактический пол определяет большее количество лайков. То есть пользователи предпочитают не мужчин-авторов, а определенный тип картинок, и этот тип картинок гораздо чаще рисуют мужчины.

Еще могу порекомендовать книжки:

Какие программы ты используешь для анализа своих данных? За кого ты в противостоянии R и Python?

Когда я впервые решил посмотреть на данные ВКонтакте, то написал скрипт на PHP, а для визуализации использовал одну из библиотек JavaScript. Я долгое время работал веб-разработчиком, и это были наиболее комфортные для меня языки программирования. Потом мне потребовалась статистика и я вначале считал в MATLAB, а потом, когда не нашел необходимой мне функции, установил R. Нетрудно догадаться, что использование большого количества технологий не очень эффективно. Так что я решил перейти Python и теперь весь процесс от сбора данных до финальных графиков у меня в одной среде, это очень удобно. Хотя я занимаюсь программированием больше десяти лет, а на Python перешел только недавно, я уже не могу себе представить свою жизнь без него. Это язык с минимальным порогом вхождения и большой выразительностью. Ну, и это де-факто стандарт в data science.

Мы знаем, что ты читаешь все номера журнала The Economist. Расскажи, что еще ты читаешь, слушаешь или смотришь, чтобы быть в курсе того, что происходит в научном мире?

Иногда я думаю о том, что если бы мне нужно было выбрать между тем, чтобы отказаться от The Economist или отказаться от всех остальных источников информации, то я выбрал бы последнее. Это может показаться странным, но я воспринимаю это как обычное разделение труда. Если кто-нибудь хочет купить себе автомобиль, он не пытается собрать его сам, а вместо этого доверяет автомобилю, сделанному компанией-специалистом. Точно так же я доверяю сбор и анализ информации о мире лучшей в этой области компании. Для того чтобы следить за тем, что происходит в области data science, я подписан на еженедельную рассылку Data Science Community Newsletter.

Что касается научного мира, то тут у меня другая стратегия. Здесь я слежу за теми людьми, которые мне кажутся интересными. Почти у всех западных ученых есть активный Твиттер, так что я подписываюсь на него. И в дополнение подписываюсь в Google Scholar на уведомления о новых статьях интересных мне авторов. И стараюсь посещать лучшие конференции в той области, которой занимаюсь. Это мне кажется обязательным. Если посетить ведущую конференцию в интересующей области, то можно сразу составить хорошее представление о том, что в ней происходит. Такую же картину сложно получить удаленно, так как статей публикуется слишком много. В этом смысле конференция служит эффективным агрегатором, таким же как The Economist, или Data Science Community Newsletter.

Как проходит твой обычный день? Как ты занимаешься исследованиями, что делаешь в течение дня?
У меня есть три режима: писать, считать и думать. Писать я могу только в первой половине дня, хотя я и сова. И только после чашки кофе. Обычно мне сложно сконцентрироваться на написании текстов, поэтому я выделяю себе на это побольше дней, так чтобы за один раз можно было написать не так много. Считать я, наоборот, могу очень долго и, когда пишу какой-то код, легко могу засидеться на работе до десяти вечера или дома глубоко за полночь. А думаю я, когда куда-нибудь иду. На работе для этого приходится ходить туда-обратно по коридору :)



***
Что еще можно почитать на связанные темы:
Еще один гостевой пост в нашем блоге от Егора Лавренчука. О том, как математик Эйлер однажды задумался о загадке семи мостов Кенигсберга: "можно ли пройти каждый мост по одному разу и вернуться в исходное место?", и как это вылилось затем в изучение графов, сетей, интернета, и запутанных отношений между людьми -- во все то, чем мы занимаемся сейчас.
* Иван советует рассылки, на которые он подписан и за которыми регулярно следит. Мы ранее делали подборку рассылок, которые спецализируются на анализе социальных сетей.
* Краткую версию статьи Ивана о том, что со временем пользователи ВКонтакое становятся грамотнее, можно почитать на MIT Technology Review.