Показаны сообщения с ярлыком Вконтакте. Показать все сообщения
Показаны сообщения с ярлыком Вконтакте. Показать все сообщения

четверг, 1 марта 2018 г.

Итоги месяца: февраль

  • Вышла статья в Scientific Reports о становлении, развитии и старении онлайн-групп. Нечасто в зарубежных изданиях используются данные из нашей родной онлайн-сети Вконтакте.
  • Мы дали небольшое интервью для Дайджеста клуба любителей интернета и общества. Рассказали о том, какие темы нынче самые модные в исследованиях социальных сетей и интернета.
  • В Nature Communications вышла статья о том, как эпидемии могут быть связаны с сетями аэроперелетов. Исследователи показывают, что, используя данные о авиаперевозках, можно с очень высокой точностью предсказать распространение болезней. Демонстрируют свою методику авторы на примере эпидемий гриппа и Эболы.
  • Вышла статья о политической сегрегации в Твиттере. Как обычно в подобных статьях, было показано, что интеракция в Твиттере разделена и по политическим интересам. Группы на разных осях политических предпочтений практически не взаимодействуют друг с другом.
  • В Social Networks вышла статья о том, что на сети лучше всего смотреть и наслаждаться, чем читать о них. Исследователи сравнили, как люди оценивают и понимают разные способы представления сетей: с использованием матриц, таблиц, текста и визуализации связей и узлов.
  • PNAS опубликовал исследование о том, как мечты о будущем и умение строить планы связаны с поведением в Твиттере. Это одно из серии исследований, показывающих, как анализ больших онлайн-данных может предсказывать поведение человека и описывать его психологические особенности.
  • В American Behavioral Scientist вышло исследование о том, как в онлайн социальных сетях изображаются беженцы из Сирии. Ученые проанализировали сотни изображений в Инстаграмм и Пинтерест и показали различия между ними. Основное отличие заключается в том, что в Пинтересте можно намного чаще увидеть тексты о безопасности и заботе, а также больше уникальных фотографий, касающихся этой темы.
О курсах, конференциях, событиях:
  • До 5 апреля принимаются заявки на конференцию по анализу изображений, сетей и текстов "АИСТ".
  • 15 апреля заканчивается прием заявок на конференцию "Advances in Social Network Analysis and Mining".
  • До 19 апреля можно подать на летний курс Оксфордского Института Интернета. 

вторник, 23 января 2018 г.

Гороскопы, большие данные, школьники ВКонтакте: интервью с Иваном Смирновым



Мы поговорили с Иваном Смирновым о том, почему одни школьники ВКонтакте интересуются гороскопами, а другие - стихами, как приходят идеи для новых исследований, и почему о мире можно узнать всё из журнала The Economist.

Иван - руководитель группы в Институте Образования ВШЭ, которая занимается применением методов data science к исследованиям образования.

                                   
Ты учился на математика, а потом на биолога, и сейчас занимаешься социальными исследованиями: образованием и взаимоотношениями школьников в онлайне-сети ВКонтакте. Расскажи, почему ты решил перейти в другую область, и насколько тяжело это было?

Биологию я изучал в Центре Междисциплинарных Исследований в Париже. В центре была очень необычная атмосфера по сравнению с тем, к чему я привык в России. Вместо иерархической и негибкой системы российских университетов здесь ученые с мировым именем общались со студентами на равных, обучение строилось вокруг исследовательских проектов, а вместо экзамена могла быть командная защита проекта. При этом студенты могли сами формировать программу своего обучения, объединяться в клубы, приглашать лекторов и т.п. Все это меня вдохновило на исследования образования, и я решил, что хочу делать что-то подобное в России.  Я решил, что сначала нужно в этом разобраться, поэтому поступил в аспирантуру по образованию.

Переход был легким. Мне кажется, сложно бывает, если человек насильно попадает в другую среду и должен отказываться от всего, к чему привык. А я пришел в новую область, потому что мне это было интересно, и я хотел этим заниматься. Думаю, легко было еще и потому, что это был не первый переход. Когда таких переходов накапливается достаточное количество, то ко всему начинаешь относиться проще. Один из моих научных руководителей Александр Сидоркин приводил такой пример: в российской традиции принято придавать большое значение разделению объекта и предмета исследования, на эту тему могут даже вестись ожесточенные споры. Но в английском языке и то, и другое обозначается одним словом, и человеку, побывавшему в англоязычной средe поэтому проще не придавать этому значения.

Единственная трудность, наверное, заключалась в том, что иногда даже от признанных специалистов в новой области доводилось слышать вещи, которые, как я знал благодаря предыдущей квалификации, очевидно ложны. При этом все в аудитории, вроде бы, согласны. В такие моменты чувствуешь себя участником эксперимента Аша на конформизм и начинаешь сомневаться в собственной адекватности. Помогало то, что потом попадались источники, подтверждающие мои мысли, и я чувствовал, что я не совсем один. Вот это чувство одиночества мне кажется важной проблемой. Поэтому у меня есть такое правило, что если кто-то в обсуждении уже высказал примерно то же самое, что ты, то не стоит это лишний раз повторять, но вот если замечаешь, что все вокруг говорят одно, а ты думаешь другое, то важно это высказать, потому что может быть в аудитории сидит кто-то и начинает зря сомневаться в самой себе.

Дружеские связи между школьниками ВКонтакте в Санкт-Петербурге. Узлы - школы, связи - дружба в сети ВКонтакте между учениками школ. Источник: визуализация И. Смирнова.

Твоя недавняя статья о том, что со временем школьники пишут все более сложными фразами ВКонтакте, и интернет не ухудшил их грамотность, как многие думают. Такая идея, казалось бы, могла вполне возникнуть при разговоре с нашими родителями, которые сетуют на то, что молодежь стала меньше читать книжек и стала более неграмотной, чем раньше. А как к тебе приходят идеи о новых исследованиях? Ты много читаешь о том, что делают другие исследователи, или идеи приходят и при обычных разговорах с близкими?

Я думаю, если бы меня попросили сесть и придумать что-то, то это бы у меня не получилось, даже несмотря на то, что под рукой был бы интернет с практически безграничной информацией. Идеи обычно рождаются как-то по-другому. Вначале ты чем-то заинтересуешься, и мысль поселяется у тебя в голове. После этого ты живешь обычной жизнью, но иногда попадается какая-то статья, на которую ты в иной ситуации не обратил бы внимания, но, так как у тебя в голове где-то на заднем плане есть эта мысль, то замечаешь, что статья может быть с ней связана, мысль как-то обогащается и остается в твоей голове, пока в какой-то момент не превратится в удачную идею. Поэтому мне кажется важным не только количество входящей информации, статей или случайных разговоров, которые спровоцируют рождение идеи, но и постоянное нахождение в голове большого количества разных мыслей.

У тебя есть свой блог на Медиуме, где ты пишешь о том, что в интернете до сих пор существует социальное неравенство. Например, успевающие ученики интересуются лучшими стихами великих поэтов и интересными фактами, а менее успевающиегороскопами. Насколько было сложно объяснять такие, казалось бы, анекдотичные результаты коллегам, которые привыкли работать с более традиционными данными, а не с данными из социальных сетей?

Это не совсем блог, скорее, эксперимент, в котором я хотел в серии популярных заметок рассказать о результатах своей диссертации. Хорошо известно, что текст диссертации часто никто кроме автора не читает полностью. Даже научный руководитель. По-моему, это нелепо.

Что касается вопроса, то проблема у меня, скорее, в обратном. Анекдотические истории и разные красивые картинки отлично воспринимаются публикой, а когда я пытаюсь говорить о деталях, то все машут рукой: ну да, ну да, какие-то технические подробности, мы верим, что ты все сделал правильно. Вот это не очень хорошо. Люди любят обсуждать и интерпретировать результаты, и недостаточно сомневаются в их достоверности. При этом чем сложнее методы, тем охотнее люди им верят. Часто ссылаются на какую-нибудь продвинутую статистическую модель, которая благодаря своей сложности должна разрешить все вопросы. Чем сложнее модель, тем охотнее ей верят люди, хотя должно быть наоборот. Любое усложнение модели требует дополнительных предположений, часто эти предположения не проверяются, а иногда даже заведомо ложны.

Ты сейчас руководишь новой лабораторией в Высшей школе экономики, которая занимается онлайн-поведением школьников. Расскажи подробнее, чем вы планируете заниматься.

Наши исследования можно отнести к двум темам: “Неравенство в цифровом веке” и “Благополучие учащихся в цифровом веке”. Неравенство — классическая тема для социальных исследований, однако развитие технологий ставит новые вопросы. Например, многие надеялись, что распространение интернета приведет к уменьшению неравенства, так как он предоставляет всем равный доступ к практически ко всему человеческому знанию. Но в реальности, похоже, происходит обратное. Развитие технологий не только ставит новые вопросы, но и позволяет нам собирать гораздо большее количество данных с гораздо большим разрешением. Мы можем не только констатировать сам факта неравенства, но и изучать его в динамике, отслеживать детальную эволюцию. Это в свою очередь может помочь найти способы борьбы с ним.

Вторая тема, о благополучии учащихся, мне кажется, важна потому, что результаты образовательной системы обычно оцениваются через образовательные достижения, то есть, через оценки учащихся. Но благополучие учеников не сводится только к их академической успеваемости. Интересно понять, а как они себя чувствуют, какой у них уровень тревожности, достаточно ли они спят, нет ли у них проблем в социальной жизни. Здесь технологии снова играют двойную роль. С одной стороны, они могут влиять на все эти процессы, а с другой, впервые позволяют нам их детально изучать за счет данных из социальных сетей, мобильных устройств и подобных источников.


Связи лайков Вконтакте между учащимися Высшей Школы Экономики, которая имеет кампусы в Санкт-Петербурге, Перми и Нижнем Новгороде. Узлы - студенты, связи - дружеские связи между ними ВКонтакте. Фиолетовые узлы - первокурсники, красные - второкурсники, зеленые - третьекурсники, бирюзовые - четверокурсники. Источник: визуализация И. Смирнова.

Какие темы сейчас популярны в твоей области? Чем многие занимаются?

Сейчас в социальных исследованиях набирает популярность использование последних достижений в области машинного обучения, таких, например, как глубинное обучение. В недавно опубликованной статье авторы обучили алгоритм предсказывать по фотографиям из Google Street View демографические характеристики района. Подобные работы позволяют получить точные оценки характеристик, которые было бы невозможно собрать в больших масштабах. Например, научившись предсказывать уровень депрессии по твиттам, можно затем построить детальную карту депрессии целой страны, а затем выявить факторы, которые с ней связаны, и получить новое знание.

В другой работе исследовалось гендерное неравенство на популярном сайте для дизайнеров. Авторы обнаружили, что работы мужчин получают в среднем больше лайков. Тогда они обучили нейронную сеть предсказывать пол автора по картинке. Им удалось добиться достаточно высокой точности. После этого они добавили предсказанный моделью пол в свою модель и выяснили, что именно он, а не фактический пол определяет большее количество лайков. То есть пользователи предпочитают не мужчин-авторов, а определенный тип картинок, и этот тип картинок гораздо чаще рисуют мужчины.

Еще могу порекомендовать книжки:

Какие программы ты используешь для анализа своих данных? За кого ты в противостоянии R и Python?

Когда я впервые решил посмотреть на данные ВКонтакте, то написал скрипт на PHP, а для визуализации использовал одну из библиотек JavaScript. Я долгое время работал веб-разработчиком, и это были наиболее комфортные для меня языки программирования. Потом мне потребовалась статистика и я вначале считал в MATLAB, а потом, когда не нашел необходимой мне функции, установил R. Нетрудно догадаться, что использование большого количества технологий не очень эффективно. Так что я решил перейти Python и теперь весь процесс от сбора данных до финальных графиков у меня в одной среде, это очень удобно. Хотя я занимаюсь программированием больше десяти лет, а на Python перешел только недавно, я уже не могу себе представить свою жизнь без него. Это язык с минимальным порогом вхождения и большой выразительностью. Ну, и это де-факто стандарт в data science.

Мы знаем, что ты читаешь все номера журнала The Economist. Расскажи, что еще ты читаешь, слушаешь или смотришь, чтобы быть в курсе того, что происходит в научном мире?

Иногда я думаю о том, что если бы мне нужно было выбрать между тем, чтобы отказаться от The Economist или отказаться от всех остальных источников информации, то я выбрал бы последнее. Это может показаться странным, но я воспринимаю это как обычное разделение труда. Если кто-нибудь хочет купить себе автомобиль, он не пытается собрать его сам, а вместо этого доверяет автомобилю, сделанному компанией-специалистом. Точно так же я доверяю сбор и анализ информации о мире лучшей в этой области компании. Для того чтобы следить за тем, что происходит в области data science, я подписан на еженедельную рассылку Data Science Community Newsletter.

Что касается научного мира, то тут у меня другая стратегия. Здесь я слежу за теми людьми, которые мне кажутся интересными. Почти у всех западных ученых есть активный Твиттер, так что я подписываюсь на него. И в дополнение подписываюсь в Google Scholar на уведомления о новых статьях интересных мне авторов. И стараюсь посещать лучшие конференции в той области, которой занимаюсь. Это мне кажется обязательным. Если посетить ведущую конференцию в интересующей области, то можно сразу составить хорошее представление о том, что в ней происходит. Такую же картину сложно получить удаленно, так как статей публикуется слишком много. В этом смысле конференция служит эффективным агрегатором, таким же как The Economist, или Data Science Community Newsletter.

Как проходит твой обычный день? Как ты занимаешься исследованиями, что делаешь в течение дня?
У меня есть три режима: писать, считать и думать. Писать я могу только в первой половине дня, хотя я и сова. И только после чашки кофе. Обычно мне сложно сконцентрироваться на написании текстов, поэтому я выделяю себе на это побольше дней, так чтобы за один раз можно было написать не так много. Считать я, наоборот, могу очень долго и, когда пишу какой-то код, легко могу засидеться на работе до десяти вечера или дома глубоко за полночь. А думаю я, когда куда-нибудь иду. На работе для этого приходится ходить туда-обратно по коридору :)



***
Что еще можно почитать на связанные темы:
Еще один гостевой пост в нашем блоге от Егора Лавренчука. О том, как математик Эйлер однажды задумался о загадке семи мостов Кенигсберга: "можно ли пройти каждый мост по одному разу и вернуться в исходное место?", и как это вылилось затем в изучение графов, сетей, интернета, и запутанных отношений между людьми -- во все то, чем мы занимаемся сейчас.
* Иван советует рассылки, на которые он подписан и за которыми регулярно следит. Мы ранее делали подборку рассылок, которые спецализируются на анализе социальных сетей.
* Краткую версию статьи Ивана о том, что со временем пользователи ВКонтакое становятся грамотнее, можно почитать на MIT Technology Review.

четверг, 3 августа 2017 г.

"Вне контакта". Вспомним, что мы могли изучать, когда данные "ВК" были открытыми.



31 июля газета «Известия» написала о том, что Роскомнадзор (РКН) запретил сторонним компаниям собирать открытую персональную информацию пользователей «ВКонтакте». Это ставит под вопрос проведение многих онлайн-исследований, так как «ВК» предоставлял возможность свободного доступа к открытым данным, чем активно пользовались и мы, и наши коллеги. В этом посте мы решили вспомнить некоторые работы, которые были сделаны на данных из «ВК».

Протесты
Динисса Дуванова с соавторами проанализировали структуру политических обсуждений в «ВК» в регионах Украины. Ученые показали, что пользователи предпочитают взаимодействовать с теми, кто разделяет их политические взгляды. Получается, что хотя онлайн-сети и имеют все шансы стать полноценной площадкой для политических дискуссий, эти возможности на практике не реализуются.
Мария Петрова и Рубен Ениколопов с коллегами также провели несколько исследований о взаимосвязи социальных сетей и протестов. Они показали, что чем выше уровень проникновения «ВК» в регионе, тем выше вероятность протеста и число участников протеста (подробнее читайте здесь). Исследователи также предположили, что участие в онлайн-группе существенно повышает вероятность участия в реальном протесте (все исследование здесь).

Здоровье
Петр Мейлахс, Юрий Рыков, Олеся Кольцова изучили группы посвященные СПИДу в «ВК» и выяснили, что группы, посвященные разным задачам имеют разную сетевую структуру дружбы и коммуникаций. Например, в группах, которые посвящены знакомству ВИЧ-положительных пользователей, преобладают связи между разнополыми пользователями. Особо подробно изучены группы «СПИД-диссидентов» - тех людей, которые отрицают факт наличия СПИДа. Авторы приходят к выводу, что в группах происходит формирование «эхокамеры», то есть в группе постоянно циркулируют одни и те же идеи, а альтернативные точки зрения не рассматриваются. Об исследовании можно прочитать здесь и здесь.

Образование 
        Иван Смирнов изучил тексты пользователей «ВК» за девять лет и пришел к выводу, что с возрастом пользователи «ВК» начинают употреблять более длинные слова (исследование можно прочитать здесь). Полученные результаты автор сопоставляет с «эффектом Флинна», по которому IQ населения в целом растет с течением времени.



        Иван также анализирует связи студентов и школьников в «ВК». В одном из своих исследований он показал, что и студенты, и школьники склонны формировать онлайн-связи (в данном случае в качестве связей были «лайки» в «ВК») с людьми со схожими академическими достижениями. Казалось бы, онлайн должен был бы способствовать общению всех со всеми, но, видимо, сегрегация настолько присуща человеческой природе, что студенты даже лайкают тех, кто также учится.

Мы тоже изучали социальные связи студентов «ВК» (статьи можно почитать тут и тут). Мы ставили перед собой задачу понять, каким образом студенты формируют друг с другом связи на самых начальных этапах обучения в университете, в течение первых же недель, и что с ними происходит после. Оказалось, что на первых порах студенты стремятся сформировать связи хоть с кем-то из курса или потока, а со временем формирование связей начинает происходить уже более выборочно. Например, студенты больше и активнее добавляют своих одногруппников и тех людей, с кем у них есть общие интересы.
Закрытие доступа к данным «ВК» говорит о необходимости поиска новых источников данных. «Фейсбук» довольно давно жестко регулирует доступ к персональным данным пользователей, поэтому скачать что-то оттуда вряд ли получится. А вот данные из Твиттера все ещё открыты и доступны для анализа (про анализ мемов в Твиттере можно почитать здесь).