Показаны сообщения с ярлыком Twitter. Показать все сообщения
Показаны сообщения с ярлыком Twitter. Показать все сообщения

четверг, 1 марта 2018 г.

Итоги месяца: февраль

  • Вышла статья в Scientific Reports о становлении, развитии и старении онлайн-групп. Нечасто в зарубежных изданиях используются данные из нашей родной онлайн-сети Вконтакте.
  • Мы дали небольшое интервью для Дайджеста клуба любителей интернета и общества. Рассказали о том, какие темы нынче самые модные в исследованиях социальных сетей и интернета.
  • В Nature Communications вышла статья о том, как эпидемии могут быть связаны с сетями аэроперелетов. Исследователи показывают, что, используя данные о авиаперевозках, можно с очень высокой точностью предсказать распространение болезней. Демонстрируют свою методику авторы на примере эпидемий гриппа и Эболы.
  • Вышла статья о политической сегрегации в Твиттере. Как обычно в подобных статьях, было показано, что интеракция в Твиттере разделена и по политическим интересам. Группы на разных осях политических предпочтений практически не взаимодействуют друг с другом.
  • В Social Networks вышла статья о том, что на сети лучше всего смотреть и наслаждаться, чем читать о них. Исследователи сравнили, как люди оценивают и понимают разные способы представления сетей: с использованием матриц, таблиц, текста и визуализации связей и узлов.
  • PNAS опубликовал исследование о том, как мечты о будущем и умение строить планы связаны с поведением в Твиттере. Это одно из серии исследований, показывающих, как анализ больших онлайн-данных может предсказывать поведение человека и описывать его психологические особенности.
  • В American Behavioral Scientist вышло исследование о том, как в онлайн социальных сетях изображаются беженцы из Сирии. Ученые проанализировали сотни изображений в Инстаграмм и Пинтерест и показали различия между ними. Основное отличие заключается в том, что в Пинтересте можно намного чаще увидеть тексты о безопасности и заботе, а также больше уникальных фотографий, касающихся этой темы.
О курсах, конференциях, событиях:
  • До 5 апреля принимаются заявки на конференцию по анализу изображений, сетей и текстов "АИСТ".
  • 15 апреля заканчивается прием заявок на конференцию "Advances in Social Network Analysis and Mining".
  • До 19 апреля можно подать на летний курс Оксфордского Института Интернета. 

вторник, 7 июня 2016 г.

Пробуем новый инструмент для анализа мемов на примере #денегнетновыдержитесь

Распространение мемов — одна из популярных тем в исследованиях онлайн-сетей и интернета. Не так давно вышел новый инструмент OSoMe (Observatory on Social Media), который позволяет каждому анализировать мемы и интернет-тренды в Твиттере. В этом посте протестируем его работу на примере недавнего мема "Денег нет, но вы держитесь".

Источник изображения

OSoMe: Observatory on Social Media
О выпуске нового инструмента для анализа онлайн-трендов и мемов было объявлено в прошлом месяце. Разработчики назвали его восхитительно  OSoMe, и говорят, что читать нужно именно как "awesome". OSoMe сделан на базе Network Science Institute университета Индианы, однако в его создании принимали участие ученые из разных университетов и компаний.
Авторы заявляют, что доступные ранее только специалистам в данные и возможности теперь открыты каждому бесплатно: журналистам, исследователям, каждому, кто хочет сделать свое маленькое исследование. У OSoMe очень простой интерактивный дизайн, который чем-то напоминает Gephi — программу для визуализации сетей.

Интерфейс OSoMe

OSoMe позволяет оценить общие тренды появления и исчезновения хэштегов; посмотреть на графы их совместной встречаемости, ретвитов и упоминаний; узнать, где чаще всего используется определенный хэштег; разобраться, с какой вероятностью аккаунт окажется ботом.
Сейчас известно, что OSoMe предлагает аналитику на основе 70 млрд публичных твитов в Твиттере, начиная с 2010 года и по сегодняшний день. 

Тренды по частоте употреблений хэштега
Вкладка "Trends" позволяет изучать тенденции употребления нескольких хэштегов одновременно, поэтому мы решили посмотреть на совместную динамику хэштегов #денегнетновыдержитесь и #медведев, начиная с 20 мая. Мем "Денег нет, но вы держитесь" возник только после 23 мая, поэтому до этого времени его на графике нет. Любопытно, что вместе с появлением этого хэштега также возрастает употребление и хэштега #медведев. Далее посмотрим на совместную употребляемость этих хэштегов, что нам также предлагает OSoMe.

Частота употреблений хэштегов "денегнетновыдержитесь" и "медведев" с 20 мая по 5 июня 2016

Совместное употребление хэштегов
Введя название интересующего хэштега, мы можем получить граф совместной встречаемости этого хэштега с другими. Нажав на связь между двумя хэштегами, можем дополнительно увидеть пользователя и его твит. На рисунке приведена часть графа, где мы видим, что #денегнетновыдержитесь употребляется с #медведев (что мы уже видели из трендов), #денегнету, #россия и другими.

Граф совместной встречаемости хэштега #денегнетновыдержитесь  с другими.

Графы пользователей
OSoME также предлагает нарисовать граф упоминаний и ретвитов заданного хэштега пользователями. В нашем графе упоминаний самыми популярными оказались пользователи IgorZ_ua и KKKushkin, которые, видимо, и были основоположниками мема.

Граф упоминаний пользователей, использующих #денегнетновыдержитесь

Видео 
Разработчики OSoMe также предлагают посмотреть на общие тенденции в видео-формате. Мы запросили сгенерировать видео о совместной встречаемости #денегнетновыдержитесь с другими хэштегами. OSoMe отправляет на почту ссылку на видео, однако оно достаточно низкого качества и едва ли из него можно почерпнуть что-то существенное, кроме как посмотреть на летающие графы.


Дополнительные опции
Помимо этого, OSoMe также предлагает оценить, насколько тот или иной Твиттер-аккаунт является ботом. Дополнительно производится анализ текстов этого пользователя, приложение может сказать, насколько текст твитов эмоционально положительный или отрицательный, построить различные графы и предоставить другую статистику по пользователю. Например, Наш Твиттер-аккаунт OSoMe оценил как что-то среднее между ботом и человеком.

Опция OSoMe -- бот или не бот?

вторник, 19 апреля 2016 г.

7 известных баз данных про социальные сети

Сетевые базы данных можно достаточно просто выстроить на основе известных фильмов, книг, исторических событий и даже на основе своих собственных дружеских связей. Это просто и увлекательно, а также намного интереснее изучать, как связаны люди, если мы этих людей знаем. Например, когда появился последний эпизод Звездных войн этой зимой, научные блоггеры тут же проанализировали сети в этом фильме. Например, в этом посте и в этом посте Эвелина Габасова показывает, как связаны друг с другом герои на протяжении всего фильма, выкладывая свой код в открытый доступ.
Помимо того, что работать с известными данными намного любопытнее, часто приходится учиться новому, а это также приятно делать на уже много раз изученных данных. В этом посте мы сделали подборку из наиболее часто используемых баз данных, с которых  просто начинать изучение сетевого анализа и на них просто демонстрировать его базовые идеи.

Сеть флорентийских семей
(Florentine Families Network)
Пожалуй, это самая известная база данных, без которой не обходится ни один базовый учебник по сетевому анализу. Данные представляют собой 16 известных флорентийских семей XV века и брачные и деловые связи между ними, собранные из исторических источников. Брачная связь определялась как присутствующая, если члены одной семьи состояли были женаты или замужем за членами другой семьи. Деловая связь определялась как присутствующая, если члены одной семьи давали кредиты, займы или были в деловых партнерствах с членами другой семьи. Дополнительно есть данные о властности семьи: богатство семьи, количество мест в городском совете, общее количество деловых и брачных связей.


Сеть брачных связей флорентийских семей XV века. На рисунке проиллюстрированы различные меры сетевых центральностей. Источник изображения.

Эта база данных, как правило, используется при изучении центральностей. Из истории мы знаем, что самыми влиятельными были семьи Медичи и Строцци, но в ходе анализа мы узнаем, что ключевые акторы в сети — не всегда те, о которых мы думаем изначально.
Базу данных можно скачать отсюдаПочитать подробнее: Padgett, J. F., & Ansell, C. K. (1993). Robust Action and the Rise of the Medici, 1400-1434. American Journal of Sociology, 1259-1319.

Клуб каратэ Захария
(Zachary's karate club)
Это данные о 34 членах университетского клуба каратэ и дружеских связях между ними, собранные Уэйном Захарием в 1970-х. Дополнительно, есть данные о количестве ситуаций, когда между членами клуба происходили взаимодействия в клубе и вне его.
Данные часто используются для демонстрации идеи сетевых сообществ, так как первоначально перед У. Захарием стояла цель разрешить конфликтную ситуацию. В клубе было 2 человека (преподаватель и администратор), между которыми произошел конфликт, который разделил клуб на 2 сообщества. Половина участников сформировала новый клуб вокруг преподавателя, другая половина ушла в другой клуб или вовсе бросила заниматься этим видом спорта.


Сеть клуба каратэ Захария. Администратор клуба под номерм 1, инструктор - под номером 33. Сеть разбита на 2 сетевых сообщества согласно кластеризации, предложенной в работе Weinan & Vanden-Eijnden (2008).

Сейчас есть традиция вручать статуэтку клуба Захария ученому, который на любой сетевой конференции представляет работу на основе этих данных.
Базу данных можно скачать отсюда. Почитать подробнее: Zachary, W. W. (1977). An information flow model for conflict and fission in small groups. Journal of Anthropological Research, 452-473.


Сеть поддержки в «Гарри Поттере»
(Harry Potter support network)
Эти данные основаны на известной серии детских книг о Гарри Поттере — волшебнике, который учится в магической школе. Исследователи, на основе текстов всех 7 книг, сделали сети поддержки 64 учеников в школе (например, Гермиона помогает Гарри делать домашнее задание) и собрали информацию об атрибутах (пол, год обучения и факультет).
Особенность базы данных в том, что она лонгитюдная (всего 7 волн) и ее можно использовать при изучении лонгитюдных сетевых методов. Как это делать в R, мы уже писали в одном из постов как раз на примере данных из Гарри Поттера.
Базу данных можно скачать отсюда. Почитать подробнее: Bossaert, G., & Meidert, N. (2013). “We are only as strong as we are united, as weak as we are divided” A dynamic analysis of the peer support networks in the Harry Potter booksOpen Journal of Applied Sciences. 3(2), 174-185.

Стэнфордская коллекция больших сетевых данных
(Stanford Large Network Dataset Collection)
Здесь представлены различные данные по онлайн-социальным сетям, например, по Фейсбуку, Твиттеру. Особенность этих баз данных в том, что они представляют собой большие графы, что полезно при изучении онлайн-сетей, которые, конечно, состоят из сотен и тысяч узлов, а не из пары десятков. Часть из них выложена Ю. Лесковцом, о котором мы писали в этом посте и используется на Coursera-курсе "Mining Massive Datasets". Данные можно скачать отсюда.

Южные женщины
(Southern Women)
Это база данных состоит из 18 женщин с юга Америки, которые в 1930 участвовали в 14 социальных событиях. Она часто используется как пример бимодальной сети. Напомним, что бимодальная сеть — это сеть с двумя различными уровнями, которые состоят из акторов разного рода. Например, люди и организации, женщины и клубы. В обычных же сетях (одномодальных) у нас акторы принадлежат одному роду. Например, в клубе каратэ Захария у нас есть только люди, а в сети флорентийских семей — только семьи.


Сеть женщин, посещающих события из базы данных Southern Women. Источник изображения.

Данные можно скачать отсюда или отсюда. Почитать подробнее: Davis, A., Gardner, B. B., & Gardner, M. R. (2009). Deep South: A social anthropological study of caste and class. Univ of South Carolina Press.

Сети соавторства физиков
(Condensed matter collaborations)
Это серия баз данных, собранная Марком Ньюманом с сайта препринтов Condensed Matter E-Print Archive. База данных была впервые представлена за период с 1995 по 1999, затем были ее обновления включая 2003 и 2005 гг. Эта база данных используется для изучения сетей соавторства, также на основе ее были протестированы различные алгоритмы нахождения сообществ для больших сетей.
Данные можно скачать отсюда Почитать подробнее: 1) Newman, M. (2001). The structure of scientific collaboration networks. Proc Natl Acad Sci. 98, 404-409; 2) Duch, J., & Arenas, A. (2005). Community detection in complex networks using extremal optimization. Physical review E72(2), 027104.

Сеть серферов
(Windsurfers on a beach)
Это данные о группе из 43 серферов в Калифорнии, которые, по наблюдениям исследователей, были разделены на несколько сетевых сообществ. Линтон Фриман с коллегами сначала наблюдали за взаимоотношениями серферов и кодировали их. Затем они взяли интервью, где у каждого серфера спрашивали, как он или она считают, как связаны люди в этом клубе. База данных часто используется для работы с когнитивной социальной структурой (cognitive social structure) и для работы с пропущенными данными в сетевых исследованиях.


Серферы на пляже. Источник изображения.

Данные можно скачать отсюдаПочитать подробнее: 1) Freeman, L. C., Freeman, S. C., & Michaelson, A. G. (1988). On human social intelligence. Journal of Social and Biological Structures11(4), 415-425; 2) Freeman, L. C., Freeman, S. C., & Michaelson, A. G. (1989). How humans see social groups: A test of the Sailer-Gaulin models. Journal of Quantitative Anthropology1(3), 229-238.

И это еще не все
Также большое количество открытых сетевых данных можно найти на следующих сайтах:

  • Базы данных на странице Марка Ньюмана. Здесь можно найти большинство стандартных баз данных, а также данных, специфических для программного обеспечения (для Pajek, UCINET);
  • Базы данных на странице Линтона Фримана. Один из самых полных списков стандартных данных, на которых хорошо обучаться;
  • Базы данных на странице Тома Снайдерса. Большое количество лонгитюдных данных о школьниках и их поведении;
  • Базы данных на странице Альберта-Ласло Барабаши. Небольшой список больших сетевых данных.

среда, 9 марта 2016 г.

Парадоксы социальных сетей


Мы не перестанем удивляться тому, как интересно устроены порой социальные взаимоотношения. В этом посте расскажем про парадокс дружбы и другие загадки социальных сетей.

Парадокс дружбы
Про парадокс дружбы наслышаны многие. В самой простой форме его можно сформулировать следующим образом: Мои друзья в среднем имеют больше друзей, чем я. Ключевое слово здесь, конечно, «в среднем».
Этот утверждение построено на основании того, что количество друзей в любой социальной сети распределено по степенному закону, а не нормально. Это хорошо видно на рисунке, где по оси х представлена степень узла (его количество связей), а по оси у — количество узлов с такой степенью.

Распределение степени (количества связей) в случайных графах и реальных социальных сетях. Слева мы видим нормальное распределение, справа - по степенному закону. Рисунок с сайта Network Science

Слева мы видим распределение степеней у случайного графа. Как правило, в случайных графах у большинства узлов показатель степени распределен нормально, то есть варьируется у среднего значения. В таких сетях практически нет очень популярных людей и изолированных акторов. Справа мы видим реальную социальную сеть. В ней есть малое количество людей, у которых очень много друзей. Также, есть значительная доля людей, у которых достаточно мало друзей. Как правило, большинство людей находятся в левой части распределения, а всю картину смещают как раз топовые персонажи с большим количеством связей в тяжелом правом «хвосте» этого распределения. Отсюда и получается, что если мы посчитаем количество друзей у наших друзей, в среднем, их у наших друзей окажется больше.
Парадокс дружбы впервые был озвучен в работе Скотта Фелда "Почему у твоих друзей больше друзей, чем у тебя", а затем много раз продемонстрирован на различных типах сетей. Если изначально идея касалась только степени (количество связей узла), то затем было показано, что это правило работает и на атрибутах участников сети, которые сильно скоррелированы со степенью. Например, если в определенной сети заядлые курильщики более популярны, то изучение их окружения покажет нам, что в среднем друзья этих курильщиков курят еще больше. Сегодня мы знаем, что наши друзья в Фейсбуке и Твиттере в среднем имеют намного больше друзей и фолловеров, что наши друзья в среднем более богаты и счастливы, что наши партнеры имеют намного больше сексуальных партнеров, а наших соавторов цитируют намного чаще.
Значит ли это, что можно расстраиваться и уже начинать считать себя неудачниками? Конечно, нет, потому что мы знаем, что друг моего друга — мой друг, а значит, также может быть нам полезен. А если их намного больше — то и возможностей намного больше.

Иллюзия большинства
Помимо парадокса дружбы, в прошлом году еще была предложена иллюзия большинства. Во многом, эта иллюзия основана на парадоксе дружбы, так как тоже связана с высокой популярностью небольшого количества людей в сети.
Авторы, которые обнаружили эту иллюзию, в своей работе представляют следующий рисунок. Перед нами две абсолютно идентичные по своей структуре сети. Единственное отличие в том, что красным цветом в них раскрашены различные узлы.

Иллюзия большинства из работы Lerman et al (2015). Обе сети идентичны по своей структуре, различаются они лишь по тому, что в них окрашены красным цветом разные узлы.

Если мы посчитаем количество прямых (не опосредованных) связей между белыми и красными узлами в обоих сетях, то обнаружим следующее. В сети слева белые узлы видят, что больше половины их друзей — красные узлы. В сети справа белые практически не связаны с красными узлами и у них практически нет красных в ближайшем окружении.
Так как на левом рисунке большое количество белых имеет друзей-красных, они думают, что такое поведение как «быть красным» очень распространено в этой сети. Белые на правом рисунке так не считают, потому что видеть красных в своем окружении — для них редкость. Это и есть иллюзия большинства. Она основана на том, что при принятии решений мы часто ориентируемся на свое ближайшее окружение, не видя при этом всю структуру сети.
Как это объяснить? Также, как и в парадоксе дружбы — наличием популярных узлов, которые меняют представление о сети в целом. Красные узлы на левом рисунке — это узлы с большим количеством связей, они тоже смещают среднее значение, как и в парадоксе дружбы.
Исследователи, обнаружившие эту иллюзию, протестировали ее на различных сетях (соавторство, онлайн-сеть фолловеров, сеть блогов) и показали, что она работает. Эта иллюзия еще раз доказывает идею, что при распространении какой-либо идеи или влияния необходимо в первую очередь воздействовать на узлы, которые наиболее популярны и связаны с большим количеством других узлов в сети.

Загадка онлайн-дружбы
Также есть более простая загадка, которая пока всерьез не изучалась, но заботит некоторых блогеров (например, тут и тут). Вопрос в том, как изменилась дружба и представление о ней с появлением онлайн-сетей, которые начали сильно ее опосредовать. Сегодня друзья — это все-таки только те, с которыми мы лично встречаемся, говорим и проводим время? Или друзья — это также и все те сотни и тысячи незнакомцев, с которыми мы связаны в Фейсбуке, Твиттере и других онлайн сетях?

понедельник, 8 февраля 2016 г.

Кого читать: Юрий Лесковец



    Продолжим нашу серию постов про интересных исследователей социальных сетей. Раньше мы уже писали про Ладу Адамик.
       Одним из наиболее значимых исследователей онлайн-сетей последнего времени по праву считается Юрий Лесковец. Он информатик, в сферу интересов которого входит анализ социальных сетей, преимущественно онлайн, методами машинного обучения. В настоящее время Лесковец работает на факультете компьютерных наук Стэнфорда, а также в лабораториях искусственного интеллекта и изучения информации. Ранее он работал в Корнелльском университете, а Phd защитил в университете Карнеги Меллон.
Его интересует анализ структуры социальных сетей, а также процессы распространения информации. Охватить вниманием все работы Юрия у нас не получится, поэтому мы расскажем о двух наиболее интересных его статьях.
Источник

Работа «Моделирование диффузии информации в скрытых сетях» не только стала лучшей статьей конференции IEEE International Conference On Data Mining (ICDM) в 2010 году, но и задала тон в исследовании распространения информации в социальных онлайн-сетях. Дело в том, что Лесковец и его соавтор Йевон Янг предсказали механизм распространения информации по социальной сети фактически без учета структуры графа. Для этого они разработали модель линейного влияния (Linear Influence Model). Таким образом, зная определенные параметры распространяемой новости можно предсказать с какой скоростью она будет распространяться по социальной сети и какое число участников соцсети в результате ее прочтут.
Статья «Жизнь и смерть онлайн-сообществ: предсказание роста и продолжительности существования групп» посвящена описанию механизмов роста и развития онлайн-сообществ в социальной сети Ning. Проанализировав данные о более чем 4 тысячах групп в соцсети, авторы пришли к выводу о том, что формирование и рост сети может происходить по двум механизмам: диффузионном и недиффузионному. В ходе диффузионного роста к сообществу присоединяются друзья участников сообщества, в случае недиффузионного роста – участники, у которых нет связей с теми, кто уже состоит в сообществе. При этом наибольшего роста могут достигнуть сообщества, которые развиваются по преимущественно недиффузионному механизму. Это говорит о том, что для развития сообществ необходимо в первую очередь качественное наполнение, которое привлечет новых пользователей.
За кадром осталось множество других интересных исследований Лесковца. С полным списком его работ можно ознакомиться здесь.
Расскажем немного про образовательную деятельность. Юрий Лесковец читает в Стэнфорде курсы по анализу социальных сетей, причем все материалы курса доступны. А по этой ссылке можно просмотреть некоторые материалы воркшопов, которые проводились Лесковцом. Совместно с коллегами он написал учебник «Mining of Massive Datasets», которая размещена в открытом доступе. По этой книге впоследствии был создан курс на Курсере по анализу больших данных, несколько лекций которого читает Лесковец.



В ходе обучения в аспирантуре Лесковец начал разрабатывать инструментарий для анализа графов, впоследствии проект получил название SNAP (Stanford Network Analysis Platform). Основным отличием SNAP от привычных инструментов по визуализации и расчету описательных статистик для сетей является ее эффективность при работе с большими сетями. В настоящий момент программа доработана и ее можно загрузить здесь.
Очень важной инициативой, на наш взгляд, является размещение сетевых данных в открытом доступе. На сайте Лесковца размещены данные о сетях Facebook, Amazon, Twitter и т.д., при этом большинство сетей представляют собой большие данные. Например, 35 млн обзоров с сайта Amazon, данные о 5 млн пользователей и почти 70 млн взаимодействий между ними с сайта Livejournal. Вишенкой на торте можно считать данные о более чем 65 млн пользователей соцсети Friendster и почти 2 млрд взаимодействиями между ними. Публичное размещение данных позволяет, во-первых, осуществить проверку результатов исследования, что в последние месяцы стало важным направлением дискуссий в научной среде. Во-вторых, именно на доступных данных начинающие исследователи могут сделать первые шаги в исследовании больших сетевых данных. 
Помимо обширной и активной научно-преподавательской работы Лесковец является научным руководителем в социальном фото-хостинге Pinterest. Кроме того Лесковец пробовал себя и в качестве стартапера и стал одним из сооснователей компании Kosei, выполняющей задачи машинного обучения. Kosei была приобретена Pinterest.