Показаны сообщения с ярлыком открытые данные. Показать все сообщения
Показаны сообщения с ярлыком открытые данные. Показать все сообщения

четверг, 3 августа 2017 г.

"Вне контакта". Вспомним, что мы могли изучать, когда данные "ВК" были открытыми.



31 июля газета «Известия» написала о том, что Роскомнадзор (РКН) запретил сторонним компаниям собирать открытую персональную информацию пользователей «ВКонтакте». Это ставит под вопрос проведение многих онлайн-исследований, так как «ВК» предоставлял возможность свободного доступа к открытым данным, чем активно пользовались и мы, и наши коллеги. В этом посте мы решили вспомнить некоторые работы, которые были сделаны на данных из «ВК».

Протесты
Динисса Дуванова с соавторами проанализировали структуру политических обсуждений в «ВК» в регионах Украины. Ученые показали, что пользователи предпочитают взаимодействовать с теми, кто разделяет их политические взгляды. Получается, что хотя онлайн-сети и имеют все шансы стать полноценной площадкой для политических дискуссий, эти возможности на практике не реализуются.
Мария Петрова и Рубен Ениколопов с коллегами также провели несколько исследований о взаимосвязи социальных сетей и протестов. Они показали, что чем выше уровень проникновения «ВК» в регионе, тем выше вероятность протеста и число участников протеста (подробнее читайте здесь). Исследователи также предположили, что участие в онлайн-группе существенно повышает вероятность участия в реальном протесте (все исследование здесь).

Здоровье
Петр Мейлахс, Юрий Рыков, Олеся Кольцова изучили группы посвященные СПИДу в «ВК» и выяснили, что группы, посвященные разным задачам имеют разную сетевую структуру дружбы и коммуникаций. Например, в группах, которые посвящены знакомству ВИЧ-положительных пользователей, преобладают связи между разнополыми пользователями. Особо подробно изучены группы «СПИД-диссидентов» - тех людей, которые отрицают факт наличия СПИДа. Авторы приходят к выводу, что в группах происходит формирование «эхокамеры», то есть в группе постоянно циркулируют одни и те же идеи, а альтернативные точки зрения не рассматриваются. Об исследовании можно прочитать здесь и здесь.

Образование 
        Иван Смирнов изучил тексты пользователей «ВК» за девять лет и пришел к выводу, что с возрастом пользователи «ВК» начинают употреблять более длинные слова (исследование можно прочитать здесь). Полученные результаты автор сопоставляет с «эффектом Флинна», по которому IQ населения в целом растет с течением времени.



        Иван также анализирует связи студентов и школьников в «ВК». В одном из своих исследований он показал, что и студенты, и школьники склонны формировать онлайн-связи (в данном случае в качестве связей были «лайки» в «ВК») с людьми со схожими академическими достижениями. Казалось бы, онлайн должен был бы способствовать общению всех со всеми, но, видимо, сегрегация настолько присуща человеческой природе, что студенты даже лайкают тех, кто также учится.

Мы тоже изучали социальные связи студентов «ВК» (статьи можно почитать тут и тут). Мы ставили перед собой задачу понять, каким образом студенты формируют друг с другом связи на самых начальных этапах обучения в университете, в течение первых же недель, и что с ними происходит после. Оказалось, что на первых порах студенты стремятся сформировать связи хоть с кем-то из курса или потока, а со временем формирование связей начинает происходить уже более выборочно. Например, студенты больше и активнее добавляют своих одногруппников и тех людей, с кем у них есть общие интересы.
Закрытие доступа к данным «ВК» говорит о необходимости поиска новых источников данных. «Фейсбук» довольно давно жестко регулирует доступ к персональным данным пользователей, поэтому скачать что-то оттуда вряд ли получится. А вот данные из Твиттера все ещё открыты и доступны для анализа (про анализ мемов в Твиттере можно почитать здесь).

понедельник, 24 октября 2016 г.

Кто на меня чихает

Однажды мы уже составляли список самых известных баз данных про социальные (и не только) сети, в этот раз решили сделать список полезных данных про здоровье.
Почему именно здоровье? Потому что как бы ни была важна генетика и окружающая среда, влияние окружения на наше здоровье не менее существенно. Это проявляется и как социальное влияние (мои друзья курят, и я тоже), и как заражение (все в моем офисе простужены и чихают, значит, я тоже могу заразиться).

Наверное, это одна из самых известных баз данных про школьников, на основе которой написаны тысячи публикаций. Преимущество этих данных в том, что, во-первых, лонгитюдные. Опрос впервые начался в 1994 году, но сбор данных продолжается до сих пор. Сейчас респондентам около 30 лет. Во-вторых, они содержат огромное количество данных о различных аспектах жизни подростков, а сейчас уже и взрослых людей. В-третьих, они репрезентативны по всем американских школам.
Как собирали сетевые данные про дружбу? Каждого школьника просили назвать до 5 друзей мужского и до 5 друзей женского пола. Друзья могли быть как из школы, в которой учится респондент, так и из других школ. Сложно перечислить, какого рода данные содержатся в этой базе данных, потому что их очень много, но назовем лишь несколько. Например, это информация о романтических и сексуальных отношениях школьников, о характеристиках школы и семьи, о болезнях и привычках, об оценках.



Сеть романтических связей между школьниками из Add Health. На основе визуализации из работы Bearman et al (2004). Chains of affection. Источник изображения.

2. Данные про заболевания, передающиеся половым путем
      Это набор из 8 баз данных, собранных в разное время и в разных местах, однако объединенных одной идеей. Во всех наборах данных основная цель — это изучить, как передаются заболевания по сетям сексуальных контактов. Каждый из наборов немного отличается от остальных, однако исследователи, создавшие этот мета-проект, постарались привести переменные в сравнимый вид. Болезни, информация о которых есть в этих данных — это ВИЧ, хламидиоз, сифилис, гепатит. Данные представлены про различные группы риска (люди, занимающиеся проституцией, употребляющие наркотики). Сети здесь — это сексуальные контакты или люди, с которыми используется одна инъекционная игла.

Это также лонгитюдное исследование, в котором приняли участие около 1500 голландских подростков. Основной целью было изучить, как разное отклоняющееся поведение связано с дружескими связями. Про какого рода поведение есть данные? Это мелкий вандализм и кражи, граффити, драки, порча чужого имущества. В качестве сети рассматривается не класс, а все ученики, поступившие учиться в один год.
В исследовании изучается не напрямую дружба (это слово вовсе не звучит в вопросе), а сети поддержки. У учеников спрашивали, к кому они обращаются за поддержкой, если чувствуют себя плохо (например, после разлуки или при конфликтах с другими людьми), а также кого сами поддерживают в подобных ситуациях.



Подросток за граффити. Источник изображения

4. Исследование сердечных заболеваний
     Нет, это не романтические сети подростков в очередной раз, а действительно заболевания сердца, которые изучались медицинскими исследованиями. Это известное Фрамингэмское исследование, на основе которого было сделано несколько достаточно провокативных сетевых исследований (про влияние друзей на ожирение и вероятность развода). Данные также собирались в течение длительного времени, и идеей было проследить здоровье потомков первых респондентов, чтобы изучить генетическую составляющую некоторых заболеваний. Здесь очень много подробных данных про здоровье, однако про социальное окружение - не так много. Есть информация про семейные связи и про одного друга, на основе которых можно частично восстановить социальное окружение.

Еще одна база данных про здоровье школьников — это 'Teenage Friends and Lifestyle Study'Это лонгитюдные данные, собранные в течение 3 лет про дружеские связи, привычки и мнения подростков из Шотландии. Данных не так много (всего опрошено около 150 школьников), однако они хороши для учебных целей именно благодаря своему небольшому размеру. Основная цель исследования — понять, как формируются мнения подростков об определенных рискованных формах поведения, как они экспериментируют с курением, алкоголем, легкими наркотиками, как происходит процесс закрепления вредных привычек. Помимо всего прочего, есть много данных о том, что делают школьники в свободное время и какими видами спорта занимаются. Вопрос о дружбу звучал как просьба назвать до 12 лучших друзей.