Показаны сообщения с ярлыком Coursera. Показать все сообщения
Показаны сообщения с ярлыком Coursera. Показать все сообщения

понедельник, 8 февраля 2016 г.

Кого читать: Юрий Лесковец



    Продолжим нашу серию постов про интересных исследователей социальных сетей. Раньше мы уже писали про Ладу Адамик.
       Одним из наиболее значимых исследователей онлайн-сетей последнего времени по праву считается Юрий Лесковец. Он информатик, в сферу интересов которого входит анализ социальных сетей, преимущественно онлайн, методами машинного обучения. В настоящее время Лесковец работает на факультете компьютерных наук Стэнфорда, а также в лабораториях искусственного интеллекта и изучения информации. Ранее он работал в Корнелльском университете, а Phd защитил в университете Карнеги Меллон.
Его интересует анализ структуры социальных сетей, а также процессы распространения информации. Охватить вниманием все работы Юрия у нас не получится, поэтому мы расскажем о двух наиболее интересных его статьях.
Источник

Работа «Моделирование диффузии информации в скрытых сетях» не только стала лучшей статьей конференции IEEE International Conference On Data Mining (ICDM) в 2010 году, но и задала тон в исследовании распространения информации в социальных онлайн-сетях. Дело в том, что Лесковец и его соавтор Йевон Янг предсказали механизм распространения информации по социальной сети фактически без учета структуры графа. Для этого они разработали модель линейного влияния (Linear Influence Model). Таким образом, зная определенные параметры распространяемой новости можно предсказать с какой скоростью она будет распространяться по социальной сети и какое число участников соцсети в результате ее прочтут.
Статья «Жизнь и смерть онлайн-сообществ: предсказание роста и продолжительности существования групп» посвящена описанию механизмов роста и развития онлайн-сообществ в социальной сети Ning. Проанализировав данные о более чем 4 тысячах групп в соцсети, авторы пришли к выводу о том, что формирование и рост сети может происходить по двум механизмам: диффузионном и недиффузионному. В ходе диффузионного роста к сообществу присоединяются друзья участников сообщества, в случае недиффузионного роста – участники, у которых нет связей с теми, кто уже состоит в сообществе. При этом наибольшего роста могут достигнуть сообщества, которые развиваются по преимущественно недиффузионному механизму. Это говорит о том, что для развития сообществ необходимо в первую очередь качественное наполнение, которое привлечет новых пользователей.
За кадром осталось множество других интересных исследований Лесковца. С полным списком его работ можно ознакомиться здесь.
Расскажем немного про образовательную деятельность. Юрий Лесковец читает в Стэнфорде курсы по анализу социальных сетей, причем все материалы курса доступны. А по этой ссылке можно просмотреть некоторые материалы воркшопов, которые проводились Лесковцом. Совместно с коллегами он написал учебник «Mining of Massive Datasets», которая размещена в открытом доступе. По этой книге впоследствии был создан курс на Курсере по анализу больших данных, несколько лекций которого читает Лесковец.



В ходе обучения в аспирантуре Лесковец начал разрабатывать инструментарий для анализа графов, впоследствии проект получил название SNAP (Stanford Network Analysis Platform). Основным отличием SNAP от привычных инструментов по визуализации и расчету описательных статистик для сетей является ее эффективность при работе с большими сетями. В настоящий момент программа доработана и ее можно загрузить здесь.
Очень важной инициативой, на наш взгляд, является размещение сетевых данных в открытом доступе. На сайте Лесковца размещены данные о сетях Facebook, Amazon, Twitter и т.д., при этом большинство сетей представляют собой большие данные. Например, 35 млн обзоров с сайта Amazon, данные о 5 млн пользователей и почти 70 млн взаимодействий между ними с сайта Livejournal. Вишенкой на торте можно считать данные о более чем 65 млн пользователей соцсети Friendster и почти 2 млрд взаимодействиями между ними. Публичное размещение данных позволяет, во-первых, осуществить проверку результатов исследования, что в последние месяцы стало важным направлением дискуссий в научной среде. Во-вторых, именно на доступных данных начинающие исследователи могут сделать первые шаги в исследовании больших сетевых данных. 
Помимо обширной и активной научно-преподавательской работы Лесковец является научным руководителем в социальном фото-хостинге Pinterest. Кроме того Лесковец пробовал себя и в качестве стартапера и стал одним из сооснователей компании Kosei, выполняющей задачи машинного обучения. Kosei была приобретена Pinterest.

понедельник, 14 декабря 2015 г.

Кого читать: Лада Адамик

Обычно мы пишем об интересных исследованиях, но в этот раз решили написать о  Ладе Адамик – известной ученой, который работает над интересными исследованиями.
       Лада - один из самых известных и цитируемых исследователей социальных сетей. В последние годы фокус ее исследований сконцентрирован на структуре и динамике онлайн-сетей, а также диффузии информации.
       Она соавтор одной из самых популярных работ по сетевому анализу «The political blogosphere and the 2004 US election: divided they blog». Лада хорошо известна и молодым исследователям сетевых структур, так как она ведет один из самых популярных вводных курсов по сетевому анализу на Курсере. Наконец, карьера Адамик сама по себе очень интересна. В 2012 Лада перешла работать из университета Мичигана в Фейсбук.

Лада Адамик. Источник

Карьера
Лада Адамик начала заниматься исследованиями социальных сетей в конце 1990-х годов (CV) в аспирантуре физического факультета Стэнфорда. Её первые статьи были посвящены структурным характеристикам веб-графов. После окончания аспирантуры в 2001 г. Лада переходит работать в Hewlett Packard. В этот период у неё появляются работы, посвященные распространению информации в социальных онлайн-сетях. В 2005 у Адамик выходят ее наиболее цитируемые и известные статьи: «The political blogosphere and the 2004 US election: divided they blog» и «Tracking information epidemics in blogspace» (эта статья получила награду как самая влиятельная публикация десятилетия по версии Web Intelligence).


Сети взаимодействий между блогами демократов (синие вершины) и республиканцев (красные вершины). Источник.

       В этом же году Лада переходит работать в Центр сложных систем в университете Мичигана (там работает еще один замечательный сетевик Марк Ньюман).  В Мичигане Адамик занимается проектами по обмену знаниями в социальных сетях (на примере форумов вопросов/ответов, Q&A forums), диффузии информации и структурными характеристиками онлайн-сетей. В этот период у нее вышло много интересных исследований про онлайн-сети, уже тогда она работала с большими данными – сетями с миллионами вершин и десятками миллионов ребер. В 2012 г. Лада переходит из университета Мичигана в Facebook Data Science Team. С тех фокус исследований Лады полностью сместился в область анализа поведения пользователей Фейсбука (список ее работ).

Подход к исследованиям
Исследования Лады Адамик привлекают интерес в первую очередь из-за любопытных и необычных результатов. В отличие от многих сетевиков-физиков, например Марка Ньюмана и Альберта-Ласло Барабаши, Адамик не разрабатывает методологию сетевого анализа, а решает прикладные задачи, и, что немаловажно, всегда уделяет большое внимание описанию процедур сбора и анализа данных. Для решения этих задач она использует самый разнообразный инструментарий, не ограничиваясь «традиционными» методами и моделями, что отличает ее как мультидисциплинарного исследователя. Например, привлекает внимание ее работа «The evolution of memes on Facebook», в которой для анализа мемов и их изменений (мутации) используются статистические модели из генетики. Адамик с соавторами (в числе которых значится и генетик из Сингапура) отмечают, что аналогичные подходы могут быть использованы не только для анализа контента социальных сетей, но и для иных социальных взаимодействий.

Сеть вопросов и ответов на форумах. Цвет вершин зависит от «экспертности» актора. Красные – наиболее высококвалифицированные. Источник.

Сегодня Лада работает в Фейсбук, у нее по-прежнему с завидной регулярностью выходит курсеровский курс по социальным сетям, она часто выступает на конференциях. Работа в Facebook Data Science дает ей возможность анализировать огромные по объему данные, малодоступные простому смертному исследователю. Надеемся, что в будущем мы увидим немало ее работ на основе этих данных.