Показаны сообщения с ярлыком машинное обучение. Показать все сообщения
Показаны сообщения с ярлыком машинное обучение. Показать все сообщения

воскресенье, 14 января 2018 г.

Дюшаны и Микеланджело в социальных исследованиях

Часто в социальных науках ученые выстраивают дизайн исследования, будто они Микеланджело. У Микеланджело есть идея сделать Давида, и он его делает, он не ищет кусок мрамора, который бы напоминал Давида. Иными словами, у таких исследователей есть теория, и они проверяют, насколько она жизнеспособна в реальном мире.
Есть также и другого рода социальные исследователи, которые действуют скорее как Марсель Дюшан. Дюшан берет уже существующую вещь из повседневности и переделывает ее в объект искусства. Эти исследователи сначала наблюдают какое-то явление в реальной жизни, и только потом пытаются его объяснить. Это сравнение разных типов исследователей - пример из новой книги "Бит по биту" о вычислительных социальных науках.
Такой пример, несомненно, достаточно грубо разбивает социальных исследователей на две группы. Мэтью Салганик, автор книги и профессор в Принстонском университете, пишет, что в эпоху цифровых исследований в социальных науках будут и те, и другие, Дюшаны не заменят Микеланджело, чего многие опасаются.

Фонтан Марселя Дюшана как аналогия readymade подхода к социальным исследованиям. Пример из книги "Бит по биту" М. Салганика, автор фото А. Стиглих, 1917. Источник: Wikimedia Commons.
Давид Микеланджело как пример custommade подхода к социальным исследованиям. Пример из книги "Бит по биту" М. Салганика. Источник.

После известной статьи в журнале Wired о конце социальной теории представления исследователей о социальных исследованиях слегка пошатнулись. Эта статья вышла еще десять лет назад, в 2008 году, и очень точно очертила перемены, которые начали происходить в социальных науках в то время. Перемены заключались в том, что раньше процесс научного исследования был таков: мы выдвигаем гипотезы, тестируем их и получаем результаты, которые подтверждают или опровергают наши изначальные предположения (напоминает Микеланджело, правда?). Сегодня же набор данных настолько массивен и возможностей для их анализа так много, что времени и желания на то, чтобы изучать теорию, выдвигать гипотезы и только так, постепенно, шаг за шагом двигаться к результатам, нет. Такой подход от данных к теории также сравнивается с философией Гугла, который не знает точно, почему одна страница лучше другой, но если статистика посещений говорит об этом, уже этого для многих простых задач достаточно. Алгоритмы могут без подробного изучения того, что же на самом деле происходит, предложить человеку соответствующую рекламу или переводить с одного языка на другой. Конечно, они иногда ошибаются, но как иначе работать с огромным массивом данных?

Иллюстрация М. Бантьеса "Все модели ложные, но некоторые полезны" к статье в Wired 23 июня 2008 года о конце теории. Источник

Действительно, кого сегодня волнует, почему люди что-то делают? Важно то, что они это делают, и мы можем это зафиксировать и измерить даже в тех случаях, когда они ошибаются, врут или забывают. Например, известно, что в опросах люди склонны выбирать социально желательные пункты, даже если опрос анонимный. В то же время, ответы на некоторые сенситивные вопросы можно сравнить с их индикаторами в поисковых запросах. Можно посмотреть, какое количество людей признает, что они гомосексуальны и ищет соответствующее порно; сравнить, что люди говорят о количестве сексуальных контактов и как обсуждают онлайн то, что партнер больше не хочет секса; что люди говорят о расизме, и что они на самом деле ищут по этой теме, формируя запросы таким образом, что все мусульмане становятся террористами.
Конечно, было много критики этой статьи из Wired и последующая дискуссия, в которой было признано, что все это - непозволительное упрощение того, как действительно работают социальные ученые. Большинство исследователей работают в колесе теории и данных, где мы мечемся между теорией и результатами, постоянно возвращаясь то к одному, то к другому. Эти дискуссии не прошли стороной, и некоторые исследователи сегодня говорят, что они занимаются вычислительными социальным науками, давая понять, что они отличаются от более классических подходов. Иными словами, они все в душе немного Дюшаны. Но чем они отличаются от классических социальных исследователей?
Первый признак, который приписывается вычислительным социальным наукам - это интерес к изучению социальных законов. Эти исследователи часто интересуются универсальными паттернами человеческого поведения, и именно по этой причине в вычислительных социальных науках так много физиков. Наглядный пример - это степенной закон в социальных сетях. Если мы посмотрим на популярность акторов (на распределение центральностей) в социальной сети, то мы увидим интересную закономерность. В этой сети будет очень мало чрезвычайно популярных акторов и достаточно много - непопулярных. Например, если подумать о своих друзьях и ближайших знакомых, можно по пальцам пересчитать 2-3 людей, которые действительно имеют невообразимо большое количество друзей и знакомых. Остальные, скорее всего, связаны на среднем уровне - они не сетевые звезды, но имеют достаточно количество друзей и знакомых, чтобы не чувствовать себя совсем одинокими. Это универсальный социальный закон, и многие исследователи из вычислительных социальных наук это доказали - распределение центральностей в социальных сетях устроено именно так. Если бы распределение друзей было случайно, то оно бы имело форму нормального распределения, когда все в среднем в одинаковой степени знают друг друга, и нет сетевых звезд или совсем одиноких людей.


Распределение центральности в случайных графах и реальных социальных сетях. На графике слева мы видим нормальное распределение, то есть все акторы в среднем имеют одинаковое количество связей. На графике справа мы видим распределение по степенному закону, то есть в сети есть небольшая доля акторов с очень большим количеством связей, но большинство имеет достаточно малое количество связей. Рисунок с сайта Network Science

В то же время, вычислительные социальные науки часто критикуют за чрезмерную описательность. Редко можно встретить глубокий анализ социальных процессов, которые стоят за обнаруженным социальным законом или закономерностью. Например, почему все люди имеют разное число друзей? Одно из простых объяснений в том, что кто-то более общительный, а кто-то - менее, у людей разные потребности в общении с окружающим миром, разные психологические характеристики. Также, общество так устроено, что не у всех есть доступ ко всем возможным ресурсам социальной сети. Может быть, каждый хотел бы быть сетевой звездой, чтобы при любом трудном случае можно было быстро активизировать свои контакты и попросить о помощи. Это невозможно, потому что наши связи - это также результат социального неравенства. Например, предположим, что в школьный класс переводится ученица, которая отличается по национальности, социальному положению и успеваемости от всего остального класса. Как бы она не старалась завязать хорошие отношения со всем классом, скорее всего, это ей будет даваться сложно, ввиду изначального социального неравенства по другим характеристикам. Можно придумать еще несколько объяснений того, почему в социальных сетях мы наблюдаем сетевой закон. Но часто исследователи из вычислительных социальных наук забывают о том, что социальные законы намного интереснее интерпретировать, чем просто наблюдать.
Второй признак вычислительных социальных наук - это расширение набора методов, которые допустимо использовать в социальных науках. Как правило, это изучение социальных законов с использованием вычислительных подходов и новых для социальных наук методов. Это агентное моделирование, машинное обучение, сетевой анализ, онлайн-эксперименты. Большинство работ в этой области используют данные о поведении людей из онлайна, например, это перемещения по городу, выбор жилья на Airbnb, лайки и комментарии, сеть связей в онлайн сети.
В целом, для вычислительных социальных наук важно то, что социальный мир - это результат интеракций между людьми. Изучая поведение людей, мы можем что-то понять в целом об обществе. В свою очередь, это общество и определяет наши паттерны интеракций друг с другом. Получается такой же замкнутный круг “микро-макро”, как и колесо “теория-данные”. Напоследок, советуем посмотреть короткое видео о так называемой “лодке Колмана”, которая разъясняет, где микро-, а где макроуровни, и как все это удивительным образом переплетено в нашем непростом социальном мире.




Что еще почитать на тему:
* Книгу "Бит по биту" можно читать онлайн на сайте самой книги.
* Совсем недавно вышла статья, поясняющая различия между вычислительными социальными науками и аналитической социологией: можно почитать полный текст по этой ссылке.
* Как пример работ, которые используют подход вычислительных социальных наук, можно почитать свежую статью про то, как совы и жаворонки (те, кто поздно или рано встает) по-разному дружат, и про то, что существует число Данбара для мест, которые мы посещаем.

пятница, 29 апреля 2016 г.

Итоги месяца: апрель

Мы решили начать новую рубрику с основными событиями месяца. Если вы что-то упустили, самое время прочитать последние новости и все равно быть в курсе:

Источник изображения

пятница, 11 марта 2016 г.

5 интересных блогов про статистическую среду R

Среда R стала общепринятым стандартом для работы с данными. В ней работают специалисты самых различных направлений: физики, химики, биологи, социологи, политологи и многие другие. В этом посте мы расскажем об интересных блогах про R, в которых пользователи пишут о своих исследованиях и размещают в открытом доступе скрипты и материалы.

1. Блог  R-bloggers.
Это один  из самых полезных ресурсов для пользователей R. На этом сайте каждый день публикуется несколько интересных исследований, посвященных самым различным направлениям: от экономики до астрономии. При этом авторы часто сопровождают свой пост пошаговыми инструкциями, скриптами, принтскринами результатов вычислений и визуализацией. Так что фактически каждый их шаг можно повторить на своем компьютере.
Для начинающих R-пользователей будет интересно почитать заметки про кластерный анализметод главных компонент и логистическую регрессию. Более опытным пользователям могут быть любопытны продвинутые методы анализа и различные варианты визуализации данных (пост про визуализацию 12 и 3). На сайте можно прочитать и об интересных воркшопах, в том числе и по сетевому анализу.

2. Блог RevolutionAnalytics.
Посты в этом блоге практически всегда посвящены анализу данных в R, авторы также приводят свои скрипты и скриншоты для воспроизводимости результатов.
RevolutionAnalytics отличается тем, что в нем пишут интересные заметки про анализ данных. Например, про движения кошекбегунов и агентные модели. Все желающие также могут попробовать сами написать заметку на этот портал.
Этот сайт официально поддерживается Microsoft и поэтому на нем можно найти актуальные материалы про Microsoft R Server – облачное решение для анализа данных.




Это самый известный русскоязычный блог про R.  Автор этого ресурса Сергей Мастицкий регулярно знакомит читателей с «интересным из мира R» - здесь можно прочитать о конференциях, выходе новых пакетов и учебно-образовательных курсах и книгах про R.
Из любопытных постов можно отметить заметки о том, как послать электронное письмо из R, про словарный и семантический анализпро машинное обучение и многое другое.

        4. Блог Flowing data.
Этот сайт нельзя назвать блогом исключительно про R, ресурс посвящен анализу данных в целом. В частности, здесь можно прочесть про возраст вступления в брак и его расторженияанализ данных библиотеки Нью-Йоркаанализ селфи с помощью сверточных нейронных сетей. Единственное, не все заметки сопровождаются подробным разбором данных и скриптами.

         5. Блог Statsblogs.
Сайт посвящен статистике и R как одному из ключевых инструментов анализа данных. В этом блоге рассматриваются методологические и практически возможности применения этого языка. Например, можно прочитать про пакет в R для отслеживания движения глазпро анализ безработицы в Европе и про дисперсионный анализ. Специализирующимся на анализе данных также будет полезно посмотреть посты про различные статистические процедуры и тесты.




понедельник, 8 февраля 2016 г.

Кого читать: Юрий Лесковец



    Продолжим нашу серию постов про интересных исследователей социальных сетей. Раньше мы уже писали про Ладу Адамик.
       Одним из наиболее значимых исследователей онлайн-сетей последнего времени по праву считается Юрий Лесковец. Он информатик, в сферу интересов которого входит анализ социальных сетей, преимущественно онлайн, методами машинного обучения. В настоящее время Лесковец работает на факультете компьютерных наук Стэнфорда, а также в лабораториях искусственного интеллекта и изучения информации. Ранее он работал в Корнелльском университете, а Phd защитил в университете Карнеги Меллон.
Его интересует анализ структуры социальных сетей, а также процессы распространения информации. Охватить вниманием все работы Юрия у нас не получится, поэтому мы расскажем о двух наиболее интересных его статьях.
Источник

Работа «Моделирование диффузии информации в скрытых сетях» не только стала лучшей статьей конференции IEEE International Conference On Data Mining (ICDM) в 2010 году, но и задала тон в исследовании распространения информации в социальных онлайн-сетях. Дело в том, что Лесковец и его соавтор Йевон Янг предсказали механизм распространения информации по социальной сети фактически без учета структуры графа. Для этого они разработали модель линейного влияния (Linear Influence Model). Таким образом, зная определенные параметры распространяемой новости можно предсказать с какой скоростью она будет распространяться по социальной сети и какое число участников соцсети в результате ее прочтут.
Статья «Жизнь и смерть онлайн-сообществ: предсказание роста и продолжительности существования групп» посвящена описанию механизмов роста и развития онлайн-сообществ в социальной сети Ning. Проанализировав данные о более чем 4 тысячах групп в соцсети, авторы пришли к выводу о том, что формирование и рост сети может происходить по двум механизмам: диффузионном и недиффузионному. В ходе диффузионного роста к сообществу присоединяются друзья участников сообщества, в случае недиффузионного роста – участники, у которых нет связей с теми, кто уже состоит в сообществе. При этом наибольшего роста могут достигнуть сообщества, которые развиваются по преимущественно недиффузионному механизму. Это говорит о том, что для развития сообществ необходимо в первую очередь качественное наполнение, которое привлечет новых пользователей.
За кадром осталось множество других интересных исследований Лесковца. С полным списком его работ можно ознакомиться здесь.
Расскажем немного про образовательную деятельность. Юрий Лесковец читает в Стэнфорде курсы по анализу социальных сетей, причем все материалы курса доступны. А по этой ссылке можно просмотреть некоторые материалы воркшопов, которые проводились Лесковцом. Совместно с коллегами он написал учебник «Mining of Massive Datasets», которая размещена в открытом доступе. По этой книге впоследствии был создан курс на Курсере по анализу больших данных, несколько лекций которого читает Лесковец.



В ходе обучения в аспирантуре Лесковец начал разрабатывать инструментарий для анализа графов, впоследствии проект получил название SNAP (Stanford Network Analysis Platform). Основным отличием SNAP от привычных инструментов по визуализации и расчету описательных статистик для сетей является ее эффективность при работе с большими сетями. В настоящий момент программа доработана и ее можно загрузить здесь.
Очень важной инициативой, на наш взгляд, является размещение сетевых данных в открытом доступе. На сайте Лесковца размещены данные о сетях Facebook, Amazon, Twitter и т.д., при этом большинство сетей представляют собой большие данные. Например, 35 млн обзоров с сайта Amazon, данные о 5 млн пользователей и почти 70 млн взаимодействий между ними с сайта Livejournal. Вишенкой на торте можно считать данные о более чем 65 млн пользователей соцсети Friendster и почти 2 млрд взаимодействиями между ними. Публичное размещение данных позволяет, во-первых, осуществить проверку результатов исследования, что в последние месяцы стало важным направлением дискуссий в научной среде. Во-вторых, именно на доступных данных начинающие исследователи могут сделать первые шаги в исследовании больших сетевых данных. 
Помимо обширной и активной научно-преподавательской работы Лесковец является научным руководителем в социальном фото-хостинге Pinterest. Кроме того Лесковец пробовал себя и в качестве стартапера и стал одним из сооснователей компании Kosei, выполняющей задачи машинного обучения. Kosei была приобретена Pinterest.