Показаны сообщения с ярлыком большие данные. Показать все сообщения
Показаны сообщения с ярлыком большие данные. Показать все сообщения

пятница, 22 июня 2018 г.

Предсказать успех? Легко!


Известно, что для американцев самый главный семейный праздник - это день благодарения. Вся семья собирается за столом, включая дальних родственников, с которыми приходится встречаться раз в год, и тут начинается... Все хотят высказать свое мнение о происходящем вокруг, в том числе и о политической ситуации в мире. Всё усугубляется избранием Трампа, с появление которого семейные ужины стали еще более невыносимыми. Подобная ситуация, когда в семьях развивались бурные дискуссии, была и в России во время "Крымнаш", когда мама - за Крым, папа - против, а у дедушки какое-то особенное, совсем другое мнение.
К чему все это? Было исследование, которое показало, что после избрания Трампа ужины в честь дня благодарения стали намного короче. Смешно, но правда. Об этой истории я узнала из доклада на конференции по политическим сетям PolNet, которая прошла на прошлой неделе в университете Джорджа Мейсона в Вашингтоне. В этом посте расскажем о том, что такое политические сети, и о том, чем сейчас занимается Альберт-Ласло Барабаши, один из самых известных исследователей сетей.

Политические сети? Нет, не слышали

Что такое политические сети? Для меня это было неочевидно, но не остановило от участия в конференции. После того, как я посетила несколько секций, все стало намного понятнее. Исследователи политических сетей изучают следующие вопросы:
1 - Как возникают и развиваются протесты и митинги, как заключаются договора и альянсы между странами, как начинаются войны и заключаются перемирия?
2 - Как окружение влияет на политические мнения и действия людей? Если все твои друзья за "крым наш", будешь ли ты также поддерживать эту идею?
3 - Как меняются торговые связи между странами, особенно в связи с новой торговой политикой Трампа?
4 - Как законодатели, конгрессмены, другие политические акторы принимают решения вместе? Это все актуально для Америки, когда разные политические группы могут создавать коалиции и вместе спонсировать продвижение какого-то закона (лоббизм).
5 - Как происходит лоббирование определенных интересов?
6 - Что там еще новенького происходит в Твиттере? Конечно, без Твиттер-исследований сегодня не обходится ни одна конференция по сетям. Исследователи политических сетей часто смотрят на сети хэштегов по какой-то политически важной теме или протестному событию, на сети коммуникаций между представителями различных партий.

Белый Дом - место, где принимаются важнейшие политические решения. Фото автора.

Знает ли интернет, что ты пробежала быстрее всех?
Особым гостем конференции PolNet был Альберт Ласло-Барабаши, который прочитал лекцию о том, как формируется успех. Его лекция не была напрямую связана с темой политических сетей, а была о важности сетей в более общем смысле. Уже несколько лет его интересует вопрос, как оцениваются достижения и формируется успех в разных сферах: в спорте, в науке, в искусстве, то есть в таких сферах, где понятие успеха очень относительное и оценить достижения с высокой объективностью очень сложно. Он отметил, что важно понимать, что успех и достижения крепко связаны, однако они не обозначают одно и то же. "Достижения это о тебе, успех - это о нас", - емко сформирулировал Барабаши основное различие между этими понятиями. Достижения - это оценки, баллы, все то, чем оцениваются наши действия. Например, спортсменка пробежала быстрее всех и заняла первое место. Это одно из ее достижений. Успех - это признание со стороны публики, популярность и известность. Об этой спортсменке знает большое количество людей, о ней постоянно пишут в газетах, обсуждают ее в интернете? Значит, у нее также есть и успех. Вопрос, который интересует Барабаши - можем ли мы предсказать успех, зная что-то о достижениях? Казалось бы, ответ очевиден (конечно, можем!), однако, как оказывается, не все так просто.

Когда приходит успех?
Проанализировав большое количество данных о достижениях в различных сферах, Барабаши с коллегами пришли к выводу, что успех может прийти в любой момент карьеры. То, когда ты опубликуешь свою лучшую статью, напишешь лучшую картину, пробежишь быстрее всех - как правило, непредсказуемо. "Успех ничему нас не учит и мы едва ли можем его предсказать", - подытожил Барабаши. Однако, по его мнению, мы все равны перед миром идей. Они витают в воздухе и кто-то из нас более цепок в вылавливании новых идей, а у кто-то - нет. При этом у каждого из нас естьнавыки для воплощения идеи в жизнь. Эти навыки - результат тяжелой работы, большого количества тренировок, проб и ошибок, а также помощи других, более опытных коллег и партнеров. Однако даже если мы нашли хорошую идею, сумели ее воплотить в жизнь, это не всегда означает приход успеха. Успех зависит не только от наших усилий, но и от окружения и, что немаловажно, от удачи и случая.

Необъективность экспертов
Успех и признание зависят от того, кто именно оценивает. Проблема с оцениванием лучших в том, что оценивающие эксперты не могут быть полностью объективными. Барабаши привел пример того, что в одной из мировых консерваторий обратили внимание на то, что большинство исполнителей - мужчины. Чтобы исключить эффект того, что мужчины-эксперты отбирают других мужчин-исполнителей, в этой консерватории устроили слепые прослушивания, когда оценивающие эксперты не могли видеть исполнителя, а только слышать игру этого человека во время отбора. Казалось бы, эксперимент шел удачно, однако выяснилось, что во время слепых прослушиваний эксперты все равно отобрали мужчин-исполнителей. Может быть, мужчины действительно более талантливые и опытные музыканты, чем женщины? Через какое-то время эксперимент был скорректирован - в зале прослушивания догадались постелить ковер. Как только появился ковер, эксперты стали отбирать примерно равное количество мужчин и женщин. Все дело было в том, что по стуку каблуков можно было догадаться, что исполнитель женщина, что сразу же помогало навешивать ярлыки на исполнение и технику игры. Барабаши привел этот курьезный случай как пример того, что отбор и оценивание успеха могут быть очень субъективными.
 Еще одна проблема оценивания - это как выбрать лучшего, если их много? Например, как решить, кому дать Нобелевскую премию (вероятно, одна из самых известных мер успеха в науке), если у статьи 50 соавторов? Ниже приведен пример из презентации Барабаши, когда в соавторах статьи большое количество людей, но Нобелевскую премию 1984 года по физике дали двоим - Карло Руббиа и Симону ван дер Мейру.

Пример из презентации А.-Л. Барабаши. Статья, за которую дали Нобелевскую премию 1984 года по физике. В соавторах большое количество ученых, однако премию получили К. Рубиа и С. ван дер Мейр. Источник изображения.

Барабаши рассказал, как они разработали алгоритм, который позволяет достаточно точно угадывать, кому на самом деле должна достаться премия. Алгоритм смотрит на предыдущие статьи по схожей теме и предсказывает вероятность получения премии тем человеку, который уже работал над этой темой, публиковал схожие статьи и его карьера в большей степени была посвящена этой теме. Казалось бы, очень простой способ определить основного автора,  которому должны следовать эксперты, принимающие решения о различных премиях. Однако, как мы знаем, эксперты не могут быть объективными. В качестве примера Барабаши рассказал историю еще одной Нобелевской премии, которая досталась Х и Y (к сожалению, не помню имен). Согласно их алгоритму, премия должны была принадлежать другому человеку, Z, однако она была в руках его соавторов. Барабаши с коллегами совершили небольшое полевое исследование (все-таки могут физики иногда интересоваться жизнью и вести себя как антропологи!) и нашли этого человека, Z. Как оказалось, он давно ушел из академии, живет в очень маленьком американском городе и работает в совсем другой сфере. Его работой никто особо не интересовался и, когда он решил уйти из университета, он отправил свои материалы Х и Y, которые были единственными людьми, которые проявили какой-то интерес к его работе. Они дописали статью и опубликовали ее под именами всех троих -  Х, Y и Z. Так как Z был вне университета, а X и Y были вполне известными учеными, Нобелевская премия досталась им. Этим примером Барабаши хотел сказать, что социальное положение и социальные контакты - еще одна очень важная составляющая успеха.

Все эти результаты Барабаши с коллегами получили в рамках работы над коллективным проектом Science of Success, или Наука успеха. Более подробно о результатах исследования можно почитать на сайте проекта, а также советуем посмотреть пятиминутное видео, рассказывающее о том, что у каждого есть шанс стать известным (и это научно доказано!):




Что еще почитать по теме:

четверг, 3 мая 2018 г.

Отчуждение любви. Как искусственный интеллект будет решать, на ком жениться

На ежегодной конференции Фейсбук Марк Цукерберг объявил о том, что в скором времени социальная сеть запустит свой сервис знакомств. "В Фейсбуке 200 миллионов человек называют себя одинокими, и с этим точно можно что-то сделать", - заинтриговал Цукерберг. Он отметил, что Фейсбук будет стремиться создавать долгосрочные серьезные отношения (в противовес Тиндеру, где знакомства часто всего лишь на одну ночь). Рекомендации одиноким людям Фейсбук будет выдавать на основании их общих интересов. Чем больше у людей общих увлечений, тем выше будет вероятность того, что они будут интересны друг другу.
С одной стороны, инициатива Цукерберга, как и большинство его инициатив, выглядит очень интригующе. Что может быть лучше человека, разделяющего с тобой твои интересы и увлечения, имеющего схожий взгляд на мир? С другой стороны, после речи Цукерберга возникает ощущение того, что теперь и сфера романтических отношений уходит из нашего прямого контроля, и задача выбора партнера делегируется искусственному интеллекту. Ведь как, по нашему предположению, будет работать сервис? Каждый из нас проводит огромное количество времени в интернете, в том числе и в социальных сетях, и оставляет массу "цифровых следов" (digital traces). Тут кто-то лайкает видео, тут напишет комментарий... Вся эта информация никуда не исчезает, она аккумулируется  и хранится в Фейсбуке и Гугл. Поисковик и социальная сеть знают когда вы встаете, какими аппаратами вы пользуетесь, что вам интересно, каковы ваши маршруты передвижения. И, на основании имеющихся массивов информации о вас и о других пользователях, информационные сервисы могут делать определенные выводы с применением методик искусственного интеллекта, обычно речь идет о машинном обучении.  Вспоминается одна из серий нашумевшего сериала "Черное зеркало", который очень точно описывает возможные результаты от сегодняшнего технологического прогресса. В этой серии некий алгоритм подбирает идеальных партнеров для всех. Этот выбор нельзя отменить, алгоритму нужно какое-то время, чтобы научиться и подобрать идеального партнера. Это значит, что человеку нужно пройти через несколько удачных или неудачных свиданий и отношений, прежде чем алгоритм обучится и подберет идеальную половинку на основе общих увлечений, интересов, переживаний. В одной сцене партнеры разговаривают о прелестях такой жизни: "Как прекрасно, что больше не нужно ничего делать, искать партнеров самим! Не представляю, как это было в прошлом - нужно было самим знакомиться, организовывать свидания, думать об интересах другого...".



Самый просто пример, и уже даже хрестоматийный пример того, как работают алгоритмы Фейсбука - это таргетированная реклама. Ваши друзья - люди, ведущие схожий образ жизни, если они любят джинсы Levi's, скорее всего, они понравятся и вам - поэтому тартегированной рекламы вам в ленту. Сразу видно, что искусственный интеллект в данном случае не означает создания гениального робота, который стремится к миру во всем мире, устранению парникового эффекта и спасению вымирающих видов животных. Вовсе нет. Сегодня искусственный интеллект - это стандартные методики машинного обучения, но на огромных массивах персональных данных. И практика показывает, что чем больше данных сервисы используют для обучения своих моделей, тем более точными становятся их предсказания. Получается, что отправной точкой для искусственного интеллекта служат именно данные, а не социальные закономерности. Так что любая ошибка в данных может привести к существенным смещениям результатов и к принятию неверного решения. К примеру, многие используют Фейсбук для профессионального позиционирования, и с большой долей вероятности таким Ромео алгоритм по подбору партнеров будет предлагать вероятных партнеров по бизнесу, но не вторых половинок. Хотя, и от новых бизнес-партнеров тоже может быть толк.

Подводя итог, еще раз хотим обратить внимание на планомерное "отчуждение принятия решений". Обладая мощным предсказательным потенциалом, искусственный интеллект становится все более востребован в процессе принятия решений. Инструменты искусственного интеллекта используются в продажах, рекрутинге, юриспруденции, банковской деятельности, и, согласно одному из недавних номеров журнала The Economist, в будущем будут использоваться в еще большем количестве сфер. Мы не можем отрицать высоких перспектив машин, но все же это наша жизнь, принимать в ней решения и нести за них ответственность выпало на нашу долю. Не забывайте.

понедельник, 29 января 2018 г.

Безмасштабные сети и сферические коровы

Теория сетей покоится на трех столпах. Первый основополагающий принцип сетевой теории – это гомофилия. Это значит, что похожие люди будут формировать друг с другом связи. Второй – транзитивность, то есть друг моего друга – мой друг. Третий – социальные сети безмаштабны (scale-free). Иными словами, распределение степеней вершин в сети подчиняется степенному закону – в сети присутствует большое количество людей, у которых очень мало связей, и совсем немного тех, у кого связей очень много. И в начале этого года третий столп решили подпилить.

Распределение центральности в случайных графах и реальных социальных сетях. На графике слева мы видим нормальное распределение, то есть все акторы в среднем имеют одинаковое количество связей. На графике справа мы видим распределение по степенному закону, то есть в сети есть небольшая доля акторов с очень большим количеством связей, но большинство имеет достаточно малое количество связей. Рисунок с сайта Network Science

Безмасштабность сетей подробно изучается уже почти 20 лет Альбертом-Ласло Барабаши и его группой. Они  проанализировали гигантское количество сетей и в каждой из них обнаружили подтверждение степенного закона.
Однако исследователи Анна Бройдо и Аарон Клаузет (про него можно подробно почитать тут) из университета Колорадо и Санта Фе проанализировали около тысячи социальных, биологических, технологических и информационных сетей и на днях пришли к выводу, что не все так однозначно с этими сетями. В технологических и биологических сетях распределение больше похоже на безмасштабное, а вот в социальных сетях оно уже лог-нормальное. То есть много людей, у которых среднее количество связей. А вот в животном мире как раз много тех, кто живет изолированно, а активно взаимодействующих особей очень мало.

Cферическая корова. Источник изображения.

Результаты Бройдо и Клаузета сейчас очень активно обсуждают. Кто-то хвалит исследователей за смелость, кто-то призывает заниматься насущными проблемами, а не изучать в сотый раз распределение центральностей. Выдвигаются и конспирологические теории. Некоторые подозревают, что дискуссия была искусственно создана для подогрева интереса к конференции NetSci, организатором и вдохновителем которой является сам  А.-Л. Барабаши. В Твиттер-обсуждении статьи А.-Л. Барабаши, написал, что «Каждые пять лет кто-то с ужасом пишет, что степенной закон не подходит ко многим реальным сетям. На самом деле у реальных сетей могут быть отклонения и приписывать его [степенной закон] ко всем сетям все равно, что вписывать корову в шар». 

четверг, 3 августа 2017 г.

"Вне контакта". Вспомним, что мы могли изучать, когда данные "ВК" были открытыми.



31 июля газета «Известия» написала о том, что Роскомнадзор (РКН) запретил сторонним компаниям собирать открытую персональную информацию пользователей «ВКонтакте». Это ставит под вопрос проведение многих онлайн-исследований, так как «ВК» предоставлял возможность свободного доступа к открытым данным, чем активно пользовались и мы, и наши коллеги. В этом посте мы решили вспомнить некоторые работы, которые были сделаны на данных из «ВК».

Протесты
Динисса Дуванова с соавторами проанализировали структуру политических обсуждений в «ВК» в регионах Украины. Ученые показали, что пользователи предпочитают взаимодействовать с теми, кто разделяет их политические взгляды. Получается, что хотя онлайн-сети и имеют все шансы стать полноценной площадкой для политических дискуссий, эти возможности на практике не реализуются.
Мария Петрова и Рубен Ениколопов с коллегами также провели несколько исследований о взаимосвязи социальных сетей и протестов. Они показали, что чем выше уровень проникновения «ВК» в регионе, тем выше вероятность протеста и число участников протеста (подробнее читайте здесь). Исследователи также предположили, что участие в онлайн-группе существенно повышает вероятность участия в реальном протесте (все исследование здесь).

Здоровье
Петр Мейлахс, Юрий Рыков, Олеся Кольцова изучили группы посвященные СПИДу в «ВК» и выяснили, что группы, посвященные разным задачам имеют разную сетевую структуру дружбы и коммуникаций. Например, в группах, которые посвящены знакомству ВИЧ-положительных пользователей, преобладают связи между разнополыми пользователями. Особо подробно изучены группы «СПИД-диссидентов» - тех людей, которые отрицают факт наличия СПИДа. Авторы приходят к выводу, что в группах происходит формирование «эхокамеры», то есть в группе постоянно циркулируют одни и те же идеи, а альтернативные точки зрения не рассматриваются. Об исследовании можно прочитать здесь и здесь.

Образование 
        Иван Смирнов изучил тексты пользователей «ВК» за девять лет и пришел к выводу, что с возрастом пользователи «ВК» начинают употреблять более длинные слова (исследование можно прочитать здесь). Полученные результаты автор сопоставляет с «эффектом Флинна», по которому IQ населения в целом растет с течением времени.



        Иван также анализирует связи студентов и школьников в «ВК». В одном из своих исследований он показал, что и студенты, и школьники склонны формировать онлайн-связи (в данном случае в качестве связей были «лайки» в «ВК») с людьми со схожими академическими достижениями. Казалось бы, онлайн должен был бы способствовать общению всех со всеми, но, видимо, сегрегация настолько присуща человеческой природе, что студенты даже лайкают тех, кто также учится.

Мы тоже изучали социальные связи студентов «ВК» (статьи можно почитать тут и тут). Мы ставили перед собой задачу понять, каким образом студенты формируют друг с другом связи на самых начальных этапах обучения в университете, в течение первых же недель, и что с ними происходит после. Оказалось, что на первых порах студенты стремятся сформировать связи хоть с кем-то из курса или потока, а со временем формирование связей начинает происходить уже более выборочно. Например, студенты больше и активнее добавляют своих одногруппников и тех людей, с кем у них есть общие интересы.
Закрытие доступа к данным «ВК» говорит о необходимости поиска новых источников данных. «Фейсбук» довольно давно жестко регулирует доступ к персональным данным пользователей, поэтому скачать что-то оттуда вряд ли получится. А вот данные из Твиттера все ещё открыты и доступны для анализа (про анализ мемов в Твиттере можно почитать здесь).