Показаны сообщения с ярлыком неравенство. Показать все сообщения
Показаны сообщения с ярлыком неравенство. Показать все сообщения

среда, 20 марта 2019 г.

Скандалы, интриги, расследования и степенной закон


Есть вещи, за которыми можно наблюдать бесконечно. Течение ручья, пламя костра, скандалы, интриги, расследования вокруг степенного закона в сетях. Итак, напомним, чем закончилась предыдущая серия нашего шоу. В начале 2018 года Анна Бройдо и Аарон Клаузет публикуют на arxiv препринт “Scale-free network are rare”. В этой статье на обширном эмпирическом материале они показывают, что на самом деле степени центральности у сетей обычно распределены лог-нормально, а не в соответствии со степенным законом. Иными словами, модель безмасштабных сетей, разработанная А.-Л. Барабаши и Р. Альтерт, может быть ошибочной.
Реакция общественности была разная. Кто-то посчитал это важным эмпирическим результатом, кто-то посетовал на недостаточное количество хороших исследований по сетям и жажду хайпа, а Альберт-Ласло Барабаши призвал коллег думать не об эмпирических подтверждениях, а о механизмах, формирующих социальные системы. Обсуждения в Твиттере были такими жаркими и насыщенными, что ученые уже не казались отстраненными обитателями башни из слоновой кости. Это была практически дуэль в прямом эфире!


Разница между случайными и реальными (например, социальными) сетями. В случайных сетях (слева) у каждого узла примерно одинаковое количество связей. В реальных сетях (справа) есть небольшая группа узлов с очень большим количеством связей, однако большинство узлов имеют достаточно малое количество связей. Источник изображения.


Прошел год, но интерес к теме не утихает. Наконец, статья Бройдо и Клаузет вышла в Nature Communications. Петер Холм в своем комментарии для Nature Communications постарался увязать между собой и теоретическую модель Барабаши-Альберт, и эмпирические результаты Бройдо и Клаузета. При этом в конце 2018 подоспела статья (пока тоже на arxiv) про то, что “scale-free network well done”. Не будем удивляться, что большинство авторов статьи из Northeastern University, где работает и Барабаши, один из основателей модели безмаштабных сетей.
И вот, анализируя то, что происходит, хочется задать вопрос - почему это распределение вызывает столько дебатов? Ведь подавляющее большинство исследователей охотятся не за распределениями, а за объяснением того, что за механизм лежит в основе этих распределений. Барабаши и Альберт не открывали Америку, механизм предпочтительного присоединения в социальных науках известен давно. Это эффект Матфея, по которому распределение благ происходит неравномерно. В случае сетей - популярные люди с течением времени становятся все более популярными. И если эффект Матфея работает и в случае социальных, и других типов сетей, то это важный механизм. Однако могут ли какие-то отдельные особенности распределения и его хвостов опровергнуть этот эффект? В общем, продолжаем следить за сериалом и размышляем, будет ли в результате этой дискуссии выявлен еще какой-то интересный содержательный результат или все же нет. Не хотелось бы, чтобы именитые ученые тратили бы ресурсы на борьбу за амбиции.

четверг, 28 июня 2018 г.

Как написать научную статью на одну страницу и получить Нобелевскую премию

Многие конференции начинаются с воркшопов, и конференция NetSci 2018 в Париже не стала исключением. NetSci - это ключевая конференция по сетям, ежегодно проводится обществом сетевых исследователей. Она началась с семинара, на котором редакторы Nature и три известных исследователя рассказали о том,как написать статью, которую примут в лучшие научные журналы, такие, как Nature и Science. Это был закрытый семинар, поэтому не будет упоминаний имен его участников. 
Мы считаем, что таким знаниям пропадать нельзя и делимся ими с нашими читателями. 

Зачем мы пишем статьи
Рассказ редактора из журнала Nature о том, как написать Nature-публикабельную статью показался мне одним из самых лучших воркшопов за всю мою жизнь. Хотя большинству статей эти редакторы и отказывают, я могу с уверенностью утверждать, что как минимум один из них очень профессиональный и человечный.
Итак, для того, чтобы научиться хорошо писать статьи и публиковать их, необходимо понимать, зачем мы это делаем. На вопрос «Для чего вы пишите и пытаетесь опубликовать статьи?» ведущий семинара получил очень честные ответы: «Без статей я не устроюсь на хорошую работу», «Без статей я не получу финансирование по грантам и мне будут отказывать в финансировании в будущем», а также другие вариации на тему «Статьи -> Деньги». Но если постараться немного абстрагироваться от сложной жизни ученых (мы про нее еще обязательно напишем), то публикация статьи в идеале – это возможность донести результаты исследования до определенной аудитории. У каждого журнала эта аудитория своя.
NatureSciencePNASScientific ReportsPLoSNature Communications – журналы для широкой аудитории, их читают как  ученые из самых разных дисциплин, так и просто интересующиеся последними научными достижениями люди. Именно поэтому для публикации в таких изданиях отбираются прорывные исследовательские работы. Так что если решено писать статью в Nature, то это должна быть выдающаяся статья, прочитать которую сможет неспециалист в вашей области. Для этого нужно не просто уметь хорошо анализировать данные или писать обзор уже существующей литературы по теме. Самое важное – сориентироваться в том, какую содержательную лакуну заполняет собой эта исследовательская работа и в чем ее Новизна.
Источник изображения.
Начнем сначала
«Лицо статьи» - это ее название. Каким оно должно быть, чтобы привлечь внимание редактора, не смутить рецензентов и пройти отбор среди лучших статей? Редактор сказал, что оно должно быть коротким, емким и захватывающим. В название не стоит включать аббревиатуры, делать его смешным или формулировать в форме вопроса. Примеры хороших названий: «Групповая динамика сетей малого мира» (Collective dynamics of “Small-world” networks) и «Сеть сексуальных контактов людей» (The web of human sexual contacts). Кажется, что ничего сложного, а на самом деле всего в нескольких словах заключается очень много смысла, поэтому придумать его непросто.

Наряду с названием, очень важную роль в потенциальной успешности статьи играет ее аннотация. В аннотации должно быть отражено четыре момента: 
1) общий контекст; 
2) введение в проблему; 
3) ключевые результаты исследования 
4) итоги и перспективы. 
Хотя каждый из пунктов можно расписывать очень подробно, стоит помнить, что краткость, а не графомания, сестра таланта. Сегодня люди намного реже читают большие по объему тексты, мы все больше и больше теряем концентрацию внимания. Поэтому важно держать читателей заинтересованными именно очень концентрированными и содержательными аннотациями.

Пример аннотации с указанием смысловых блоков. Оригинал статьи.

А что внутри? 
Сегодня структура статьи в Nature и Science следующая: введение, результаты и заключение. Обычно это порядка 6-8 страниц, и в дополнительных материалах идет описание методики и данных, иллюстрации, дополнительные материалы и код. Скажем честно, для социологов, политологов и экономистов, привыкших порой к 30-50-и страничным статьям (брошюрам?) такие короткие концентрированные статьи могут показаться дикостью. Однако содержание статьи и описание процедур никуда не уходит – оно перемещается в дополнительные материалы, делая основное «тело» статьи более элегантным, кратким и, чего уж греха таить, более цитируемым. «Статьи сегодня становятся похожими на Википедию. Если вы хотите что-то более глубокое – переходите по ссылке и наслаждайтесь. Но не надо заставлять наслаждаться этим всех», - тонко заметил ведущий семинара.

Краткость, и краткость, и краткость - наше будущее
Хотя семинар был практически-ориентированным, под конец не обошлось без философии. Участники немного порассуждали о том, как будет трансформироваться институт научных публикаций. Некоторые предположили, что статьи станут еще короче, этот прогноз также поддержал и представитель Nature. Он отметил, что подавляющее большинство великих исследований можно уместить на паре страниц. Например, Уотсону и Крику удалось рассказать о молекулярной структуре ДНК на одной странице журнала Nature и получить за это Нобелевскую премию. 

Статья про структуру ДНК, за которую Уоттсон и Крик получили Нобелевскую Премию. Источник изображения.

Что говорят ученые
Скажу честно, доклад редактора Nature произвел на меня очень большое  впечатление. С самого начала я настроилась на то, что каждый из трех исследователей не будет раскрывать всех деталей подготовки и публикации своего научного исследования, а расскажет о содержании своей работы. Так оно и получилось – большую часть времени ученые говорили не о том, как писать статьи и публиковать их, а о том, чем они сами занимаются (что тоже очень интересно).
И все же отметим некоторые важные моменты на протяжении этой дискуссии. 
Первое, что бросалось в глаза – ученые, даже самые богатые и знаменитые, очень гордятся своими статьями в PNAS, Nature, Science и других ключевых журналах. Казалось бы, в определенный момент это должно стать рутиной, но это не так. Научная статья – это большое достижение не только для аспирантов (которые обычно все делают), но и для профессоров. 
Второе, что отметили абсолютно все исследователи – хорошая статья пишется долго и коллективно. Хотя некоторые исследования выглядят «просто и элегантно, это можно посчитать на коленке за полчаса» - за каждой из статей лежит колоссальная работа научно-исследовательского коллектива, в который входят аспиранты, постдоки и профессора. Большая наука не делается «на коленке», как бы нам этого ни хотелось.
Третье, у каждой статьи должен быть «запасной план». Обычно он выглядиттак: Nature -> Science -> PNAS -> Nature Human Behaviour -> Nature Communications -> Scientific Reports.
Ну и, наконец, расскажу про один факт из жизни ведущих исследователей, который привел в недоумение, если не сказать ужас, молодых исследователей. Один из коллег рассказывал о траектории движения своей статьи, которая в итоге была опубликована в хорошем журнале. Он отметил, что после подачи в первый журнал был получен отказ в публикации от редактора на основании нескольких негативных рецензий, но один из авторов, (разумеется, один из ведущих исследователей-соавторов) не согласился с таким исходом и настоял наповторном рассмотрении статьи, и в итоге добился своего. Участники семинара буквально открыли рты в безмолвном вопросе «а что, так можно было?!». На семинаре группа обсудила этот случай и пришла к выводу, что о пересмотре решения редактора можно думать только в случае очень сильной переговорной позиции авторов (или одного из них) и их «наработанном» социальном капитале. На ум сразу приходит аналогия опредпочтительном присоединении – чем ты круче, тем больше у тебя вероятность опубликоваться в хорошем журнале. И не просто потому, что ты умный и делаешь крутые исследования, а потому что ты заработал социальный капитал и понимаешь, как им пользоваться.

Что еще почитать по теме?

- Наш пост о том, как стать успешным ученым (об этом мы узнали от очень успешного Барабаши).

- Наш пост о социальных компьютерных науках (которые постоянно публикуются в Nature).

- Немного про ссоры тех, кто публикуется в Nature.

вторник, 23 января 2018 г.

Гороскопы, большие данные, школьники ВКонтакте: интервью с Иваном Смирновым



Мы поговорили с Иваном Смирновым о том, почему одни школьники ВКонтакте интересуются гороскопами, а другие - стихами, как приходят идеи для новых исследований, и почему о мире можно узнать всё из журнала The Economist.

Иван - руководитель группы в Институте Образования ВШЭ, которая занимается применением методов data science к исследованиям образования.

                                   
Ты учился на математика, а потом на биолога, и сейчас занимаешься социальными исследованиями: образованием и взаимоотношениями школьников в онлайне-сети ВКонтакте. Расскажи, почему ты решил перейти в другую область, и насколько тяжело это было?

Биологию я изучал в Центре Междисциплинарных Исследований в Париже. В центре была очень необычная атмосфера по сравнению с тем, к чему я привык в России. Вместо иерархической и негибкой системы российских университетов здесь ученые с мировым именем общались со студентами на равных, обучение строилось вокруг исследовательских проектов, а вместо экзамена могла быть командная защита проекта. При этом студенты могли сами формировать программу своего обучения, объединяться в клубы, приглашать лекторов и т.п. Все это меня вдохновило на исследования образования, и я решил, что хочу делать что-то подобное в России.  Я решил, что сначала нужно в этом разобраться, поэтому поступил в аспирантуру по образованию.

Переход был легким. Мне кажется, сложно бывает, если человек насильно попадает в другую среду и должен отказываться от всего, к чему привык. А я пришел в новую область, потому что мне это было интересно, и я хотел этим заниматься. Думаю, легко было еще и потому, что это был не первый переход. Когда таких переходов накапливается достаточное количество, то ко всему начинаешь относиться проще. Один из моих научных руководителей Александр Сидоркин приводил такой пример: в российской традиции принято придавать большое значение разделению объекта и предмета исследования, на эту тему могут даже вестись ожесточенные споры. Но в английском языке и то, и другое обозначается одним словом, и человеку, побывавшему в англоязычной средe поэтому проще не придавать этому значения.

Единственная трудность, наверное, заключалась в том, что иногда даже от признанных специалистов в новой области доводилось слышать вещи, которые, как я знал благодаря предыдущей квалификации, очевидно ложны. При этом все в аудитории, вроде бы, согласны. В такие моменты чувствуешь себя участником эксперимента Аша на конформизм и начинаешь сомневаться в собственной адекватности. Помогало то, что потом попадались источники, подтверждающие мои мысли, и я чувствовал, что я не совсем один. Вот это чувство одиночества мне кажется важной проблемой. Поэтому у меня есть такое правило, что если кто-то в обсуждении уже высказал примерно то же самое, что ты, то не стоит это лишний раз повторять, но вот если замечаешь, что все вокруг говорят одно, а ты думаешь другое, то важно это высказать, потому что может быть в аудитории сидит кто-то и начинает зря сомневаться в самой себе.

Дружеские связи между школьниками ВКонтакте в Санкт-Петербурге. Узлы - школы, связи - дружба в сети ВКонтакте между учениками школ. Источник: визуализация И. Смирнова.

Твоя недавняя статья о том, что со временем школьники пишут все более сложными фразами ВКонтакте, и интернет не ухудшил их грамотность, как многие думают. Такая идея, казалось бы, могла вполне возникнуть при разговоре с нашими родителями, которые сетуют на то, что молодежь стала меньше читать книжек и стала более неграмотной, чем раньше. А как к тебе приходят идеи о новых исследованиях? Ты много читаешь о том, что делают другие исследователи, или идеи приходят и при обычных разговорах с близкими?

Я думаю, если бы меня попросили сесть и придумать что-то, то это бы у меня не получилось, даже несмотря на то, что под рукой был бы интернет с практически безграничной информацией. Идеи обычно рождаются как-то по-другому. Вначале ты чем-то заинтересуешься, и мысль поселяется у тебя в голове. После этого ты живешь обычной жизнью, но иногда попадается какая-то статья, на которую ты в иной ситуации не обратил бы внимания, но, так как у тебя в голове где-то на заднем плане есть эта мысль, то замечаешь, что статья может быть с ней связана, мысль как-то обогащается и остается в твоей голове, пока в какой-то момент не превратится в удачную идею. Поэтому мне кажется важным не только количество входящей информации, статей или случайных разговоров, которые спровоцируют рождение идеи, но и постоянное нахождение в голове большого количества разных мыслей.

У тебя есть свой блог на Медиуме, где ты пишешь о том, что в интернете до сих пор существует социальное неравенство. Например, успевающие ученики интересуются лучшими стихами великих поэтов и интересными фактами, а менее успевающиегороскопами. Насколько было сложно объяснять такие, казалось бы, анекдотичные результаты коллегам, которые привыкли работать с более традиционными данными, а не с данными из социальных сетей?

Это не совсем блог, скорее, эксперимент, в котором я хотел в серии популярных заметок рассказать о результатах своей диссертации. Хорошо известно, что текст диссертации часто никто кроме автора не читает полностью. Даже научный руководитель. По-моему, это нелепо.

Что касается вопроса, то проблема у меня, скорее, в обратном. Анекдотические истории и разные красивые картинки отлично воспринимаются публикой, а когда я пытаюсь говорить о деталях, то все машут рукой: ну да, ну да, какие-то технические подробности, мы верим, что ты все сделал правильно. Вот это не очень хорошо. Люди любят обсуждать и интерпретировать результаты, и недостаточно сомневаются в их достоверности. При этом чем сложнее методы, тем охотнее люди им верят. Часто ссылаются на какую-нибудь продвинутую статистическую модель, которая благодаря своей сложности должна разрешить все вопросы. Чем сложнее модель, тем охотнее ей верят люди, хотя должно быть наоборот. Любое усложнение модели требует дополнительных предположений, часто эти предположения не проверяются, а иногда даже заведомо ложны.

Ты сейчас руководишь новой лабораторией в Высшей школе экономики, которая занимается онлайн-поведением школьников. Расскажи подробнее, чем вы планируете заниматься.

Наши исследования можно отнести к двум темам: “Неравенство в цифровом веке” и “Благополучие учащихся в цифровом веке”. Неравенство — классическая тема для социальных исследований, однако развитие технологий ставит новые вопросы. Например, многие надеялись, что распространение интернета приведет к уменьшению неравенства, так как он предоставляет всем равный доступ к практически ко всему человеческому знанию. Но в реальности, похоже, происходит обратное. Развитие технологий не только ставит новые вопросы, но и позволяет нам собирать гораздо большее количество данных с гораздо большим разрешением. Мы можем не только констатировать сам факта неравенства, но и изучать его в динамике, отслеживать детальную эволюцию. Это в свою очередь может помочь найти способы борьбы с ним.

Вторая тема, о благополучии учащихся, мне кажется, важна потому, что результаты образовательной системы обычно оцениваются через образовательные достижения, то есть, через оценки учащихся. Но благополучие учеников не сводится только к их академической успеваемости. Интересно понять, а как они себя чувствуют, какой у них уровень тревожности, достаточно ли они спят, нет ли у них проблем в социальной жизни. Здесь технологии снова играют двойную роль. С одной стороны, они могут влиять на все эти процессы, а с другой, впервые позволяют нам их детально изучать за счет данных из социальных сетей, мобильных устройств и подобных источников.


Связи лайков Вконтакте между учащимися Высшей Школы Экономики, которая имеет кампусы в Санкт-Петербурге, Перми и Нижнем Новгороде. Узлы - студенты, связи - дружеские связи между ними ВКонтакте. Фиолетовые узлы - первокурсники, красные - второкурсники, зеленые - третьекурсники, бирюзовые - четверокурсники. Источник: визуализация И. Смирнова.

Какие темы сейчас популярны в твоей области? Чем многие занимаются?

Сейчас в социальных исследованиях набирает популярность использование последних достижений в области машинного обучения, таких, например, как глубинное обучение. В недавно опубликованной статье авторы обучили алгоритм предсказывать по фотографиям из Google Street View демографические характеристики района. Подобные работы позволяют получить точные оценки характеристик, которые было бы невозможно собрать в больших масштабах. Например, научившись предсказывать уровень депрессии по твиттам, можно затем построить детальную карту депрессии целой страны, а затем выявить факторы, которые с ней связаны, и получить новое знание.

В другой работе исследовалось гендерное неравенство на популярном сайте для дизайнеров. Авторы обнаружили, что работы мужчин получают в среднем больше лайков. Тогда они обучили нейронную сеть предсказывать пол автора по картинке. Им удалось добиться достаточно высокой точности. После этого они добавили предсказанный моделью пол в свою модель и выяснили, что именно он, а не фактический пол определяет большее количество лайков. То есть пользователи предпочитают не мужчин-авторов, а определенный тип картинок, и этот тип картинок гораздо чаще рисуют мужчины.

Еще могу порекомендовать книжки:

Какие программы ты используешь для анализа своих данных? За кого ты в противостоянии R и Python?

Когда я впервые решил посмотреть на данные ВКонтакте, то написал скрипт на PHP, а для визуализации использовал одну из библиотек JavaScript. Я долгое время работал веб-разработчиком, и это были наиболее комфортные для меня языки программирования. Потом мне потребовалась статистика и я вначале считал в MATLAB, а потом, когда не нашел необходимой мне функции, установил R. Нетрудно догадаться, что использование большого количества технологий не очень эффективно. Так что я решил перейти Python и теперь весь процесс от сбора данных до финальных графиков у меня в одной среде, это очень удобно. Хотя я занимаюсь программированием больше десяти лет, а на Python перешел только недавно, я уже не могу себе представить свою жизнь без него. Это язык с минимальным порогом вхождения и большой выразительностью. Ну, и это де-факто стандарт в data science.

Мы знаем, что ты читаешь все номера журнала The Economist. Расскажи, что еще ты читаешь, слушаешь или смотришь, чтобы быть в курсе того, что происходит в научном мире?

Иногда я думаю о том, что если бы мне нужно было выбрать между тем, чтобы отказаться от The Economist или отказаться от всех остальных источников информации, то я выбрал бы последнее. Это может показаться странным, но я воспринимаю это как обычное разделение труда. Если кто-нибудь хочет купить себе автомобиль, он не пытается собрать его сам, а вместо этого доверяет автомобилю, сделанному компанией-специалистом. Точно так же я доверяю сбор и анализ информации о мире лучшей в этой области компании. Для того чтобы следить за тем, что происходит в области data science, я подписан на еженедельную рассылку Data Science Community Newsletter.

Что касается научного мира, то тут у меня другая стратегия. Здесь я слежу за теми людьми, которые мне кажутся интересными. Почти у всех западных ученых есть активный Твиттер, так что я подписываюсь на него. И в дополнение подписываюсь в Google Scholar на уведомления о новых статьях интересных мне авторов. И стараюсь посещать лучшие конференции в той области, которой занимаюсь. Это мне кажется обязательным. Если посетить ведущую конференцию в интересующей области, то можно сразу составить хорошее представление о том, что в ней происходит. Такую же картину сложно получить удаленно, так как статей публикуется слишком много. В этом смысле конференция служит эффективным агрегатором, таким же как The Economist, или Data Science Community Newsletter.

Как проходит твой обычный день? Как ты занимаешься исследованиями, что делаешь в течение дня?
У меня есть три режима: писать, считать и думать. Писать я могу только в первой половине дня, хотя я и сова. И только после чашки кофе. Обычно мне сложно сконцентрироваться на написании текстов, поэтому я выделяю себе на это побольше дней, так чтобы за один раз можно было написать не так много. Считать я, наоборот, могу очень долго и, когда пишу какой-то код, легко могу засидеться на работе до десяти вечера или дома глубоко за полночь. А думаю я, когда куда-нибудь иду. На работе для этого приходится ходить туда-обратно по коридору :)



***
Что еще можно почитать на связанные темы:
Еще один гостевой пост в нашем блоге от Егора Лавренчука. О том, как математик Эйлер однажды задумался о загадке семи мостов Кенигсберга: "можно ли пройти каждый мост по одному разу и вернуться в исходное место?", и как это вылилось затем в изучение графов, сетей, интернета, и запутанных отношений между людьми -- во все то, чем мы занимаемся сейчас.
* Иван советует рассылки, на которые он подписан и за которыми регулярно следит. Мы ранее делали подборку рассылок, которые спецализируются на анализе социальных сетей.
* Краткую версию статьи Ивана о том, что со временем пользователи ВКонтакое становятся грамотнее, можно почитать на MIT Technology Review.