Ученые из Университета Северной Каролины обнаружили, что женщины, зарегистрированные на GitHub, лучше справляются с редактированием кода, чем мужчины. При этом женщины, которые не скрывали свой пол, показывали худшие результаты. Препринт статьи опубликован на сайте peerj.com.
Авторы исследования воспользовались данными, полученными через GHTorrent в апреле 2015 года и содержащими информацию о пользователях, проектах и запросах на внесение изменений в код. Исследователи также изучили веб-страницы ресурса на предмет статуса запросов, описания и комментариев.
Для определения пола разработчиков ученые применили несколько подходов. Во-первых, они через поисковые системы по email-адресам находили профили пользователей в социальных сетях, откуда с помощью специальных программ извлекали данные о гендерной принадлежности. Во-вторых, авторы использовали программу, определяющей пол человека по его имени, указанному в соответствующем поле в профиле. Исследователям удалось установить пол 35 процентов пользователей платформы, что соответствует примерно полутора миллионам человек.
В качестве показателя успешности исследователи использовали долю принятых запросов на внесение изменений — то есть одобренных правок в код — от общего числа запросов у каждого пола, и обнаружили, что у женщин эта доля составляет 78,6 процентов, тогда как у мужчин несколько меньше — 74,6 процентов. Оценив, какова доля успешных запросов у каждой женщины в отдельности, авторы обнаружили, что пользователи женского пола разделяются на две основные группы: те, у кого меньше 10 процентов принятых изменений, и те, у кого больше 90 процентов.
Ученые рассмотрели несколько возможных теорий, объясняющих такое распределение. Сначала они предположили, что первые неудачи, которых у недавно зарегистрированных женщин могло быть больше, чем у мужчин, негативно сказываются на дальнейшей активности пользователя на GitHub. Те же, кто оставался, склонны улучшать результаты своего труда, вкладывая в это больше сил, чем мужчины. В этом случае доля принятых запросов у недавних участников должна была быть ниже для женщин, чем для мужчин-новичков. Ученые проверили долю одобренных изменений для разных периодов времени, и обнаружили, что женщины, показывают результаты лучше, чем мужчины, вне зависимости от даты регистрации.
Исследователи также предположили, что женщины принимают участие в более важных проектах, для которых доля одобренных изменений могла быть выше или женщины-разработчики могли делать легкие и многочисленные правки. Для первого случая ученые проверили число запросов, в описании которых были даны ссылки на проект — это могло служить признаком, что работа имела важное значение. Однако доля таковых у женщин оказалась ниже. Во втором случае исследователи оценивали число добавляемых строк в коде, которое у женщин оказывалось больше, чем у мужчин.
Еще одно возможное объяснение результатов заключалось в том, что имело значение, в какой именно код вносились правки. Например, изменения в HTML имеют большую вероятность быть принятыми, чем правки в С-код. Сгруппировав запросы по языкам, исследователи обнаружили, что женщины в той или иной степени превосходят мужчин по всем языкам программирования.
Наконец, ученые предположили, что на распределение женщин-программистов по количеству принятых правок может влиять явно видимая по имени гендерная принадлежность. Исследователи сравнили долю принятых запросов между теми пользователями, которые выбрали нейтральное имя, и теми, чей пол можно было определить по имени. Результаты показали, что правки женщин, пол которых можно определить по имени, отклонялись чаще, чем изменения, которые вносили мужчины.
Авторы исследования подчеркивают, что последний результат может быть свидетельством того, что «женщины-программисты являются жертвами дискриминации, несмотря на то, что они являются более успешными разработчиками, чем мужчины». При этом ученые не отвергли других возможных объяснений, например, что женщины, зарегистрированные в GitHub, имеют большую вероятность быть профессионалами в IT-сфере, чем любителями.
GitHub — веб-сервис для хостинга проектов в области информационных технологий и их совместной разработки зарегистрированными пользователями. Авторы проекта размещают открытый код в специальных хранилищах — репозиториях. Пользователи могут редактировать код, посылая запросы на внесение изменений, которые могут быть приняты или отвергнуты. Кроме работы над кодом, участники могут общаться и комментировать правки друг друга. На данный момент в GitHub зарегистрировано 12 миллионов пользователей.
Александр Еникеев