Эволюционное возникновение стратегий поведения «камень – ножницы – бумага»

В.И Грабовский 

Сравнительно недавно появились свидетельства широкой распространенности в животном мире 3-х стратегий поведения самцов, напоминающих известную игру "камень - ножницы - бумага".

Суть этой игры в состоит в следующем. Двое играющих одновременно демонстрируют символические камень (кулак), ножницы (2 пальца), либо бумагу (раскрытая ладонь). Побеждает игрок согласно следующим правилам: камень тупит (побеждает) ножницы, ножницы режут (побеждают) бумагу, а бумага обертывает (побеждает) камень. Одинаковые фигуры остаются при своих (ничья).

                Игрок 2
Игрок 1      
Камень Ножницы Бумага
Камень 0 -1 1
Ножницы -1 0 1
Бумага 1 -1 0

Очевидно, что если игра ведется в популяции игроков, где каждый игрок случайным образом из множества играющих выбирает партнера по игре, то в зависимости от распределения частот встречаемости игроков, с той или иной стратегией выигрышными (в статистическом смысле) могут оказаться редкие стратегии. В этом случае в популяции игроков будет происходить так называемый частотно зависимый отбор. Например, если в популяции игроков преобладающей окажется стратегия «ножницы», то выигрышной окажется стратегия «камень», если преобладающей будет «камень», то выигрышной будет стратегия «бумага» и т.д.

Популяционная игра, подобная этой, нередко реализуется в природе в разных группах организмов (примеры можно найти ЗДЕСЬ). В том числе известно 2 вида ящериц, у которых 3 стратегии поведения самцов выражаются особенно ярко и носители стратегий маркируются цветом.
Живородящая ящерица. 3 морфы самцовПятнистая ящерица. 3 морфы самцов  

ФОТО: LIVESCIENCE.COM

 
Это живородящая ящерица (Lacerta vivipara из семейства настоящих ящериц) живущая в Пиренеях и пятнистая ящерица (Uta stansburiana из семейства игуан) живущая на западе США (см. также ЗДЕСЬ). Оба вида полигамны. Территориальные самцы обитают на своих территориях и охраняют их границы и самок (на территории каждого самца может быть несколько самок). У обоих видов существуют 3 дискретные стратегии самцов, носители которых добиваются успеха (спаривания с самками) различными путями: силой, обманом и кооперацией. Так, носители первой стратегии у живородящих ящериц имеют оранжевое брюшко, а у пятнистых – оранжевое горло. Они агрессивны и, вторгаясь на чужую территорию, оспаривают самок у хозяев территории, и при успехе предприятия, спариваются с ними. Обманщики (у живородящих имеют желтое брюхо, а у пятнистых ящериц – желтое горло), пользуются отсутствием агрессоров на своих территориях и спариваются с их самками. У пятнистой ящерицы такие самцы маскируются под самок и, таким образом, избегают агрессии самцов – хозяев территории. Наконец, самцы кооператоры (у живородящей ящерицы имеют белое брюхо, а у пятнистой – голубое горло) объединяют усилия и противостоят агрессии «оранжевых». Поскольку они никогда не покидают своих территорий, то им не страшны «желтые», которые «сильны» лишь в отсутствии хозяев.

Таким образом, здесь полная аналогия игре «камень – ножницы – бумага»: агрессивные «оранжевые» силой побеждают «бело-голубых», последние непобедимы для «желтых», а «желтые» хитростью и обманом берут верх над «оранжевыми»…

В районах исследований популяциях этих ящериц происходят колебания долей морф с периодом в несколько лет (4-8).

По мнению авторов исследований, сходство социального поведения ящериц, разделенных значительным расстоянием (ок. 8000 км) и временем независимой эволюции (175 млн. лет) может быть обязано наследованием поведения от общего предка. Тогда, сосуществованию трех стратегий поведения самцов у ящериц должно быть, по меньшей мере, 175 млн. лет. Даже если это так, остается открытым вопрос о происхождении разделения стратегий у общего предка, а также о возникновении аналогичных стратегий в других группах организмов. Автор работ по ящерицам, генетик Барри Синерво из Калифорнийского университета в Санта-Круз, считает, что возникновение разделения стратегий поведения самцов может быть обязано разным уровнем гормонального фона у различных особей. Таким образом, для возникновения полиморфизма поведения из первоначально мономорфной по этому признаку популяции, достаточна первоначальная наследственная изменчивость по уровню стероидных гормонов у самцов (с. 205). Если это так, тогда возникает вопрос, почему распространение стратегий не повсеместно, ведь изменчивость уровня стероидных гормонов, как и любого другого признака, есть свойство любой популяции. Таким образом, уместно поставить вопрос о том, достаточно ли этого условия, или требуется что-то еще для возникновения альтернативных стратегий поведения. А если достаточно, тогда возникает другой вопрос: почему существуют мономорфные по признаку стратегии поведения самцов популяции?

Попробуем ответить на эти вопросы, создав простую модель.

Содержательное описание модели [наверх]

На основе клеточного автомата создадим модель популяцию самцов, различающихся по единственному параметру – уровню агрессивности. Различия в поведении этих самцов состоят в том, что они склонны к атакам соседей пропорционально уровню их агрессивности. А именно, самцы с нулевой агрессивностью никогда не покидают собственной территории и никого не атакуют сами, самцы с максимальной агрессивностью делают это всякий раз (на каждом такте игры), а промежуточные по агрессивности самцы атакуют соседей прямо пропорционально уровню их агрессивности.
Вероятность атаки и уровень агрессивности

Связь вероятности атаки самца и уровня его агрессивности

Исход атаки самца агрессора зависит от уровня его агрессивности и таковой у атакуемого соседа. При уровне агрессивности атакуемого равном или выше атакующего, последний отказывается от атаки, в прочих случаях ресурс атакуемого разделяется между ним и агрессором.

Атакующий имеет издержки, связанные с усилиями, затрачиваемыми на атаку, риском получить повреждения и т.д.. Чем ближе по уровню агрессивности объект и субъект атаки, тем выше издержки для агрессора.

Процесс отбора будет имитироваться условием, при котором после каждого такта времени каждая особь будет принимать наиболее успешную стратегию из своего ближайшего окружения. В биологической интерпретации, особи будут вытесняться потомками наиболее успешных соседей.

В целом, поддержание агрессивности имеет некоторые издержки. Именно величина платы за агрессивность и будет единственным управляемым параметром модели. Будет показано, что именно этот параметр, при прочих равных, и определяет как саму возможность формирования полиморфизма в популяции, так и его характер.

Самки не рассматриваются в модели. Предполагается, что они равномерно распределены по игровому полю и являются тем ресурсом, который оспаривается конкурирующими самцами.

Структура модели[наверх]

Рассмотрим игровое поле size x size клеток. Каждая клетка в первоначальный момент времени занята особью (самцом).

Каждая особь обладает следующими свойствами:

  • Имеет некоторую степень выраженности признака, (назовем его для простоты агрессивностью) в интервале от 0 (неагрессивные особи) до 1 (особи с максимально выраженной агрессивностью)

agr(i,j)->[0,1]

  • Имеет «первоначальный капитал», некий ресурс в размере 1 минус некоторая плата за агрессивность: чем выше агрессивность – тем выше плата

score(i, j) = 1 - agr(i, j) * k,

где k – коэффициент платы за агрессивность.

  • Имеет индикатор успешных атак, в котором указывается, атаковала ли данная особь кого-либо в последнем раунде (такте времени) или нет и, если да, то кого именно (указываются координаты атакованного). Данные об атаках записываются в массив attack(i,j).

  • Имеет индикатор, в котором отмечается, сколько раз данная особь была атакована. Такие данные понадобятся для подсчета окончательного выигрыша, поскольку ресурс особи разделяется поровну между всеми успешно ее атакующими. Данные о числе атак на особь заносятся в массив share(i,j).

  • Наконец, и это уже не свойство особи, а свойство ячейки (i,j), в бинарном массиве presents(i,j) указывается на присутствие (presents(i,j)=true) или отсутствие (presents(i,j)=false) особи-хозяина в клетке.

Время в системе измеряется тактами или поколениями. За каждый такт времени каждая особь имеет возможность атаковать случайно выбранного ближайшего соседа из окрестности Мура (8 соседних клеток). Вероятность атаки пропорциональна уровню агрессивности особи. Особи с нулевой агрессивностью никогда не атакуют, а особи с максимальной агрессивностью атакуют всегда. Особи с промежуточными величинами агрессивности атакуют пропорционально ее (агрессивности) уровню.

В случае, если на атакуемом участке хозяин отсутствует, атакующий присваивает часть ресурса хозяина атакуемого участка и в конце такта времени возвращается восвояси. Ресурс хозяина атакуемого участка разделяется поровну между всеми атакующими данный участок и хозяином. Например, если участок А был захвачен соседом с участка Б и до конца такта времени он же был захвачен соседом с участка В, то ресурс хозяина участка А будет поровну разделен между всеми участниками событий: хозяином участка А и соседями с Б и В.

Если хозяин атакуемого участка присутствует, то происходит выяснение отношений:

  • Если агрессивность атакующего ниже, чем атакуемого, то атакующий и атакуемый остаются при своих ресурсах, собственно, атаки не происходит;

  • Если агрессивность атакующего выше, чем атакуемого, то атакующий присваивает часть ресурса атакуемого (которая определяется в конце такта времени с учетом всех возможных претендентов) за вычетом издержек агрессии.

    • Издержки агрессии тем выше, чем меньше разница в уровнях агрессивности атакующего и атакуемого:

      • При равенстве уровней агрессивности атакующего и атакуемого издержки агрессии атакующего составляют весь его изначальный ресурс;

      • при максимальной разнице в уровнях агрессивности атакующего и атакуемого издержки агрессии нулевые.

      • При промежуточных величинах разности между уровнях агрессивности атакующего и атакуемого издержки агрессии составляют величину, обратно пропорциональную разнице уровней агрессивности атакующего и атакуемого.

В конце каждого такта времени происходит:

  1. Распределение выигрышей (ресурсов) между всеми участниками. Величина выигрыша зависит от количества успешных атак и числу претендентов на один ресурс. Если особь была успешно атакована несколькими агрессорами, то ее ресурс в равных долях распределяется между всеми участниками событий: каждый получает часть ресурса проигравшей особи. У самой проигравшей особи остается такая же доля ресурса, какая присвоена каждым агрессором.

  2. После распределения выигрышей каждая особь просматривает ближайших соседей и "присваивает" уровень агрессивности того соседа, у которого оказался наибольший ресурс. Таким образом, удачная стратегия реплицируется.

В заключение такта каждый участник получает равный стартовый ресурс, как это было в начале игры: никакой аккумуляции ресурсов в поколениях не происходит ("память"  системы отсутствует).

Единственный параметр, которым мы будем менять это плата за агрессию (коэффициент платы – параметр k). При раздаче ресурсов в начале каждого такта, будет учитываться уровень агрессивности особи, и начальный объем ресурса будет меньше у агрессивных особей, чем у неагрессивных (см. выше).

score(i, j) = 1 - agr(i, j) * k

где score(i, j) – величина ресурса самца с координатами i,j,
agr(i,j)
– уровень его агрессивности,
k - коэффициент платы за агрессивность.

Некоторые варианты распределения ресурсов в зависимости от величины k, показаны на рисунке.

Некоторые варианты распределения ресурсов в зависимости от величины k

Старт модели будем проводить из двух начальных распределений особей по уровню их агрессивности:

  1. Все особи равновероятно имеют любой уровень агрессивности (вверху)

  2. Все особи имеют одинаковый уровень агрессивности (внизу)

  распределение стартовых уровней агрессивности 2
  распределение стартовых уровней агрессивности 1
Уровень агрессивности
Очевидно, что в последнем варианте потребуются мутации, которые будут вносить изменчивость уровня агрессивности. Мутации будут задаваться двумя параметрами. А именно, вероятностью, с которой мутируют особи на каждом такте времени (mutation rate) и амплитудой мутации (mutation width), то есть диапазоном возможных значений агрессивности у мутантных особей по отношению к родительской.

Интерфейс модели [наверх]

При запуске модели открывается окно исходных установок Initial setting:

Исходные установки

 

Size – размер игрового поля,

Time – продолжительность симуляции (поколений)

Counter – счетчик поколений (показывает текущее поколение)

k – коэффициент платы за агрессивность

Mutation флажок установлен – мутации включены, не установлен – мутации отсутствуют

Mutation widthамплитуда мутаций. Определяет, насколько велики различия могут быть между родительской и мутантной формой. При величине 0 фактически мутаций не происходит. При величине 1 – перекрывает весь диапазон возможных изменений признака (уровня агрессивности)

Mutation rate – частота мутаций на одну особь за поколение.

Start with single aggressiveness level – начало симуляции с единым для всех особей уровнем агрессивности. При включении опции, автоматически устанавливается флажок Mutation.

Initial mode – начальный уровень агрессивности (действует при включенной предыдущей опции)

При нажатии кнопки START открываются 3 дополнительных окна:

Morph distribution – текущее распределение вариаций уровней агрессивности поведения

Morph dynamics – динамика частот уровней агрессивности. Для простоты восприятия 10 возможных интервалов уровней агрессивности объединены попарно.

Spacing – текущее пространственное распределение уровней агрессивности.

Результаты [наверх]

Эффект величины платы за агрессивность 

Проведем серию симуляций, изменяя параметр k от 0 до 1 при старте с позиции 1 (все особи равновероятно имеют любой уровень агрессивности).

Мутации отсутствуют.

При отсутствии платы за агрессивность (величина параметра k = 0) уже на 100 поколении в популяции преобладают особи с максимальной агрессивностью, а к 1000 поколению они остаются единственными.

При величине коэффициента k = 0,1 ситуация изменяется. На 100 поколении формируется тримодальное распределение с тремя модами: пики в распределении частот встречаемости стратегий поведения появляются для крайних значений агрессивности и среди промежуточных значений. К 1000 поколению выживают только 3 стратегии: с минимальной, с промежуточной и с близкой к максимальной агрессивностью. Все особи с промежуточными между ними величинами агрессивности – вымирают. Такая ситуация сохраняется до величины коэффициента платы за агрессивность k = 0,3. При дальнейшем увеличении платы за агрессивность (k = 0,4) распределение становится бимодальным, а при последующем увеличении – одномодальным – все особи имеют минимальный уровень агрессивности.

Таким образом, при отсутствии платы за агрессивность побеждает стратегия силы и агрессии, при слишком высокой плате – победителем оказывается стратегия с минимальным уровнем агрессивности. При промежуточных уровнях (0,1 < k < 0,4) – устойчивыми оказываются 3 стратегии: с минимальным, максимальным (или близким к нему) и промежуточным уровнем агрессивности, а при уровне k = 0,4 остаются лишь 2 стратегии: с минимальным и относительно высоким уровнями агрессивности. Подчеркну, что формирование стратегий – акт самоорганизации системы. Ничто, ни в начальных условиях, ни в правилах игры не давало преимущество сохранившимся стратегиям. Впрочем, «стратегиями» они стали лишь постфактум; вначале это была просто изменчивость поведения.

k 100 поколение  1000 поколение 
0.0  
0.1    
0.2    
0.3    
0.4    
0.5    
1.0    

Симуляция проведена при следующих параметрах: Size=100; Time = 1000; мутаций нет; старт с позиции 1.

Эффект размаха и частоты мутаций. [наверх]

Очевидно, что для того, чтобы мог установиться полимодальный режим (чтобы возникли стратегии поведения) из мономодального исходного состояния (с единственной стратегией поведения: старт с позиции 2) необходимы мутации, создающие материал для отбора. Рассмотрим эффект амплитуды мутаций (параметр "Mutation width") и частоты мутаций (параметр "Mutation rate").

Установим параметры на уровне: Size=100; Time = 1000; k = 0,3; mutation rate = 0,001; initial mode = 0,5 и будем изменять величину амплитуды мутаций от 1 до 0. Тримодальное распределение возникает на интервале размаха мутаций от 0,5 до 1. Меньшая амплитуда мутаций неизбежно приводит к мономодальному распределению с модой на минимальном уровне агрессивности. На рисунке показаны примеры эволюции системы для этих качественно различных интервалов размаха мутаций.

  Mutation width = 0,4 Mutation width = 0,7
     

Эффект амплитуды мутаций.

Size=100; Time = 1000; k = 0,3; mutation rate = 0,001, initial mode = 0,5 Увеличение частоты мутаций при прочих равных может компенсировать эффект недостаточного размаха мутаций. Так, увеличение частоты мутаций в 10 раз снижает возможный размах мутаций, позволяющий формироваться тримодальному распределению до 0,4.

Эффект начального распределения [наверх]. Рассмотрим симуляции проведенные из разных начальных позиций при одинаковых прочих значениях параметров. А именно рассмотрим симуляции при старте с позиции 1 (все особи равновероятно имеют любой уровень агрессивности) и позиции 2 (все особи имеют одинаковый уровень агрессивности) при следующих значениях параметров: Size=100; Time = 1000; k = 0,4; мутации с параметрами Mutation width = 1; Mutation rate = 0,001; initial mode = 0.

Старт  100 поколение  1000 поколение
 
   
Size=100; Time = 1000; k = 0,4; мутации с параметрами Mutation width = 1; Mutation rate = 0,001; initial mode = 0.

Как видно, при данных значениях прочих параметров конечный результат не зависит от типа начального распределения особей по уровню их агрессивности.

Однако это утверждение верно не всегда. В некоторых случаях конечный результат может зависеть от моды стартового уровня агрессивности. Так, при нулевой плате за агрессивность движущий отбор на наиболее агрессивных особей действует при величине параметра "initial mode" в интервале от 0 до 0,4. На этом интервале начальных условий система быстро переходит в состояние с максимальным уровнем агрессивности. Иной результат начинается уже при старте, с "initial mode" = 0,5 единиц. Здесь несколько сот поколений сохраняется исходный (0,5 единиц) уровень агрессивности, и лишь после этого происходит постепенное замещение особями с максимальным уровнем агрессивности. Однако уже при стартовом уровне агрессивности в 0,6 единиц и выше, этот уровень сохраняется у подавляющего большинства особей до конца симуляции. Мутантные особи по определению возникают, но в силу закона больших чисел и отсутствия у них преимущества, вытесняются доминирующим уровнем агрессивности, то есть тем, который доминирует на старте.

 

Эффект моды начального распределения (параметр "initial mode")

 

Эффект размера популяции. [наверх]

 Размер популяции существенно влияет на исход эволюции. Очевидно, что чем больше ее размер, тем больше вероятность появления нужной вариации в нужном месте. Так, при уменьшении размера популяции в 4 раза (size = 50) и прочих равных для формирования тримодального распределения требуется минимальный размах мутаций 0,7 (по сравнению с 0,6 при размере size=100).

Вторым аспектом размера популяции может быть возникновение сопряженных колебаний численности стратегий. Так, при размере популяции 30х30 происходят заметные сопряженные колебания численности носителей стратегий (верхний рисунок), в то время как в популяции 100х100 они существенно ниже (нижний рисунок). (k=0.3)

 

Это обстоятельство проливает свет на размер пятен в пространственном распределении особей – носителей одинаковых стратегий. Действительно, в небольшой пространственно локализованной выборке из популяции будут наблюдаться колебания в соотношении долей стратегий. Если размер выборки (обследованной площади) буде соответствовать размеру пятна, то неизбежны моменты, когда все особи будут обладатели какой-либо одной стратегии поведения. Значительные флуктуации в соотношении долей стратегий поведения наблюдали и в реальных популяциях (см. ЗДЕСЬ). Для сравнения приведена динамика стратегий в выборке 10х10 клеток (100 особей) в общей популяции 100х100 клеток (10000 особей).

Динамика частот встречаемости трех морф самцов пятнистых ящериц в Калифорнии в 1990-1999 гг.  Динамика стратегий в модели в выборке 10х10 клеток в общей популяции 100х100 клеток (10000 особей). 50 поколений. 
   

Действительно, наблюдение за динамикой стратегий в пространстве (окно Spacing) показывает, что в популяции пробегают «волны стратегий». Здесь, «красные» побеждают «синих», «синие» - «фиолетовых», а «фиолетовые» побеждают «красных». Окно 30х30 Для наблюдателя в каждой точке популяции одна стратегия во времени будет заменяться другой. В естественных популяциях смена стратегий циклична с периодом в несколько лет. В модели о продолжительности периода сказать ничего нельзя, так как модельные «поколения» весьма условно отражают какую-либо реальную единицу времени. Однако общий характер циклических изменений состава локальной популяции вполне соответствует наблюдаемому.

Заключение [наверх]

Из результатов модельных экспериментов следует, что тримодальное распределение, которое можно интерпретировать как 3 стратегии поведения, отношение между которыми аналогичны отношениям стратегий в игре камень – ножницы – бумага, возникает в эволюции как из первоначально равномерного распределения модусов поведения в популяции, так и из мономодального распределения с мутациями. Для развития тримодального распределения необходимо и достаточно, чтобы:

  • система обладала достаточным потенциалом изменчивости и

  • плата за агрессивность попадала в некоторый интервал (была не слишком мала, чтобы распределение не сместилось в сторону высокоагрессивных особей, и не слишком велика, чтобы агрессивные особи имели шанс стать победителями).

Достаточный потенциал изменчивости должен обеспечить появление нужной стратегии поведения в нужном месте и в нужное время. Это условие находится под действием следующих факторов:

  • амплитуды мутаций (дистанцией между родителем и мутантным потомком в пространстве рассматриваемого признака)

  • частоты мутаций (вероятности появления мутации в единицу времени)

  • размера популяции

Взаимосвязь между этими факторами достаточно очевидна, и обсуждать ее здесь не имеет смысла. Важно, что популяция должна обладать достаточно высоким потенциалом изменчивости по признаку агрессивности (= уровня гормонов) для возникновения дискретных стратегий поведения. В противном случае популяция будет «скатываться» к одному из крайних случаев выражения агрессии (либо к случаю неагрессивной, либо к предельно агрессивной модам), или оставаться мономодальным распределением с промежуточным уровнем агрессивности особей.

Однако, сама по себе изменчивость – недостаточное условие для эволюционного возникновения феномена поведенческих стратегий. Необходима некоторая «плата за агрессивность». Это могут быть затраты на синтез гормонов, либо стоимость иных связанных с повышенной агрессивностью физиологических изменений, либо цена агрессивности может определяться вероятностью получения травм в схватках и т.д. По сути конкретный источник затрат не столь важен.

Важно то, что возникновение стратегий происходит на достаточно широком интервале платы за агрессивность. Именно это обстоятельство может быть причиной весьма широкого распространения этого феномена в природе.

В пространственном аспекте модель демонстрирует существование в популяции автоволн с одинаковой стратегией поведения особей особей по фронту волны. В больших популяциях соотношение долей особей – носителей разных стратегий поведения, может быть постоянным, тогда как на небольших участках популяции будут наблюдаться колебания долей стратегий во времени. Это вполне проверяемое предсказание и оценкой его существования, скорости распространения автоволн и прочих их характеристик можно заняться в природе.

Vercken E, Massot M, Sinervo B, Clobert J. 2007. Colour variation and alternative reproductive strategies in females of the common lizard Lacerta vivipara. Journal of Evolutionary Biology,20: 221-232.