의견.png

"팃포탯"의 두 판 사이의 차이

해시넷
이동: 둘러보기, 검색
(참고자료)
61번째 줄: 61번째 줄:
 
* 〈[https://namu.wiki/w/%ED%8C%83%ED%8F%AC%ED%83%AF 팃포탯]〉, 《나무위키》
 
* 〈[https://namu.wiki/w/%ED%8C%83%ED%8F%AC%ED%83%AF 팃포탯]〉, 《나무위키》
 
* 한담, 〈[https://m.post.naver.com/viewer/postView.nhn?volumeNo=12101660&memberNo=33781632 <협력의 진화> 속 팃포탯 Tit for Tat과 다른 전략들로 보는 인간유형]〉, 《네이버 포스트》, 2018-01-15
 
* 한담, 〈[https://m.post.naver.com/viewer/postView.nhn?volumeNo=12101660&memberNo=33781632 <협력의 진화> 속 팃포탯 Tit for Tat과 다른 전략들로 보는 인간유형]〉, 《네이버 포스트》, 2018-01-15
 +
* 읽고 생각하고 쓰는 寒潭, 〈[https://celenity.tistory.com/204 <협력의 진화> 로버트 액설로드 Robert Axelrod / 이기적 개인의 팃포탯 전략]〉, 《티스토리》, 2019-05-28
  
 
==같이보기==
 
==같이보기==

2019년 9월 5일 (목) 09:39 판

팃포탯(Tit for Tat)은 '눈에는 눈, 이에는 이' 전략이라고 할 수 있다. 이는 상대방이 한 그대로 되갚아준다는 뜻으로, 상대방이 신사적으로 협력하면 팃포탯은 협력하지만 반대로 이기적이어서 배반하면 다음번에 이기적 배반으로 앙갚음하는 것을 말한다. 즉, 첫 수는 협력하고, 그 다음부터는 상대방이 바로 조금 전에 한 그대로 따라하는 전략이다.

개요

팃포탯은 게임 이론에서 반복되는 죄수의 딜레마의 강력한 전략이기도 하다. 이 전략은 1980년대에 열린 Robert Axelrod의 경기 Datol Rapoport에 의해 최초로 제안되었다. 이 전략을 사용하는 경기자는 처음에는 협력하고, 그 이후에는 상대방의 바로 전 전략에 반응한다. 만약 상대가 이전에 협력을 했다면 경기자는 협력하고, 만약 배반했다면, 경기자는 배반할 것이다.

규칙

  1. 일단 흔쾌히 협력한다. 우호적인 태도로 사람을 대한다. 낯선 사람을 만났을 때, 그가 나쁜 사람이라고 생각할 이유가 없다면 최대한 배려하여 호의를 베푸는 것이 좋다. 팃포탯 규칙에 따르면 먼저 협력하는 것은 상대방뿡만이 아니라 나 자신에게도 이롭다. 물론 첫 만남에서 상대방을 얼마나 믿을 수 있는지에는 한계가 있다. 하지만 예를 들어 사업 관계를 새로 맺을 때에도 위험을 최소화하는 것이 당연하다 해도, 일단 계약을 했으면 상대방이 계약 내용을 이행할 것이라고 온전히 믿어야 한다. 단, 팃포탯은 나와 상대방의 관계가 앞으로도 유지될 가능성이 있을 때에만 효과가 있으며, 둘의 관계를 오래 유지할 방법을 찾는다면 둘 다에게 유익하다.
  2. 은혜는 은혜로 갚고 원수는 원수로 갚는다. : 팃포탯을 따르는 것은 낭떠러지 위로 난 외길을 운전하는 것과 같다. 완쪽 낭떠러지가 서로를 파괴하는 상호 보복의 악숙환에 빠지는 것이라면, 오른쪽 낭떠러지는 상대방에게 이용당하는 것이다. 죄수의 딜레마 대회에는 팃포투탯(tit for two tat)이라는 프로그램이 참가했는데, 이 프로그램은 비협력적인 행동을 한 번은 용서하고 두번째부터만 응징했다. 그러자 제1회 대회에서는 성적이 매우 좋았지만, 제2회 대회에서는 많은 프로그램들이 팃포투탯의 첫번째 용서를 악용했다. 무엇이 공정한가에 대한 합의가 이루어졌더라도 공평하지 못하면 정의가 실현되기가 어렵다. 손해를 보았다는 생각이 들어 앙갚음을 하면 상대방은 더 심한 보복으로 대응할 것이기 때문이다.
  3. 단순하게 행동한다. : 팃포탯은 아주 단순한 규칙이다. 단순하게 행동하면 상대방이 상황을 쉽게 파악할 수 있다는 이점이 있다. 게임이론에는 '제로섬(zero-sum) 게임'이라는 용어가 있는데, 이것은 누군가 이익을 얻으면 다른 누군가는 그만큼 손해를 입어야 한다는 뜻이다. 삶이 제로섬 게임이라면 단순한 규칙을 따르다가는 손해를 볼 것이다. 자신이 잘 되려면 남을 못 되게 해야 하기 때문이다. 하지만 현실 상황에서는 협력하면 양쪽 다 이익을 얻을 수 있다. 처음부터 서로를 이해하면 더 좋은 성과를 거둘 수 있으며, 그럼으로써 협력을 이끌어내는 방법을 배울 수 있다. 또한 자신이 이용당하지 않을 것을 상대방이 안다면 모두에게 이롭다. 따라서 자신의 방침을 드러내는 것은 나 자신에게 이롭다. 상대방이 내가 무엇을 하는지 알고 호의적으로 협력하기가 수월하기 때문이다.
  4. 흔쾌히 용서한다. : 팃포탯은 언제든 기꺼이 용서하고 과거를 잊는다는 것을 의미한다. 상대방이 과거에 아무리 많은 잘못을 저질렀더라도 단 한 번만 협력하면 팃포탯은 협력한다. 이렇게 하면 상처를 주고받는 보복의 악순환에서 쉽게 벗어날 수 있으며 문제가 확대되는 것을 피할 수 있을 뿐 아니라 상대방이 나의 방침을 정확하게 파악하게 할 수 있다.
  5. 샘내지 않는다. : 팃포탯이 성공을 거둔 마지막 요인은 남들이 자기보다 잘나가는 것을 신경쓰지 않는다는 것이다. 즉 팃포탯이 전반적으로 좋은 결과를 거두는 이유는 서로 협력하는 상황을 다른 어떤 전략보다 많이 만들어냈기 때문이다. 팃포탯에 시샘이 있었다면, 상대방이 은혜를 원수로 갚았을 때 자신도 한 번은 은혜를 원수로 가아 피장파장인 상황을 만들려고 했을 것이다. 하지만 그러려면 자신이 이기적인 행동을 해야 하는데, 그랬다가는 상호 보복이 늘고 협력관계가 줄었을 것이다.

한계

  1. 단기간에 그치거나 일회성의 게임일 경우에는 적용될 수 없다. 이 경우에는 무조건 배신 전략과 같은 다른 전략을 골라야하며, 장기적 반복게임 상황을 상정하는 팃포탯은 아예 고려하는 것 자체가 불가능하다. 쉽게 말해 너도 한방 나도 한방인 상황에서 선제적 협력은 위험부담이 엄청난 수준을 넘어서 아예 자충수에 가까운 행위다. 게임이론에서 이런 경우를 흔히 '할인계수'라고 부르는 개념으로 설명하는데, 차후 오랫동안 상호작용할 것으로 기대될수록 할인계수는 증가하고, 팃포탯은 더욱 매력적인 선택지가 된다. 반대로, 차후 상호작용을 기대하지 않거나 상호작용의 가능성이 낮을 경우 협력은 붕괴한다. 학자들은 많은 시행을 통해 할인계수가 충분히 커진 상태에서 팃포탯의 안정성이 크다는 것을 수학적으로 증명하였다.
  2. 난수표와 같은 완전히 무선적인 의사결정을 내리는 전략에 대해서는 과도할 정도의 관용을 보인다. 어떻게 보면, 무전략은 최선의 전략일지도 모른다. 물론 이 전략도 팃포탯보다 뛰어난 성공을 거두거나 안정성을 보이지는 않지만, 팃포탯이 이런 케이스에 대해서 과연 어떻게 대처하는 것이 좋을지는 해답이 존재하지 않는 것으로 보인다. 사실, 게임이론의 근간을 이루는 '모든 유기체는 합리적으로 의사결정을 하고, 상대방도 그러할 것이라고 전제한다'의 대전제가 어겨진 사례이기 때문에, 어찌 보면 당연한 귀결일 것이다.
  3. 일단 상호배반의 늪에 빠지고 나면 파국을 면하기 어렵다. : 물론 티포탯은 한 번 보복하고 나면 곧바로 화해의 손길을 내밀지만, 만일 상대방도 팃포탯과 유사한 의사결정 규칙을 갖고 있다면 서로가 서로를 끊김없는 배반으로 오해하게 될 수 있다. 실제로 액설로드의 게임 대회로부터 취합된 데이터를 검토하던 거의 대부분의 연구자들은 이 문제에 직면할 수밖에 없었다. 팃포탯은 여러 회의 시행 동안 내내 배반 선택을 하면서도, 그것으로부터 스스로의 힘으로 빠져나오지 못한다.

그 외에도 팃포탯의 잠재적 개선을 찾으려는 노력은 줄곧 있어 왔다. 대표적으로, '보복의 규모를 정할 수 있다면?'이 있다. 액설로드의 대회는 사실 보수행렬 자체가 이미 딱 정해져 있기에 보복의 규모를 정할 권한까지는 없었다.

죄수의 딜레마

죄수의 딜레마는 일회성 게임에서 일어나는 딜레마를 다루고 있는데, 저자인 로버트 액설로드는 연속된 죄수의 딜레마 게임에서 최선의 전략이 무엇인지 확인하고 싶었다. 저명한 심리학자, 경제학자, 수학자, 정치학자들을 초대하여 게임의 룰을 설명하고 참가를 요청했다. 게임참가자의 전략은 프로그래밍의 형태로 제출하며, 리그전의 방식으로 모든 참가자와 1대1로 겨룬다.

  • 점수 흭득규칙
  1. 내가 협력하고 상대방도 협력하면 3점을 얻는다. 상호협력에 대한 보상 R : Reward for mutual cooperation
  2. 내가 배반하고 상대방이 협력하면 5점을 얻는다. 배반의 유혹 T : Temptation to defeat
  3. 내가 협력하고 상대방이 배반하면 점수를 얻지 못한다. 머저리의 빈손 S : Sucker's payoff
  4. 내가 배반하고 상대방도 배반하면 1점을 얻는다. 상호배반에 대한 처벌 P : Punishment for mutual defection

1차 대회에는 14명이 참가했고, 각 참가자들마다 200회의 게임을 반복했다. 각 참가자는 상대방의 협력과 배반에 대해서 어떻게 대응하면 최선의 결과를 얻어낼 수 있을지 연구를 해서 최선의 전략을 제출했다. 1차 대회의 승자는 팃포탯이었다. 1차 대회가 끝나고 그 결과가 알려지자 많은 전문가들이 흥미를 느꼈는지 2차 대회에는 4배가 넘는 63명이 참가했다. 모든 참가자에게 1차 대회의 모든 진행사항과 결과를 통보했고, 2차 대회 참가자들은 1차 대회를 면밀히 검토해서 자신의 전략을 짜냈다. 그 결과, 우승자는 또다시 팃포탯이었다. 팃포탯은 너무나 간단한 전략이기 때문에 분석하기 쉬웠고, 약점을 찾기도 쉬웠지만, 또다시 승리했다.

다른 전략

팃포투탯

  • 전략 : 팃포투탯(Tit for Two Tat)은 팃포탯의 변형으로 첫 게임에서는 무조건 협력한다. 이후 게임부터는 상대방이 협력을 하면 협력을 하고 상대방이 2회 배신하면 배신을 한다.
  • 특징 : 팃포탯에 비해서 조금 더 너그럽다. 상대방의 협력에는 보상을 하고, 상대방의 배반은 한 번 정도는 눈감아 준다. 팃포탯보다 너그러운 모습을 띠고 있어서 바람직해 보이지만 이용당하기 좋다. 팃포탯 종류의 신사적인 전략과 만나면 계속해서 협력을 주고받기 때문에 좋은 점수를 흭득할 수 있다. 하지만 사기성이 있는 전략을 만나면 이용만 당하고 손해보기 좋다.

프리드먼

  • 전략 : 프리드먼(Friedman)은 팃포탯의 변형으로 첫 게임에서는 무조건 협력한다. 이후 게임부터는 상대방이 협력을 하면 협력한다. 상대방이 배신을 하면 이후 상대방의 협력/배신 여부에 상관없이 게임이 끝날 때까지 상대방을 배신한다.
  • 특징 : 상대방이 협력을 했을 때는 계쏙해서 협력을 하지만 배신하는 상대에 대해서는 절대로 용서하지 않는다. 관용적인 성격이 떨어지는 팃포탯이다. 상대방의 배반에 대해서 단호하게 대처하는 것은 속이 시원할 수는 있지만 이후로는 계속해서 적대적인 관계로만 남을 수 밖에 없기 때문에 결국 총점에서 손해를 보게 된다.

요스

  • 전략 : 요스(Joss)는 팃포탯의 변형으로 첫 게임에서는 무조건 협력한다. 이후 게임부터는 상대방이 협력을 하면 협력을 하고 상대방이 배반을 하면 배반을 한다. 단, 10%의 확률로 상대방이 협력을 한 다음 게임에서 배반을 한다.
  • 특징 : 팃포탯과 거의 비슷하지만 가끔식 확률적으로 배신을 한다. 열 번 중에 한 번 배신을 하는 이유는 명확하다. 한 번쯤 3점이 아닌 5점을 얻기 위함이다. 이 때 팃포투탯처럼 상대방이 그것을 관용해 준다면 큰 문제가 없다. 다시 말해서 팃포투탯은 요스에게 걸리면 좋은 먹잇감이다.

올씨

  • 전략 : 올씨(all C)는 상대방의 전략에 상관없이 무조건 협력한다.
  • 특징 : 항상 상대방에 협력하는 사람이다. 상대방이 협력해 오면 언제나 좋은 관계를 유지한다. 상대방이 나를 배신하고 이용해 먹으려고 해도 그냥 넘어가는 사람이다. 모든 사기성 전략의 피해자가 될 수 밖에 없다.

올디

  • 전략 : 올디(all D)는 상대방의 전략과는 상관없이 무조건 배신만 한다.
  • 특징 : 절대로 상대방에 비해서 손해를 보지 않는다. 다른 사람과 절대로 협력하지 않는다. 올디의 반대 전략은 올씨인 것 같지만 여러가지를 감안해 볼 때 올씨보다는 팃포탯이 올디의 반대 전략이다. 팃포탯은 상대방에 비해서 절대로 높은 점수를 받지 않지만, 올디는 상대방에 비해서 절대로 낮은 점수를 받지 않는다. 상대방이 협력을 해오면 배신하고, 상대방이 배신을 선택하면 둘다 나쁜 점수를 얻기 때문이다. 여러 전략이 뒤섞인 곳에서는 좋은 점수를 얻지 못하지만 의외로 올디만 모여 있는 사회는 굉장히 안정적이다. 안정적이라는 말이 바람직하다는 것이 아니라 올디로 안정이 되어 있는 사회에는 다른 전략이 들어와도 올디보다 절대로 점수를 높게 얻을 수 없기 때문이다.

트랜퀄라이저

  • 전략 : 트랜퀄라이저(Tranquilizer)는 일단 상대방과 협력을 한다. 계속해서 협력을 하다 상호협력의 패턴이 고정되면 갑자기 배반을 한다. 상대방이 계쏙해서 협력을 하면 배신의 횟수가 증가한다. 하지만 배신이 전체 게임의 1/4를 넘기지 않도록 한다. 상대방의 배신에는 배신으로 응징한다.
  • 특징 : 전형적인 머리가 좋은 사기꾼 전략이다. 상대방과 신뢰를 쌓아가다가 언으 정도 신뢰가 형성이 되었다고 판단되면 느닷없이 배신을 한다. 상대방이 배신에 대해서 보복을 하면 바로 다시 신뢰가 쌓일 때까지 자숙모드로 들어간다. 하지만 상대방이 배신에 대해서 바로 보복을 하지 않으면 계속해서 배반의 횟수를 늘려 나가면서 상대방을 이용한다. 하지만 배반을 1/4 이하로 유지하여 완전히 신뢰를 잃는 것은 방지한다.

테스터

  • 전략 : 첫 게임에서는 무조건 배반한다. 다음 게임에서 상대방이 배반을 할 경우 팃포탯 전략으로 수정한다. 그게 아니라 상대방이 협력을 할 경우에는 2,3번째 게임에서는 협력을 하고 이후부터는 한게임씩 협력과 배반을 반복한다.
  • 특징 : 간보는 사기꾼 유형으로 팃포탯 계열의 바로 보복을 하는 상대에게는 협력을 한다. 일단 배반을 해놓고 상대방이 어떻게 나오는지 간을 보는 것이다. 바로 보복으로 응징을 당하면 평범하게 팃포탯 전략을 가져 간다. 보복을 할 줄 아는 상대에게는 고개를 숙인다. 하지만 조금이라도 너그러운 모습을 보이는 상대는 크게 털어 먹는다. 간을 봤다가 2,3회에서는 협력하는 척하고 이후로는 협력했다가 배신하는 것을 반복한다.

다우닝

  • 전략 : 첫 게임에서는 무조건 배반을 한다. 이후 게임부터는 이전 게임의 결과를 총합하여 협력 가능성이 높으면 협력하고, 배신 가능성이 높으면 배신한다.
  • 특징 : 직전의 관계보다는 쌓아놓은 관계를 중요하게 여긴다. 지금까지 쌓아 놓은 관계를 토대로 다음 게임의 행동을 결정한다. 상대방이 지금까지 협력이 많았으면 협력을 하고 배신이 많았으면 배신을 한다. 하지만 트랜퀄라이저와 테스터에게 이용당하기 딱 좋은 전략이다. 트랜퀄라이저와 테스터는 협력과 배신의 비유로 보면 협력이 더 많기 때문이다. 게다가 팃포탯과도 상성이 좋지 않다. 첫 판을 배신으로 시작해서 팃포탯과 배신의 굴레에 빠져 버리기 때문이다.

각주

참고자료

같이보기


  의견.png 이 팃포탯 문서는 알고리즘에 관한 토막글입니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 이 문서의 내용을 채워주세요.