シャダウォックシャーマンは本当に難しいのか?
※自分は理論こそ他人より少し知ってはいますが、データの扱いに関してはその辺のゆるふわ文系大学生にすら勝てるか怪しいレベルなので、今回に限らずフィードバックを受けやすいよう可能な限り考えたことは(多少くどいかもしれませんが)文字に起こしていこうと思います。
いつの時代にも存在する「周囲の評価とデータ上の勝率が一致しないデッキ」。それらは高度なプレイングやメタに関する豊富な知識を求められる「難しい」デッキと言えます。
ウィッチウッド環境でシャダウォックシャーマンがその立場にあるというのは、多くの人の同意が得られることと思います。
では、果たしてそれは本当なのか?
どのようにそれを確かめるか?
ということについて考えてみた、というのが今回の記事の内容になります。
例によって、データはHSReplay.netのものを用いています。
プレイ難度の比較をする際に最初に思い浮かぶのは「レジェンド帯とそれ以外の戦績を比較する」というものです。
直感的に、レジェンド帯のほうが洗練されたプレイの割合が大きいのは当然なので、この方法は妥当だと思います。
では、単純にシャダウォックの全体勝率だけを抽出して比較すればよいのか、と言われれば、これは明らかにNOです。なぜならレジェンド帯とそれ以外ではデッキの使用率の分布が違うからです。
極端な話ですが、レジェンド帯がパー100%、それ以外がグー100%だった場合を考えてください。このときチョキの勝率はレジェンド帯で100%、それ以外で0%です。ならばレジェンド帯のチョキはそれ以外と比べてプレイングで優れていると言えるでしょうか?答えはNOです。
当然、パー100%の場所でチョキを選択するのは妥当ですが、それはプレイングの良し悪しとは関係がありません。したがって、この方法は妥当ではありません。
今回は全体の勝率ではなく、マッチアップ毎の勝率の違いに注目することになります。
HSReplayは特定の条件を満たしたデッキを同じ種類としてひとまとめにして集計しているので、マッチアップ毎の勝率は「特定の条件を満たしたデッキ同士を戦わせた場合、戦績はこう」というものを示しています。この値は分布に左右されないと考えるのが妥当です*1*2。
当然、戦績はプレイヤーに依存します。同じデッキを使っていても、プレイヤーの練度で勝率が変わるのは当然です。今回は、「同じデッキをレジェンド帯とそれ以外のプレイヤーが使った場合、戦績に違いは出るのか」を検討するということになります。
これを確かめるためには、各マッチアップごとに「レジェンド帯」と「それ以外」の「対戦回数」と「勝利数」が必要です。
幸いHSReplayは「対戦回数」と「勝率」を提示してくれるため、これら4種類の変数は容易に収集できます。
肝心の「勝率の差」の検証に関してはz検定を用いました*3。マッチアップ毎の集計方法がどのランク帯でも同様である点、最も集計数が少なかったマッチアップでも30戦以上の戦績を確保できている点などから、問題ないと思います。
今回の検証では、「レジェンド帯の勝率とそれ以外の勝率が等しい」ことを帰無仮説とします*4。
両側z検定の場合、95%信頼区間は[-1.96,1.96]になります。つまりz値が1.96以上の場合「97.5%以上の確率でレジェンド帯の勝率が高い」といえ、-1.96以下の場合「97.5%以上の確率でレジェンド帯の勝率が低い」といえます。
以下に「レジェンド帯の勝率とそれ以外の勝率が等しい」場合を帰無仮説としたz検定量(z値)と、有意水準5%の下で帰無仮説が棄却できるかどうかを示しています。
オレンジで示した部分が「レジェンド帯の方が有意に勝率が高い」マッチアップで、青で示した部分が「レジェンド帯の方が有意に勝率が低い」マッチアップです。
デッキ | Big Druid | Big Spell Mage | Combo Priest | Control Priest | Control Warlock | Control Warrior | Cube Hunter |
---|---|---|---|---|---|---|---|
z値 | 0.6832 | 3.028 | -0.1342 | 1.005 | -0.2163 | 0.1131 | 1.241 |
デッキ | Cube Warlock | Deathrattle Hunter | Elemental Shaman | Even Paladin | Even Shaman | Even Warlock | Kingsbane Rogue |
z値 | 2.291 | 0.1928 | 0.6661 | -1.522 | -0.2022 | 0.8219 | 0.1613 |
デッキ | Malygos Druid | Midrange Hunter | Mill Druid | Miracle Rogue | Murloc Mage | Odd Hunter | Odd Paladin |
z値 | -3.559 | -0.3026 | -1.140 | 2.184 | 1.194 | -0.5059 | 4.563 |
デッキ | Odd Rogue | Odd Warrior | OTK DK Paladin | Quest Priest | Quest Rogue | Quest Warrior | Recruit Hunter |
z値 | 1.837 | -0.7932 | 2.176 | -0.1250 | 0.6161 | 1.297 | 0.8071 |
デッキ | Recruit Warrior | Resurrect Priest | Rush Warrior | Spell Hunter | Spiteful Druid | Taunt Druid | Tempo Mage |
z値 | 2.212 | 0.2276 | 0.4888 | 1.768 | 1.996 | -0.03993 | -0.1912 |
デッキ | Tempo Rogue | Token Druid | Zoo Warlock | ||||
z値 | 1.350 | 0.7312 |
2.083 |
※2つのランク帯どちらでも対戦が生じたマッチアップのみ記載しています。つまり、レジェンド帯でほとんど見ないデッキに関しては(集計ができないため)除外しています。
※「その他」のデッキに関しても除外しています。
38種類のデッキタイプのうち、レジェンド帯の勝率が有意に高いと判断されたのは8種類、低いと判断されたのは1種類。残りの29種は帰無仮説を棄却できなかったので、2つのランク帯で勝率に有意差はないという結果になりました。
さて、この結果を受けてどのようなコメントができるかですが、プレイが難しいかどうかに関して言えば「難しい」デッキだと思います。
ここまで来て非常にふわっとした直感的なコメントになってしまいますが、レジェンド帯で有意に勝率が高くなる相手が多く、有意に勝率が低くなる相手が少ないため、レジェンド帯の方が戦績としては優秀だと感じます。少なくとも、有意に勝率が低い相手はマリドルだけというのは事実ですから、レジェンド帯のシャダウォック使いが比較的優秀であることはわかると思います。
また、レジェ帯の対戦相手はレジェ帯であることから、相手もまた洗練されていることは留意すべき点です。その中で少なくない相手に対して有意に勝率が高くなるというのは、他のデッキと比べても練度が勝率を左右しているからだと考えられます。
但し、「他のデッキと比べてどれくらい難しいか」という判断までは下せません。
というのも、多くの場合勝率を左右する要因が「マッチアップ特有の難しい読み合い」になるからです。
つまり、例えば上の結果で対キューブロックでは有意に勝率が高くなりましたが、これは相対的にキューブロックが簡単であることを示すものではない、ということです。「シャダウォックVSキューブロックのマッチに限って、経験を積むほどシャダウォック側が有利になる要素がある」と考えるのが妥当です*5。
同じ理由で、z値の大小でデッキ間の比較をすることもできません。デッキ1つずつに同じ検証を行って、その検証の中だけで簡単か、難しいかを論ずるのが妥当だと感じます。
まとめると、
・デッキの難易度を見るときはマッチアップ毎の勝率に注目する
・レジェンド帯で当たる相手もまたレジェンド帯であることを忘れない
・対戦するデッキによって経験が活きるかどうかは違ってくる
・それらを加味しても、シャダウォックはたぶん難しい
ということになります。
個人的には、今後も使えそうな手法とそこそこ説得力のある結果を提示できたのでおおむね満足です。ちょっと調べれば誰でもできることなので是非。
※追記
検定では勝率の差がどの程度かを判断できないので信頼区間の提示をすべき、とのコメントを頂いたので少し考えていましたが、今回の検証ではやはり検定による有意差の有無で判断するのが適していると思います。
練度によって勝ち筋を拾えるかどうかはマッチアップに依存します。つまり、同じデッキを同じ人間が使っても、デッキの相性上どれだけ上手くても勝ちを拾えないマッチもあれば、プレイング次第で勝ちを拾い易いマッチもあるということです。このため、勝率の差の程度は(少なくとも今回の検証では)あまり重要ではない指標ということになります。
今回検証したい事象は「異なる質のプレイヤーが同じデッキを使った場合、戦績に差が出るのか」ですので、これを適切に検出し、提示できる手法は有意差検定になるかと思います。
ちなみに勝率の差の信頼区間は、平均が平均勝率の差であるような正規分布に従います。オレンジで示したマッチアップでは下側信頼限界が0以上、青で示したマッチアップでは上側信頼限界が0以下、それ以外の場合は0が信頼区間内に含まれます。
*1:集計している対戦数が多いため、「特定のプレイヤーがプレイする/しないことによって変動する戦績」は取捨できるレベルに小さいと考えます。
*2:マッチアップ毎の潜在的勝率が時期を通じて固定であることは、データからは恐らく示せないと思います。自分は確かめていませんが、恐らく異時点間で勝率は変わります。これはテックカードの採用率や定石の変化などに勝率が左右されてしまうからで、マッチアップ毎の潜在的な勝率そのものが変動してしていると考えるべきだと思います
*3:この辺の話に関しては自分よりわかりやすい解説が世界中に溢れていると思うので、あえて拙い説明を試みるのは控えます。
*4:この場合のz検定量は、レジェ帯の勝率をp,対戦回数をm,それ以外の勝率をq,対戦回数をn,全ランク帯の勝率をPとすると、(p-q)/[√P(1-P)(1/m+1/n)]になります。
*5:今回は検証していませんが、キューブロックに関しても同様の検証を行えば更に詳しくわかると思います。自分はやりません。