2016年の選挙予測の採点
今月初めのBuzzFeedNewsで、 今年の選挙予測を採点すると発表しました 。月曜日の午後、ミシガン州の選挙運動委員会がついに 認定トランプの勝利 。これで、すべての状態が最終的に呼び出されました。 ジルスタインの再集計の取り組み 物事を変えることはありません—結果があります。
はい 世論調査は間違っていた 。しかし、通常は世論調査に依存し、他のデータと組み合わせて誰が勝つかについてのオッズを与えることが多い一部の予報官は、他の人よりも間違いが少なかった。それを決定するのに凝った数学は必要ありません ネイトシルバーのファイブサーティエイトの予測 、彼らはヒラリー・クリントンにトランプよりも良いオッズを与えましたが、最も間違っていませんでした。彼はトランプに選挙に勝つチャンスを4分の1以上与えただけでなく、彼はまた 繰り返し 守られた 彼の予測」 トランプの強気 、後でその理由のために 証明された 先見の明 。他の注目を集める予測は、トランプに小さなオッズから消えるオッズを与えました。
要約すると、これが私たちが調べた予測です—トランプが選挙人団でクリントンを打ち負かすか結ぶ可能性によってリストされています:
FiveThirtyEight —投票のみおよび投票プラス (それぞれ29%と28%)
PollSavvy - に 16歳の高校3年生と彼の統計教師 (18%)
NS ニューヨーク・タイムズ /アップショット (15%)
PredictWise (十一%)
クレンプ/ スレート (10%)
自殺ホットラインで働く方法
デイリーコス (8%)
NS ハフィントンポスト (1.7%)
DeSartとHolbrook (1.4%)
プリンストン選挙コンソーシアム (1%)
これらの予測は、50州のそれぞれとコロンビア特別区がどのように投票することが期待されていたかに基づいています。個々の州のレースをどのように予測したかを調べることで、予測者の判断をよりよく理解できますが、まだ不完全です。
基本はこれに要約されます:どの予測者が最も多くの呼び出しを正しく受けましたか?クリントンとトランプの間の最終的なマージンに最も近いのはどれですか?どの予報士が自信と正確さのバランスを最もよく取っていますか? (例:彼らはクリントンにミシガンに勝つ99%の確率または80%の確率を与えましたか?そして彼らは正しかったですか?)
複雑な予測を判断するための簡単なアプローチ
最も簡単なアプローチは、各予測者が正しく呼び出した状態の数を数えることです。しかし、それは重要なニュアンスを見逃しています。たとえば、51%のオッズと99%のオッズの違いは考慮されていません。それでも、ここから始めるのは簡単です。
プリンストン選挙コンソーシアムのサムワンは、私たちが調査した他の誰よりも多くの州を正しく推測しました。46とコロンビア特別区です。シルバーのファイブサーティエイト、および他のほぼすべての予測は、45正解しました。 (王は、他の予報官とは異なり、トランプがノースカロライナに勝つと思っていました。)
これはパラドックスを浮き彫りにします。クリントンがホワイトハウスを奪うという見当違いの自信にもかかわらず、99%のチャンスを与えて、ワンは他の誰よりも多くの州を正しく推測しました。
では、なぜ彼はトランプが勝つ可能性が非常に小さいと思ったのですか?だけでなく 州の投票は失敗する 、しかしほとんどが同じ方法で失敗しました:トランプを過小評価しています。これは相関エラーと呼ばれます。すべての予報官は、世論調査が完璧ではないことを認識しています。時々彼らは間違った人々にインタビューしたり 応答に誤った重みを付ける 。しかし、予測者の仕事の一部は、相関エラーがどの程度発生する可能性があり、どの程度広範囲に及ぶ可能性があるかを推定することです。多くの予報官 その見通しはありそうもないと考えた 、 しかし ネイトシルバーはしませんでした 。
この選挙後、それは私のせいです 、王はこの間違いを彼の予測のアキレス腱として特定した。私は相関誤差のサイズを正しく推定しませんでした—5倍に彼は書いています。投票は失敗しました、そして私はその失敗を増幅しました。
より微妙なアプローチ
もう少し数学の準備はできましたか?と呼ばれるメトリック ブライアスコア 選挙やそれ以降で、予報官の精度を定量化するために広く使用されています。 (これが主な指標です 採点に使用すると言いました 。投稿しました GitHubでのこれらの計算の背後にあるデータとコード 。)
ブライアスコアは、2つのことだけを考慮に入れています。予測者は、何かが起こると考えた可能性はどのくらいありましたか。ブライアスコアは、正しい場合は自信に報いますが、間違っている場合は自信にペナルティを課します。
スコアは小さいほど良いです。ゼロは可能な限り最高のスコアです。つまり、予測に100%自信があり、すべてが正しく行われたことを意味します。考えられる最悪のスコアは1です。予測に100%自信があり、すべてが間違っていました。
以下は、各予測の2種類のブライアスコアです。 1つ目は、各州の選挙人票で重み付けされているため、ペンシルベニア州(20票)はニューハンプシャー州(4票)の5倍になります。 2番目は、各状態を等しくカウントします。
ご覧のとおり、ファイブサーティエイトの予測は最高のスコアでした。 NS ニューヨーク・タイムズ また、ファイブサーティエイトに次ぐチャンスをトランプ大統領に与えたPollSavvyも、州レベルで比較的高いスコアを獲得しました。最悪のパフォーマンスの予測は、 ハフィントンポスト と デイリーコス 、どちらもクリントンがペンシルベニア、ウィスコンシン、ミシガンを勝ち取ったことにほぼ確実なオッズを与えました。 (選挙直後、 ハフィントンポスト の投票編集者が説明する記事を書きました どのように吹き飛ばしたか、繰り返しを防ぐために何をしているのか 。)
上のグラフでは、すべての予測のスコアが、重み付けされていない列よりも重み付けされた列の方が悪いことがわかります。つまり、全体として、予測者は、人口の多い州の方が小さな州よりも結果を予測するのが苦手でした。 (補足:今年の最も正確な予測でさえ、ブライアスコアのパフォーマンスは 2012年の注目を集める予測のいずれか 、驚きの少ない選挙。)
もう1つの一般的な指標は、 対数スコアリングルール —誤った自信にさらに大きなペナルティを課します—パックの中央にいくつかのシフトがあり、上部と下部で同様のランキングを生成し、ペナルティを課します デイリーコス そのための余分 ミシガン州のクリントンの極端な強気 :

注:丸めを説明するために、上記のログスコアでは、すべての0%の確率が0.01%(または10,000分の1)の確率であると見なされます。
最高のシンプソンズツリーハウスオブホラー
時間の経過に伴う予測者の予測を見ると、ファイブサーティエイトの予測が11月初旬に他のパックから分離していることがわかります。

投票の予測
世論調査がトランプの支持を過小評価していることは明らかです。しかし、どの予測が州レベルの投票シェアを最も正確に予測したのでしょうか?これは答えるのが少し難しい質問です。なぜなら、予報官はトランプの予想される勝利のマージンをわずかに異なる方法で表したからです。予測を2つのタイプにグループ化できますが、いくつかの重複があります。
トランプの予想を計算できる予測 勝利のパーセンテージポイントマージン すべての投票の中で、クリントンを超えて。このグループには、FiveThirtyEight、PollSavvy、 ニューヨーク・タイムズ 、プリンストン選挙コンソーシアム、および ハフィントンポスト 。
トランプの予想を計算できる予測 二大政党投票のシェア (つまり、Johnson、Stein、およびMcMullinを除く)。このグループには、FiveThirtyEight、PollSavvy、 デイリーコス 、クレンプ/ スレート 、およびDesartとHolbrook。 (PredictWiseは投票シェアの予測を行いませんでした。)
DC(一部の予測では推定されなかった)とユタ(予測者がマクマリンの立候補に対して異なるアプローチをとった)を除く大統領国家の予測ごとに、 二乗平均平方根誤差 予測者の予測マージンと実際の結果の比較。 (一部の州ではまだ投票を完全に報告していませんが、各レースの現在のマージンは安定しているようです。最終的なカウントが入ったら投稿を更新します。)
最初のグループの中で、FiveThirtyEightが最高のスコアを獲得しました(数値が小さいほど良い):

2番目の中で、ファイブサーティエイトは、ウェストバージニア州やサウスダコタ州などの共和党の拠点でのトランプの支持を、たとえば、 デイリーコス やりました:

上院選挙
予報官の多くは、今年の上院選挙の予報も発表しました。以下の表は、私たちが採点した32のレースで彼らがどのように得点したかを示しています。 (2人の民主党員を互いに戦わせたカリフォルニアの上院選挙や、技術的にはプライマリーだったルイジアナ州の上院選挙は採点しませんでした。)

ここでは、ファイブサーティエイトと ニューヨーク・タイムズ 正確なランキングはスコアの付け方によって異なりますが、パックを主導しました。ブライアスコアによると、ファイブサーティエイトの世論調査プラスモデルは タイムズ 。しかし、対数スコアリングルールは、投票に加えて、ウィスコンシンでのラスファインゴールドのチャンスに対する自信過剰のために、十分な追加の罰を満たしました。 タイムズ トップスポット。
今年は以上です。