信頼区間測定
評価値の信頼区間を計ってみました。
各評価値は、そのアニメに点をつけた人の中で平均を取った結果で計算しているので、「9人しか評価してなくて平均が3.67のボボボーボ・ボーボボよりも、60人が評価して平均が3.63のカードキャプターさくらの方がいい評価といえるんじゃないか?」と思う人もいるかと思います。
そういったデータの信頼性を統計的に計る指標として信頼区間があります。今回の90%信頼区間とは、「100回感想調査をやったら90回はこの範囲になるだろう」という範囲で、この範囲が広ければ、結果は偶然得られた可能性が高くあまり信頼できないデータ、範囲が狭ければ偶然に左右されない信頼できるデータということになります。
ちなみに、この信頼区間はアニ鳴館で計算されている平均偏差とは全く異なるアプローチです。平均偏差は平均値を構成する(?)各要素間のバラツキで、信頼区間は平均値自体のバラツキです。もちろん今回のデータそのものからは計算できませんので、適当にリサンプリングしてバラツキを求めています。詳しい話は2005/03/19の日記などに書いてありますので、興味のある方はご覧ください。
平均値と90%信頼区間
前置きはともかく、結果はこのようになりました。平均値はリサンプリングした結果の平均値(平均値の平均値)なので、実際に今回得られた結果とは多少ずれています。「下側90%」は90%信頼区間の下側の値(90%はこれ以上になるだろう、という値)、「上側90%」は90%信頼区間の上側の値(90%はこれ以下になるだろう、という値)です。
項目欄の▲とか▼を押すとソートできます・・・が、今のところIE6でしか動きません。(firefoxでは動きませんでした・・・詳しい人がいたら修正してくれるとうれしいです)
|
下側90%信頼区間でソートすると、AIR、岩窟王、スクールランブル、カードキャプターさくら、ファンタジックチルドレンの順になるようです。この結果は、「100回調査を行ったら、そのうち90%はこれ以上の平均値になるだろう」という値になりますので、かなり信頼できるランキングになったのではないでしょうか。
ボボボーボ・ボーボボやアークエとガッチンポーといったマイナーアニメ(ごめんなさい)は、データ数が少ないので結構バラツキがあるようです。今回の結果も統計的には「たまたまいい評価が集まっただけ」ということになりそうです。
逆に上側90%信頼区間が小さいアニメは、「100回調査やっても、そのうち90%はこれ以下の平均値」ということになります。JINKI:EXTENDやらいむいろ流奇譚Xなど、ワーストアニメランキングとしては上側90%でソートするのが信頼できそうです。
グラフ
R'sMで作られていたグラフがかっこよかったので、まねしてグラフにしてみました。かなりでかいです。Excelそのままなのであまりかっこよくできなかったけど・・・。赤いエラーバーが90%信頼区間です。
超ぽじてぃぶ!ファイターズのバラツキっぷりが気になりますが、評価数が4だからぜんぜんサンプル数が足りないということですね。というか存在自体知らなかった・・・。

データについて
今回使用したデータは、光希桃 Anime Station内の 終了番組評価表からいただきました。このような貴重なデータを公開していただき、大変感謝いたします。
