統計的「有意さ」について


  • Global Moderator

    @riffraff さん

    了解です。次章の前半も読みました。テロリスト判別プログラムの例がありました。P 値が有意であることは、判別結果がどれくらい信用できるかとは直接は関係ないと主張しているように読みました。

    フェイスブック参加者の内訳(人):

    テロリスト判定リストに載る テロリスト判定リストに載らない
    テロリスト 10 9990
    非テロリスト 99990 199890010

    このような仮想例が題材でした。ここから以下のように議論していました:

    非テロリストであった場合に、テロリスト判定リストに掲載されてしまう率は、99990/(99990+199890010) = 0.0005 なので、テロリスト判定リストに載った人は統計的に有意にテロリストと言える(※)。しかし、その人が実際にテロリストである率は、10/(10+99990)で、1万分の1の割合でしかない。

    この例で見ると、統計的に有意であることと、その効果の大きさや判別法の価値(正確さ)は、直接は関係ないことが自明である。しかし、実際の実験研究の発表を解釈する場合には、しばしば、それらが混同されることがある。

    その根本原因は、条件付き確率 P(テロリスト判定リストに載る|非テロリスト) と、P(非テロリスト|テロリスト判定リストに載る) のような、互いに異なる2つの確率を混同することである。統計的有意さは前者に関係するが、発表を見た人間が本当に知りたいのは後者である。

    こういう主張と私は読みました。


    ※著者は、ここで null hypothesis = 「ある人がテロリストでない」として P 値を計算しています。私はこれは null hypothesis に関する典型的な誤解と思いました。null hypothesis = 「テロリスト判定プログラムは、判定できていない」ではないでしょうか? このときの P 値 = (10+99990)/200000000 = 0.0005 で値はほとんど同じですが。
    自信がなくなってきたので消しておきます。

    ところで、最初のご紹介で

    対象読者を考えて数式をほとんど使っていない為、見通しが付けづらい点がありますが、これはないものねだりでしょう。

    とおっしゃっていた事が実感できました。数式がないので、ロジックを理解するために文章を延々読まないといけないのが苦痛になってくる部分があります。数式は伝達効率・正確度という面で優れていると再認識しました。



  • @ソムさん
    この章あたりは突っ込みどころ満載です。
    ベイジアン固有の問題もあればネイマン・ピアソン流の推計にも共通するものもあります。
    その一つが、ブレードランナーの原作のタイトル風にいえば「統計学者は辻占の夢をみるか」です。
    ベイジアン&ビッグデータの組み合わせではこのミスリーディングのリスクが高まると考えています。


  • Global Moderator

    @riffraff さん

    ベイジアン&ビッグデータの組み合わせではこのミスリーディングのリスクが高まると考えています。

    ベイズの確率論については、これまで深夜食堂で何度か話題になりました。「マンデイ・ホール・ショー」のモンティ・ホール問題の解釈や、「定説のない問題」、このスレッドでの p < 0.005 を有意とすべきとした提案書などでです。

    私にとって、ベイズの枠組み、特に、対象を観察することで、対象に関する信念(仮説・推定)が更新されていくという見方は、分かりやすいです。馴染みのある実験科学の考え方に非常に近いからだと思います。例えば2つの仮説A・Bがあったとき、Aの仮説のもとでより生じやすい現象Xを観察すると、Aの仮説が正しい確率が高くなる、というようなことです。モンティ・ホール問題で、ヤギの居る部屋を見る前後で、自分の選んでいた扉が当たりである確率が変わるということも、この枠組みで理解できます。

    確かに、事前確率が何かよく分からないケースはあります。また、例えば気象の観測データから、「明日、雨が降る確率は90%」というときのような、頻度主義を越えた確率について、確率って何?って思うときもあります。ただ、確率論を使うだけの立場からすると、ベイズの枠組みで問題が整理され、計算しやすくなることが多い気がしています。

    まだまだ全体像が見えているとは言えませんが、ベイズ関連はこのような感じに思っています。@riffraff さんが考えておられる高まるリスクがどのようなものか、ご意見をいただけると幸いです。


  • Global Moderator

    雑談です。

    @riffraff さんは、「ネイマン・ピアソン流の推計」とベイズの枠組みの検定・推定を比較して語っておられますが、私は、その背後にある、頻度主義とベイズ主義について書いています。

    ここからは、かなりスペキュレーションが入ります。

    頻度主義とベイズ主義は対立していると書かれることがあります。私が両者を使って思うのは、どちらがより正しい・完全だ、ということでなく、どちらも不完全ではないか?ということです。どちらも、モヤモヤと誤魔化しているところがあって、それぞれ、その部分をうまく避けて語ることで、立派な風を見せている感じです(笑

    誤魔化している点とは、例えば、頻度主義では、1回しか生じない不確かな現象の確率はどう定義するの?という点です。ベイズ主義では、主観確率(信念)って何?ってことです。

    これらの根本原因は、おそらくですが(さらにスペキュレーションの度合いが上がります)、どちらも、近似理論、あるいは、見かけの理論だからだと思います。この世界には、本当は確率などというものはないのに、便宜上、そのようなものがあるようにして計算しているので、どこかで無理が出て不完全な部分が現われるのでは?ということです。

    全くの感想でした。



  • @ソム さん

    母集団における様態の推計と未来における様態の推測は全く異なる問題です。
    ラフに言えば、これが無条件で同値になるのは
    ①母集団が通時的に変化しない。 この時だけです
    ベイジアンの場合は通時的な変化に追従しやすい分、病は深く時間の経過と伴にその予測パラメータリストはパーキンソンの法則に従う事になります。イテレーション(経時的是正)によってこの弊害は回避できるとするのがベイジアン的予測工学の立場でしょうが、カタストロフィックな事態には全く対処できないと考えています。
    とても保守的で、かつ経時的な連続性に懐疑的な元統計屋のコメントです。


  • Global Moderator

    @riffraff さん

    全く考えても居なかった方向からのご指摘です。感銘を受けました。コメント感謝します。
    (こう書くと嫌味っぽくも読めますが、文字通りに読んでください(笑

    サーズディ的思考の暴走が生じました。

    ベイズの枠組み、「対象を観察することで、対象に関する信念(仮説・推定)が更新されていくという見方」は、実験科学ではうまく働きます。それは、科学的真実は変化しない、繰り返せばほぼ同じことが起こるという前提があるからですね。観察を繰り返せば真実に収束していく。しかし、この枠組みは、変化する対象に通用するのか?

    繰り返しパターンもなく、刻一刻と変わっていく政局や、歴史・時局のようなものに、実験科学の方法が通じるのか?です。変化が無視できる短期間には成立するでしょう。しかし、実験をやっているうちに対象が変化する場合には、普通のやり方では通用しませんね。検証すべき仮説自体が変化を要求される。ベイズ推定も同じ問題を抱えるでしょう。

    この状況は、変化する環境に生物が適応しつづける動態、つまり進化に似たところがありそうです。推定と進化の間はどのように繋がるのか?という問題が出てきそうです。掘り下げてみる価値がありそうです。

    パースペクティブ

    問題:

    • パーキンソンの法則の回避
      • モデルの変化とともに、必要なパラメータが累積する問題をどうするのか? あらかじめすべてのパラメータを予知しておくことは不可能である。また、パラメータが限りなく増えていくことをどう防ぐか?

    応用問題(例):

    • 歴史学への実験科学の方法の拡張(レトロスペクティブな従来の方法を超えて)
    • 生物のように動的な環境を推定し対応できるロボットの基礎理論(固定パラメータの値が変化する従来の状況を超えて、モデル自体が変化する場合)

  • Global Moderator

    変化しない世界

    状態推定に用いる Bayes filter について勉強していると、この方法の前提として、Markov assumption というものが出てきます。例えば、以下のようなロボットの教科書です。
    "Probabilistic Robotics"

    A word is in order on the Markov assumption, or the complete state assumption, since it plays such a fundamental role in the material presented in this book. The Markov assumption postulates that past and future data are independent if one knows the current state x_t.

    http://www.probabilistic-robotics.org/

    センサーから得られるデータを元に、ロボットは自分の状態を推定し、行動し、それがまた、自分の状態を更新します。この繰り返しで動作します。これが Bayes filter です(正確には、そのロボティクスへの応用です)。

    このとき、Markov assumptionが意味するのは、センサーのデータに、システマティックな(=ランダムでない)影響を与えるのは、現在のロボットの状態だけであるということです。もしロボットの状態が決っている場合には、センサーからのデータが、過去と未来で独立であるということです。

    つまり、変化するのはロボットの状態だけで、世界は変化しないというモデルのようです。例えば以下の授業用スライド p.11 でも、
    https://people.eecs.berkeley.edu/~pabbeel/cs287-fa13/slides/bayes-filters.pdf
    Markov assumption の言っていることとして、"Static world"と書かれています。

    変化しない世界というのは現実味に欠け奇異に思えますが、Bayes filter がうまくいくには、この仮定が必要になってくるということなのでしょう。以下のような記述もありました:

    For clarity of the presentation, we will initially make the restrictive assumption that the environment is static. This assumption, called Markov assumption, is commonly made in the robotics literature.

    http://www.cs.cmu.edu/afs/cs/project/jair/pub/volume11/fox99a-html/node2.html


  • Global Moderator

    ご紹介:統計学の本の公開

    統計科学のための電子図書システム
    http://ebsa.ism.ac.jp/

    以下、サイトから趣旨を引用します:

    本サイトは, 著者, 出版社等の許可を得た統計科学に関わる書籍を電子化し,公開することを目的としています.
     統計科学, 中でもその理論に関わる書籍は年月の経過にも関わらず普遍的で有用な知見を有しているものが多くあります. しかしながら, 多くが実際に利用されることなく埋もれてしまっています. また, 過去に出版された優れた教科書等も時代の流れの中で散逸してしまっています. 一方, 近年のインターネット, 情報の電子化の技術の発展により, だれもが簡単に, 情報の電子化, 公開が可能な状況です.
     そこで本サイトでは, 著作権者等の協力を得, 絶版等で手に入らなくなった統計科学の理論及び応用に関する書籍を電子化し, 広く社会に公開することにより, 統計科学の一層の発展と実社会への普及をはかりたいと考えています.

    提供出版社一覧:

    • 朝倉書店
    • 河出書店
    • 共立出版
    • 東京大学出版部
    • 日科技連出版社

    以下で登録されている本のリストが分かるようです。
    http://ebsa.ism.ac.jp/docs/provision.php

    間違いでした。↑は一部であり、他にも登録されていました。



  • @ソム さん
    ご紹介有難うございます。
    話は変わりますが黒木学さんの統計的 因果推論 の本読み始めました。
    直観:Path Analysisの拡張進化版のように思えます。
    少し読み進んでからまた感想を書きます。


  • Global Moderator

    本屋の近刊の棚で、因果に関して論じた科学系の読み物を見つけました。恒例の?読んでいない本を薦めるコーナーです(笑

    物事のなぜ ― 原因を探る道に正解はあるか
    cover

    "The Why of Things: Causality in Science, Medicine, and Life" の翻訳本です。

    自然科学や医学、それから、人生においても、なぜそうなったのか?なぜそれが出来たのか?など原因と結果の関係は、多くの人の関心になっています。因果の考え方について幅広く論じているようです。著者は引退した医学系の研究者です。本屋でぱらぱらと見た限りにおいては、私があまり読まないタイプの、やや哲学よりの内容に見えました。しかし、歴史やバイオ研究からの具体的な事例が多く紹介されているような点は、興味を惹かれました。また、因果の論じ方を主題にする本は、これまで、ありそうでなかったように思います。皆さんのご参考までに。



パズルハウスへの接続が失われたと思われます。再接続されるまでしばらくお待ちください。