【オタク向け】論文から正しい情報を取るための用語集

こんにちは、なすびです。

今日は論文の用語についてです。

テーマ

もしかしたら混乱するかもだけど、一応知っておくといいかもしれない論文用語たち

論文の質を判断するための用語集！
サンプル数
内的妥当性と外的妥当性
選択バイアス
クロスオーバー試験(前後比較研究)
二重盲検化
確証バイアス
P値
95％信頼区間
出版バイアス
スポンサーシップバイアス

論文の質を判断するための用語集！

f:id:nasubi-healthcare:20191209165533j:image

「情報の質は研究デザインの質で決まる！」というのは以前書いた通りでございます。「玄米が体に良い！」という根拠がマウス実験であれば、「まだ動物実験だからちょっとわからないな〜」くらいの感覚になりますし、根拠がメタ分析になると「これは試してみる価値がありそうだ」くらいになるわけですね。この辺をチェックしてもらえるとある程度は情報に格付けが出来るので、少しは情報とお付き合いしやすくなるのかなと思います。

そんな健康情報の信頼度をざっくり判断するには、以前書いたエビデンスの質ランキングを参考にしてもらえると良いんですけど、その中でもいろんな用語があるので、この辺は押さえておくとさらに情報の格付けがしやすくなるかなと。この辺は分かると結構楽しかったり反面、「なんでそんなに分かりにくい表現にしちゃったの～」と思うところはありますが、今回は『ちょっとオタク向けの内容』ということでよろしいお願いします。(｀・ω・´)

サンプル数

ではさっそくサンプル数について。

サンプル数というのは研究においての参加者の数のことでして、これは基本的に多ければ多いほど研究の信頼度は高くなります。(アルファエラーとかベータエラーは除く)

例えば日本人の平均身長を調べたいとなった時は、100人集めて平均を出すよりは、1000人集めた方が正確な値が出そう感じがするじゃないですか。そんな感じで、「A薬は効果があるのか？」ということを100人に試すよりは、1000人に試して研究を行った方が個人差の少ない、正確な値が出るといったイメージですね。

サンプルは基本的に多ければ多いほど良い！という点を押さえてもらえればOKです。

内的妥当性と外的妥当性

漢字だけで難しそうな雰囲気を出しておりますが、この２つはエビデンスにおいては非常に大切な考え方になるので、押さえておいて損はないかと。

めちゃくちゃざっくりと言えば

内的妥当性：その研究、やり方大丈夫？
外的妥当性：その結果、他の人にも当てはまる？

みたいな感じ。

「ナッツで痩せるだ！」なんて研究が出たとしても、そもそも研究がちゃんとしてないと情報の質が下がっちゃいますし、痩せるにしてもどんな人にダイエット効果があるのか(太っている人？高齢者？それとも子供？)というところを見ておかないと、「痩せている人が逆にナッツで太ってしまった！」なんてことになりかねないので、この二つはチェックしておいた方がいいわけです。

ではそんな内的妥当性と外的妥当性について細かく見ていきましょう。

＜内的妥当性＞

内的妥当性についてもう少し詳しくいうと、因果関係がはっきりしてるかどうかみたいなことですね。

例えば、「アサガオが成長するのに日光がどのくらい大切なのか？」を調べたかったら、アサガオを２つ用意して『日光を当てる方』と『日陰で育てる』ように分ける、といったやり方をするのは何となくイメージがつくかと。

ただここで『日陰で育てている』アサガオより、『日光を当てる方』のアサガオの水を多くしてしまうと、成長の仕方に差が出てしまうわけです。このやり方で「日光の方が成長する！」という結果が出たとしても、「いやいや、水の量が多かったからじゃん！」みたいなことになってしまうわけですね。

このときしっかりと日光の効果を図りたいのなら、水の量は同じにするとか、土の種類を揃える、湿度も同じにするみたいな感じで、日光が当たるか当たらないか以外の条件は統一しないといけないわけですね。

こんな感じで因果関係を示したいこと以外の状況を統一してないと、内的妥当性が低いということになって、情報の質が低くなってしまうわけです。内的妥当性を高めるのってすごく大変なんですけど、それを揃えるために色んな研究のやり方があるわけです。

ちなみにRCTのエビデンスランキングが高いのは、この内的妥当性が高いからになります。

＜外的妥当性＞

こちらも少し詳しく書くと、他の人にも同じ結果が出るのかどうか？みたいなこと。

もっと具体的にすると「Aさんは糖質制限で痩せたけど、Bさんはどうなんだろう」みたいな感じなんですけど、研究では「肥満体型の人が糖質制限で痩せる！」という結果が出たからといって、普通体型の人は痩せるのかわからないわけです。痩せるかもれないし、もしかしたら逆に太ってしまう可能性もなくはないので、「普通体型の人が糖質制限したらどうなるのか？」というのは普通体型の人を対象に実験を行う必要があるわけですな。

ちなみに「糖質制限は誰でも痩せるのか？」ということを調べていくことを一般化するなんて言ったりしますが、ロイヤルゼリーなんかは高齢者の女性を対象した研究が多いので、「男性はどうなんだろう？」とか「30代に効果が出るのかはまだ分からない！」というところは、データが少ないので一般化できてないわけです。なので幅広い年齢や色んな体型の人を対象にした研究があれば、何か健康法を試してみたときに、自分にも効果がある可能性が高い！ということですね。

個人的には「どんな人を対象にしているのか？」チェックするのはおススメです。

選択バイアス

これは研究の参加者によって結果が変わっちゃうみたいな感じになりまして、先の内的妥当性と外的妥当性の話に近いです。

例えば「不安に効く薬の被験者募集中です！」なんて張り紙を見て実験に集まった参加者はどんな人なのか？ということを考えると、そもそも「自分の不安を何とかしたい！」という意欲が高い人だったり、薬の効果にすごく期待した人が集まったりする可能性があるわけですな。

そんな人が研究に参加するとどうなるかと言いますと、プラシーボ効果が働きやすかったり、意欲的なあまり良い結果が出やすくなってしまったりと結果が偏りやすくなるわけです。この辺はRCTだと問題ないんですけど、それ以外だと選択バイアスの影響をモロに受けやすくなってしまいますね。

クロスオーバー試験(前後比較研究)

研究の種類は過去にいくつか紹介しましたけど、クロスオーバ試験については触れてなかったのでここで書いていこうかと。

クロスオーバー試験は〇〇した後に△△するような研究になりまして、ダイエットの例で言えば、

低脂肪の食事を3日してもらった後に体重を計ってもらう

↓＜2週間は好きな食事をしてもらう(ウォッシュアウト)＞

次は低糖質の食事を3日してもらった後に体重を計る

みたいな感じ。

低脂肪ダイエットの後に低糖質ダイエットをしてもらうやり方で、間のウォッシュアウトというのは低脂肪ダイエットの影響をリセットするために休憩時間みたいなイメージですね。

ただこの研究のやり方には難点がありまして、この例で言えば、「先にやった低脂肪ダイエットが後にやった低糖質ダイエットに影響を与えてない？」みたいな問題が生まれるわけですね。「低糖質ダイエットの方が痩せたのは先に低脂肪ダイエットをやっているからだ！」といった感じで、内的妥当性に悪影響が出てしまうわけです。なのでエビデンスの質としてはRCTより低めになります。参加者の数は少なくていいので、コスパはいいんですけどね〜。

二重盲検化

こちらも研究の質を上げるのに重要なものになります。

二重盲検化というのは以下のように

被験者：ホンモノの薬かニセモノの薬を飲んでるかわからなくする

研究者：誰がホンモノの薬で誰がニセモノの薬を飲んでいるかわからなくする

と言った状況を作ることで、被験者のプラシーボ効果を防いだり、研究者の不正を防いだりできるわけです。RCTで盲検化をしてると、情報の信頼度がアップしますね。二重盲検化以外にも盲検化と三重盲検化とかもあります。

確証バイアス

これは自分が信じる情報を積極的に集めてしまうといった現象。

例えば糖質制限を信じている人はであれば、「糖質制限が痩せる！」みたいな肯定的な情報ばかり集めて、「糖質制限は危険、意味ない！」みたいな否定的な情報は門前払いにするみたいな考え方のことです。

個人的にも「確証バイアスを拭い去るのは大変だな〜」と思っておりまして、「ジャンクフードがメンタルに良い！」なんていう質の高い研究が出ても、正直信じられる気がしませんので、、、。(笑)「今まで野菜を食ってたのはなんなのだ！」ってなっちゃうので、「ジャンクフードがメンタルに悪い」という情報を、無意識に集めてしまうみたいな感じですね。

まあ自分が信じているものが批判されるのは嫌な気分になりますけど、批判的な情報に目を通しておくのも、比較的正しい情報を取る上でも大切なので頑張りたいです。(・・;)

P値

論文の中でp＝0.19みたいに書いてあったりすると思うんですけど、これは簡単に言えば効果があるなしがわかる指標みたいな感じ。効果の大きさではなく、あくまでも有るか無いかというところにご注意を。(´ｰ｀)

例えばナッツにダイエット効果があるのか？みたいな研究をした時に、

体重が減少した！(p＝0.001)

となれば、P値が小さいので「ナッツで体重が減少した！」ということになります。

逆に(p＝0.61)みたいに大きな値になると、「体重が減少したのはナッツ以外(ex.運動、睡眠)にも原因がありそうだな」となってしまうわけです。前者を統計的に有意である、後者を統計的に有意でないと言ったりします。実にわかりにくいですねえ〜。まあP値は小さければ小さいほど良いんだな、みたいな印象を持ってもらえると良いでしょう！

では「P値はどのくらい小さいと良いのか？」というポイントですが、基本的には（p=0.05）以下だど望ましいと言った感じですね。なのでp=0.01だとよりグットですし、p＝0.50だと大きいので「ナッツと体重の減りとは関係なさそうだな〜」言ったところでしょう。だいたいP値が高いと論文でも、「ナッツは体重の減少とは関係ありませんでした。」なんて書いてくれてたりするので、合わせて見てみるといいかも。

ちなみに「論文中に効果がありました！」なんて記載があっても、P値が書いてないとちょっと危険。効果のあるなしはP値の小ささでわかるので、記載がなければ「この論文大丈夫か？」と警戒したほうが良さそう。

95％信頼区間

統計学ではお馴染みの指標なんですけど、これはほんと理解に苦しみました、、、。具体例を見たほうが早いと思うので、早速書いていくと、例えば糖質制限ダイエットで

4kg体重が減った！(95％信頼区間 −8kg〜0kg)

と書いてあったとしましょう。

これをどう見るのかというと、「95％の確率で糖質制限は−8kg〜0kgダイエット効果があります！」といった感じ。糖質制限で何キロ痩せるかはわからないけど、ほとんどの確率で「−8kg〜0kgの範囲で痩せられそうだ！」という風に捉えることができます。残りの5％はもしかしたら8kg以上痩せるかもですし、もしかしたら逆に太ってしまうかもしれない！といった感じです。

ちなみにこの結果だと0kgや1kgしか痩せない可能性もあるので、効果が有るのかは何とも言えないところ。これが(95％信頼区間–10kg〜−2kg)なんて結果になると、「最低でも2キロは痩せるのか、なんだか痩せそうだな！」とちょっと期待値が上がるわけです。

しかしながら例えばこれが

4kg体重が減った！(95％信頼区間 −12kg〜4kg)

なんて表記になると、逆に4キロ太ってしまう可能性が出てきてしまうわけです。この95％信頼区間は0を跨いでしまうと効果が有るなしが曖昧になってしまうので、ここも見ておく必要があります。ちなみにロイヤルゼリーが血糖値を改善するのか？というメタ分析では［95％信頼区間：-5.83から3.87］と0を跨いでいるので、「効果が有るのか無いのかわからない！」どころか悪化する可能性もあるので、「手を出さないほうがいいかも」ということになります。あとはさっきの−8kg〜0kgより減量の範囲が広いので、「個人差がデカそうだな」という解釈もできます。

この辺はとりあえず「信頼区間が0を跨いでないかどうか？」だけでも見る価値はありそうです。