這個數字幾乎所有實驗室都在用，卻讓科學界陷入危機

2019-11-08 1168

核心提示：近100年來，幾乎所有科學家在分析實驗數據時，都會用到p值這個工具：只有p小于0.05，才意味著實驗結果具有統計顯著性，才能在學

近100年來，幾乎所有科學家在分析實驗數據時，都會用到p值這個工具：只有p小于0.05，才意味著實驗結果具有統計顯著性，才能在學術期刊上正式發表。但是，統計顯著性的概念以及支撐它的p值具有相當大的局限性。而正是這樣的缺陷，讓整個科學界都處于危機中。

　　這篇選自《環球科學》11月新刊的文章，為我們講述了P值危機。

　　1925 年，英國遺傳學家兼統計學家羅納德·菲舍爾（Ronald Fisher）出版了《研究者的統計方法》（Statistical Methods for Research Workers）一書。這本書的書名在當時看起來并不會“暢銷”，但實際上這本書卻取得了巨大的成功，而且還使菲舍爾成為現代統計學之父。在這本書中，他著眼于研究人員如何將統計檢驗理論應用于實際數據，以便基于數據得出他們所發現的結論。當使用某個統計假設來做檢驗時，該檢驗能夠概述數據與其假設的模型之間的兼容性，并生成一個p值。

　　菲舍爾建議，作為一個方便的指南，研究人員可以考慮將p值設為0.05。對于這一點，他專門論述道：“在判斷某個偏差是否應該被認為是顯著的時候，將這一閾值作為判斷標準是很方便的。”他還建議，p值低于該閾值的結論是可靠的，因此不要把時間花在大于該閾值的統計結論上。因此，菲舍爾的這一建議誕生了p小于0.05等價于所謂的統計顯著性，這成了“顯著”的數學定義。

　　菲舍爾的遺憾

　　近一個世紀之后，在科學研究的許多領域，p值小于0.05被認為是確定實驗數據可靠性的金標準。這個標準支持了大多數已發表的科學結論，違反這一標準的論文很難發表，而且也很難得到學術機構的資助。然而，即使是菲舍爾也明白，統計顯著性的概念以及支撐它的p值具有相當大的局限性。

　　P值經常被曲解，統計的顯著性不等于實際的顯著性。此外，為了讓數據更漂亮，很多研究人員有意無意地將p值向上或向下調整。美國加利福尼亞大學洛杉磯分校的名譽教授、統計學家和流行病學家桑德·格林蘭德（Sander Greenland）說：“你可以用統計學方法來證明任何事情。”他是呼吁統計學改革的科學家之一。只依靠達到統計顯著性的研究經常會得出不準確的科學結論，這種判斷標準可以把真的事情判斷為假的，也可以把假的事情判斷成真的。在菲舍爾退休，移居澳大利亞后，有人問他，在漫長的職業生涯中他是否有任何遺憾，他明確回答道：“當初不該提出0.05。”

統計學家羅納德·菲舍爾。圖片來源：維基百科

　　在過去十年里，關于統計重要性的爭論以不尋常的強度爆發。援引兩篇論文的觀點：一篇文章稱統計分析的薄弱基礎導致了“科學最骯臟的秘密”；另一篇則提到，在檢驗某些假設時，存在“許多深層次的缺陷”。在爭議聲中，實驗經濟學、生物醫學研究，特別是心理學被卷入了一場科學實驗可重復性的危機之中。在這場危機中，科學家發現相當一部分研究是不可重復的。

　　一個臭名昭著的例子是“姿態能量”的概念，某篇論文聲稱，自信的肢體語言不僅會改變你的態度，還會改變你的激素分泌，后來這篇文章還被作者自我否定了。美國哥倫比亞大學的統計學家安德魯·格爾曼（Andrew Gelman）在他博客寫道：“一篇可疑的關于氣候經濟學影響力的論文，多年之后發表了勘誤聲明，最終被修正的錯誤結論幾乎與原論文的數據點一樣多，這可不是開玩笑！但勘誤聲明中這些更正都不足以讓作者改變結論。” 格爾曼還說道：“嘿，只做理論上的工作就可以了，但不需要用數據分散我們的注意力。”

　　統計顯著性的概念雖然不是引起問題的唯一因素，但很明顯，它是引起問題的一個關鍵要素。在過去的三年里，數以百計的研究人員呼吁統計學改革，他們在著名期刊上發表文章，重新定義統計顯著性，或干脆放棄統計顯著這個概念。美國統計協會（ASA）在2016年就這一問題發表了一份強有力且不同尋常的聲明，主張“進入一個沒有p<0.05的世界”。美國統計協會執行董事羅納德·瓦瑟斯坦（Ronald Wasserstein）這樣說：“科學家總是說，我有小于0.05的p值，這很好。但這種粗糙的判斷方法，使得科學因此停止了。”

　　問題是，事態會不會有什么變化。美國南加利福尼亞大學的行為經濟學家丹尼爾·本杰明（Daniel Benjamin）表示：“這已經不是新鮮事了。我們需要清醒地認識到，這一次將與以往一樣，大家說要變革統計學，最終卻不了了之。”很多人在變革統計學的具體措施上有分歧，正如美國經濟學家斯蒂芬·齊利亞克（Stephen Ziliak）所寫的那樣：“令人吃驚的是，還有不少研究者堅持使用統計顯著性檢驗、統計結論解釋和統計分析報告這三個例行公事的傳統套路。”

　　可重復性危機

　　科學的目的是描述自然界中的真實情況。科學家使用統計模型來推斷真相，比如確定一種治療方法是否比另一種更有效。每個統計模型的分析結果，取決于科學家如何收集數據，如何分析數據，以及研究人員如何有選擇性地展示他們的結果。

　　以統計方法為中心，實驗結果的檢驗被稱為零假設顯著性檢驗，這個過程會產生一個p值。P值只是對事情有一個模糊的描述。“當我們進行實驗時，我們想知道的是——我們的假設是真的嗎？”本杰明說，“但是，顯著性檢驗回答了一個令人費解的替代問題，那就是，如果我的假設是錯誤的，我的數據有多大的概率導致錯誤的結論？”

　　當然了，p值也有奏效的時候。一個極端但有用的例子是尋找希格斯玻色子（Higgs boson）。希格斯玻色子是物理學家于20世紀60年代首次在理論上提出的粒子。零假設是希格斯玻色子不存在；對立假設是它必須存在。歐洲核子研究中心的物理學家用大型強子對撞機進行了多次實驗，得到了極其小的p值，以至于如果假設不存在希格斯玻色子的話，其結果發生的可能性就只有350萬分之一。這么小的p值意味著，沒有希格斯玻色子的粒子物理標準模型幾乎不可能是正確的。

　　但是，物理學的這種精確度在其他學科是無法達到的。當做人的心理學實驗的時候，p值永遠不會達到300萬分之一。P值為0.05時，在許多重復實驗中，每20次實驗中就有1次實驗錯誤地否認了正確的假設。這就是為什么統計學家很早以前就增加了“置信區間”這個概念，作為一種讓科學家估計誤差或不確定性的方法。置信區間在數學上與p值息息相關。P值在0到1之間變動。如果把1減去0.05，得到的0.95就是95%的首選置信區間。但是，但是，置信區間只是一個比較好地概括實驗結果的方法，可以體現多種效應量（effect size，做了實驗處理的平均結果與不做實驗處理的平均結果之間的差異）。格林蘭德說：“置信區間也沒有任何東西能激發人們的信心。”隨著時間的推移，置信區間和p值一樣，給人們提供了一種確定性的錯覺。

　　P值本身不一定是問題的本質所在。期刊編輯、科研資助機構和監管機構宣稱，p值的分析在論文中是一個非常有用的工具。因此，令人擔憂的情況正在發生，統計顯著性的重要性被夸大或過分強調了。2015年，可重復性危機項目（現為開放科學中心）開展了一項實驗，對100篇重要的社會心理學論文進行了重復性檢驗，結果發現只有36.1%的論文的結論可以被重復出來。2018年，社會科學可重復性項目評估了《自然》與《科學》在2010年至2015年間發表的21項社會科學實驗研究的可重復性。他們發現，與原研究相比，其中只有13項研究中（約占總研究的62%）的重復實驗產生了顯著結果。

圖片來源：slate

　　從0.05到0.005

　　很多學科的科學家已經達成了共識：對p值的誤解，以及過分強調統計顯著性，才是真正的問題，盡管有些人對濫用p值的嚴重性持較溫和的態度。美國康涅狄格大學的社會心理學家布萊爾·約翰遜（Blair T。 Johnson）說：“從長遠來看，科學界經常是這樣子的，鐘擺會在兩個極端之間搖擺，你必須接受這一點。”他說，這一輪p值危機的好處是，可以提醒科學家謹慎對待實驗結果。

　　但是，要想真正取得進展，科學家必須就解決方案達成共識，這是很困難的。盡管如此，有用的建議還是很多的。這些建議包括改變統計方法，或者改變統計分析的使用方式等。最突出的觀點已經在一系列論文中提出，這些論文始于2016年的美國統計協會聲明，其中20多位統計學家就改革的若干原則達成了一致意見。隨后，該協會所屬的一本期刊還專門制作了特刊，就這一事件發表了一系列文章。

　　2018年，由72位科學家組成的小組在《自然·人類行為》上發表了一篇名為《重新定義統計意義》的評論文章，贊同將統計顯著性的閾值從0.05調整到0.005。這篇文章的主要作者本杰明認為：“這是一個不完美的短期解決方案，但可以立即實施。我擔心的是，如果我們不立即做這事，我們將失去變革的動力，而我們最終將花費所有的時間爭論理想化的解決方案。”

　　另一些人則認為，重新定義統計顯著性沒有好處，因為真正的問題是閾值始終存在。今年3月份，瑞士巴塞爾大學的流行病學家、動物學家瓦倫丁·阿姆萊因（Valentin Amrhein）與美國西北大學的統計學家、市場營銷專家布萊克利·麥克沙恩（Blakeley McShane）在《自然》雜志上發表了一篇評論文章，主張放棄統計學顯著性的概念。他們建議將p值作為一個連續變量，并將置信區間（confidence intervals）重命名為“相容性區間”（compatibility intervals），以反映它們彰顯的實際意義：評估數據的相容性，而不是置信度。

　　顯然，有更好的（至少是更直接的）統計方法可以用。格爾曼經常批評其他人的統計方法，他在工作中根本沒有使用零假設顯著性檢驗。他更喜歡貝葉斯方法，這是一種基于初始信念的、更為直接的統計方法，在這種方法中，研究人員接受最初的信念，添加新的證據并更新信念。格林蘭德正在推廣使用一種叫做稀奇程度（surprisal）的新數學量，可以調整p值以產生信息位（如計算機比特位）。為了檢驗原假設，0.05的p值僅有4.3比特的信息熵（假設有一枚均勻的硬幣，拋硬幣出現正面設為0、出現反面設為1，則拋一個硬幣事件的信息熵就是1個比特。獨立地拋256次硬幣的信息熵就是256個比特。那么求解方程0.5x=0.05，解得0.05的概率約為拋擲x=-log20.05=4.3次，于是0.05的p值約為空值的4.3比特的信息熵。

　　所謂信息熵就是某個概率分布所包含的信息量的多少，這是信息論的基礎知識。在信息論中，如果你對一件事情的發生百分之百確定，那么這件事情對你來說的信息熵等于0比特。反過來說，如果你對一件事情是不確定的，那么這件事情對你來說是包含信息熵的。格林蘭德認為，如果研究人員不得不在每一個p值旁邊加上一個稀奇程度，那么他們將被置于更高的標準之下。強調效應量（effect size），即發現差異的大小，也將有所幫助。

圖片來源：pixabay

　　擁抱不確定性

　　統計顯著性滿足了研究人員對確定性的需求。格爾曼說：“這里的原罪是研究人員在得不到確定性的時候卻想要確定性。” 或許，現在是時候讓我們接受不確定性了。

　　科學界正在發生微小的變化。《新英格蘭醫學雜志》的發言人詹妮弗·蔡斯（Jennifer Zeis）說：“我們同意，p值有時被過度使用或被曲解了。對于治療來說，如果我們認定p<0.05，治療的結果是有效的；如果p>0.05，治療是無效的。那么這就是醫學的簡化主義，它并不總能反映客觀事實。”蔡斯同時強調，《新英格蘭醫學雜志》的研究報告現在已經很少使用p值了，更多是采用置信區間而不是使用p值這個概念。

　　根據美國食品及藥品管理局（FDA）的生物統計學部門的負責人約翰·斯科特（John Scott）的說法，關于p值的應用，臨床試驗的要求還沒有發生任何變化。

　　麥克沙恩說：“最關鍵的是，p值不應成為看門人。我們應該采取更全面、更細化和更容易評價的指標。”其實，這個觀點在歷史上就有人贊同，甚至在與菲舍爾同時代的人中，也有人支持這一觀點。比如在1928年，另外兩位統計學大師杰爾茲·內曼（Jerzy Neyman）和艾根·佩爾松（Egon Pearson）在撰寫統計分析報告時寫到：“統計檢驗本身并沒有給出最終的結論，而只是作為一個參考工具幫助人們做出最終的決策。”

　　撰文：莉迪婭 · 登沃斯（Lydia Denworth）

　　翻譯：張慧銘

點贊 0反對 0舉報 0 收藏 0 打賞 0

更多>同類資訊

推薦圖文

王忠林調研推進湖北實	北京大學建重量級實驗
海河實驗室創新聯合體	疫情期間，這些高校科

推薦資訊

點擊排行

• 與多家機構合作共建聯合實驗室五邑大學產業對	• 貴陽企業獲國家實驗室認證！
• 科技考古省重點實驗室面向公眾開放	• 生物醫藥園建起共享實驗室
• 牢記囑托建成支點丨10家產業創新聯合實驗室產	• 中工設計科學聯合實驗室在蘇州正式啟用
• 山東省市場監管局來聊開展共享實驗室指導調研活	• 話題:科技成果轉化“助推器”！四川天府新區推
• 科技成果轉化“助推器”！四川天府新區推動共享	• 17日起，就在上海！重點實驗室、大科學設施將開

黄视频欧美_超碰欧美_97久久久久久久久_久久久久久国产精品免费免费狐狸_在线免费小视频_中文字幕 国产精品

這個數字幾乎所有實驗室都在用，卻讓科學界陷入危機

黄视频欧美_超碰欧美_97久久久久久久久_久久久久久国产精品免费免费狐狸_在线免费小视频_中文字幕国产精品