星辰指揮官原創分享：爲什麽有人說大部分發表的科學研-曆史穿越小說-小說王-台灣最大小說網

原創分享：爲什麽有人說大部分發表的科學研究都是錯的？

“p<0.05”、“同行評審”、“影響因子”被不少科學家成爲科研界的三大牛皮癬，大家對他們怨聲載道。不過和另外兩個不同，p<0.005可是自1925年誕生之日起就飽受诟病，從2010年開始不停又科學家開始對這個統計學中重要指标發起攻擊。2015年時心理學雜志Basic and Applied Social Psychology（BASP）就直接宣布我們再也不發表帶p值的文章啦！然後BASP的編輯在接受自然采訪時表示：如果假設檢驗從所有科研出版物上消失那我會很高興，但是我們還不知道可以用什麽來取代它

那麽這個讓人又愛又恨的P值（P value）到底是個什麽東西呢？

p值的計算可以向上追溯到18世紀，當時人們在統計出生時的男女比例，p值被用于計算男女出生概率相等零假設的統計學顯著性。首先将P<0.005進行推廣的人是羅納德·費雪（ Sir Ronald Aylmer Fisher ，1890-1962），現代統計學與現代演化論的奠基者之一。（就是這位大哥證明了孟德爾的遺傳定律和達爾文的理論并非互相矛盾而是相輔相成。）他在1925年所著的《研究工作者的統計方法（Statistics Methods for Research Workers ）》對後世影響力巨大。正是在這部著作中他提出将p=0.05作爲統計顯著性的極限，并将其應用于正态分布（作爲量爲檢驗），從而得出兩個具有統計顯著性的标準差的規則。

話說這大哥真的是一拍腦門就想出來的0.05啊，0.05純粹就是個人爲設置的值。隻不過後來成爲了大家都公認了這個定值。

加下來我們看一下統計學中的檢驗假設。（以下來自百度百科）

假設檢驗(hypothesis testing)，又稱統計假設檢驗，是用來判斷樣本與樣本、樣本與總體的差異是由抽樣誤差引起還是本質差别造成的統計推斷方法。顯著性檢驗是假設檢驗中最常用的一種方法，也是一種最基本的統計推斷形式。

1、提出檢驗假設又稱無效假設，符号是H0；備擇假設的符号是H1 。

H0：樣本與總體或樣本與樣本間的差異是由抽樣誤差引起的；

H1：樣本與總體或樣本與樣本間存在本質差異；

預先設定的檢驗水準爲0.05；當檢驗假設爲真，但被錯誤地拒絕的概率，記作α，通常取α=0.05或α=0.01 。

2、選定統計方法，由樣本觀察值按相應的公式計算出統計量的大小，如X2值、t值等。根據資料的類型和特點，可分别選用Z檢驗，T檢驗，秩和檢驗和卡方檢驗等。

3、根據統計量的大小及其分布确定檢驗假設成立的可能性P的大小并判斷結果。若P>α，結論爲按α所取水準不顯著，不拒絕H0，即認爲差别很可能是由于抽樣誤差造成的，在統計上不成立；如果P≤α，結論爲按所取α水準顯著，拒絕H0，接受H1，則認爲此差别不大可能僅由抽樣誤差所緻，很可能是實驗因素不同造成的，故在統計上成立。P值的大小一般可通過查閱相應的界值表得到。

p-value就是用來判斷H0假設是否成立的依據。因爲期望值是基于H0假設得出的，如果觀測值與期望值越一緻，則說明檢驗現象與零假設越接近，則越沒有理由拒絕零假設。如果觀測值與期望值越偏離，說明零假設越站不住腳，則越有理由拒絕零假設，從而推出對立假設的成立。

說了這麽一大堆那麽大家可以簡單理解成什麽呢？就是如果你的心理學（神經醫學、醫學等等）實驗得到了p<0.05的檢驗結果那麽大概率你就可以水啊不是寫出一篇論文啦！（雖然遠沒有這麽簡單不同學科要求不同，但一般大家默認是0.05和0.01）

那麽爲什麽會說p值被很多人厭惡呢？

相信曾經有不少人在TED上看過哈佛大學社會心理學家Amy Cuddy的演講，演講的内容是關于“身體語言對于心态的影響”。

其中的内容主要來自于她在2010年發表的關于“調整身體姿态會顯著提升自信”的研究。論文中提出非語言表達（膨脹、開放、占位姿态）可以影響人們的心情，行爲以及激素水平。文章中還提到了在短短兩分鍾内采取支配性和力量相關的身體姿勢可以增加**激素，減少皮質醇，增加對風險的掌控并在工作面試中表現更好。

她因爲這篇研究以及後續的媒體報道而名聲大噪，不但被紐約時報等大媒體關注采訪她寫的書也成功登上暢銷榜。一舉成爲炙手可熱、名利雙收的美國明星社會心理學家。

然而~在2014年，來自瑞典哥德堡大學的 Eva Ranehill。

她和其合作者在2015年發表了一篇名爲“Assessing the robustness of power posing: No effect on hormones and risk tolerance in a large sample of men and women ”看看這論文名字起得：評估力量姿态的魯棒性：在大量男性和女性樣本中激素和風險耐受性沒有影響。這pia pia地打Amy小姐姐的臉啊。

Eva Ranehill在其實驗中，在采取了更大樣本的情況下，無法重現出Cuddy的結果。這篇論文引起的風波直接導緻了對于Amy Cuddy的廣泛批評，後來她在2017年春季離開了哈佛商學院的終身職位。（Cuddy後來又在2018年3月重新發表了一篇相關論文來證明自己）

我們再來看看另一個有趣的例子。2015年在西方媒體中，一份論文引發了一陣熱潮。

天啦撸~每天吃一塊巧克力可以減肥啦！！！！！

在這個研究中心，男女年齡在19到67歲之間的參與者被随機分配到三個治療組之一：第一組進行低碳水化合物飲食，第二組進行相同的低碳水化合物飲食加每天42克巧克力（1.5盎司），第三組則是對照組，要求他們保持日常飲食結構。

實驗在三周之後結束，對照組的體重不增不減，第一組和第二組的參與者一樣平均減掉了2.3kg的體重，但是加餐了巧克力組的減肥速度比不吃巧克力的組快10%。這個實驗結果在統計學上是顯著的，因爲p值小于0.05。

你可以想象這個結果有怎樣的爆炸性，新聞媒體立刻跟進，吃巧克力能減肥的消息迅速傳播開來。結果呢？

五月的時候，這位大哥跳了出來，注意一下他和論文中第一作者的名字差别。這篇論文從頭到尾都是一個玩笑。這位Bohannon是何許人也，他是美國著名的科學記者和生物學家。這篇論文就來自于他故意設計的惡意研究，他想要通過這個時間來觀察媒體如何捕獲和吸收“無意義”的研究結果。

他用這篇論文向二十家期刊投稿，并最終被國際醫學檔案館（International Archives of Medicine）發行。他使用了一個假名字并虛構了一個假的研究機構，但是這篇充滿惡趣味的論文卻登上了大量的世界性媒體。

接下來，我們來看看他是如何操縱實驗結果的。

首先，實驗樣本十分小，隻有15個人被分到了三組，這意味着每組隻有5個人。每個人被測量追蹤了18個不同的身體指标，包括體重、膽固醇、鈉含量、血蛋白水平、睡眠質量、幸福度等等。他們通過如此設計大大增加了實驗指标中出現假陽性的可能性，如果體重沒有顯著差異，還有很多其他因素可能有。

此處體現p值操縱（p-hacking，或者Data dredging， data fishing， data snooping， data butchery 誰知道爲啥有這麽多名字）p值的一個重要特點是它隻對單一指标有效，一旦在實驗中比較了一大堆變量，那麽變量中出現假陽性的概率就被大大提高了。研究人員可以在實驗分析中采取很多手段來主動降低p值。

舉個例子，我想要實驗豆類對于人心情的影響，那麽我可以使用一大堆變量。首先是人，抑郁程度、睡眠時間、自我評價等等，然後是豆類，黑豆、紅豆、黃豆、青豆等等。如果足夠幸運的話，我也許就能夠從中找到一組假陽性的數據并發表論文。标題呢？吃紅豆有助于改善抑郁症狀，哇啦，又是一篇微博朋友圈的話題來源~

那麽p值操縱現象在科學界到底有多普遍呢？人們一般會使用p值分布（p-curve）來判斷是否有認爲對p值進行了操縱。有研究表明，在大多數學科的公開論文中，p值更多的落在了0.05和0.01附近的區間。

在實驗研究中研究人員在收集和分析數據的過程中需要作出很多決定：是否應該收集更多數據？是否應排除某些觀察結果？應結合哪些條件，并比較哪些條件？應該考慮哪些控制變量？是否應結合或改變具體措施或同時采取這兩種措施？這些實驗過程中的操縱，或有意或無意的将實驗結果推向了更具有統計學意義的結果。

2015年，社會心理學家，弗吉尼亞州夏洛茨維爾市開放科學中心負責人Brian Nosek和269位合著者重複了三份心理學期刊發表的98篇原創論文中的報道。他們一共複制了100項已有的心理學研究，發現隻有39個研究能得到之前宣稱的“顯著”結果。在其它學科的類似複制研究中，經濟學的通過率是60%，生物醫藥可能更低。

從這一年開始，科學界開始加大聲量呼籲采取一個更加嚴格的p值來規範學術行爲。2015年發表在《科學》上的研究顯示使用更小p值（p<0.01）的研究複制成功幾率較高。雖然這并不能從根本上解決p值操縱的問題，不過這畢竟是朝着更嚴謹的方向前進了一步。從p值這個小角度我們也可以看到科學界中某些問題，比如在學術壓力下更傾向于發表有數據可以做出顯著性的研究，而不是真正思考有價值的課題。

最可怕的是想一想人們在科學這個最尋求嚴謹使用着完善數學工具的領域，經過成熟實驗标準化、複雜數學統計、嚴格同行審議之後依舊會有如此多的不正确信息被正規的科學期刊出版~那麽當人類在非理性的狀态時又會有多頻繁地自欺欺人呢？

寫這篇文章的原因在于我發現我們經常可以在互聯網上看到如下的句式：某國科學家研究表明某大學實驗團隊研究表明某某研究報告證實後面緊跟着的就是一個十分打破常識的内容。吃巧克力減肥吃黃油減肥吃高熱量食物減肥等等都爲微博等平台提供了不小的流量。通過這篇文章，我想讓大家了解一下這背後的原理。媒體總是喜歡選擇這些引人注意、吸人眼球的内容，作爲一名普通人我們一定要對這些看似科學的内容保持冷靜。

(本章完)