原創分享:為什麼有人說大部分發表的科學研
原創分享:為什麼有人說大部分發表的科學研究都是錯的?
“p<0.05”、“同行評審”、“影響因子”被不少科學家成為科研界的三大牛皮癬,大家對他們怨聲載道。不過和另外兩個不同,p<0.005可是自1925年誕生之日起就飽受詬病,從2010年開始不停又科學家開始對這個統計學中重要指標發起攻擊。2015年時心理學雜誌BasicandAppliedSocialPsychology(BASP)就直接宣佈我們再也不發表帶p值的文章啦!然後BASP的編輯在接受自然採訪時表示:如果假設檢驗從所有科研出版物上消失那我會很高興,但是我們還不知道可以用什麼來取代它
那麼這個讓人又愛又恨的P值(Pvalue)到底是個什麼東西呢?
p值的計算可以向上追溯到18世紀,當時人們在統計出生時的男女比例,p值被用於計算男女出生概率相等零假設的統計學顯著性。首先將P<0.005進行推廣的人是羅納德·費雪(SirRonaldAylmerFisher,1890-1962),現代統計學與現代演化論的奠基者之一。(就是這位大哥證明了孟德爾的遺傳定律和達爾文的理論並非互相矛盾而是相輔相成。)他在1925年所著的《研究工作者的統計方法(StatisticsMethodsforResearchWorkers)》對後世影響力巨大。正是在這部著作中他提出將p=0.05作為統計顯著性的極限,並將其應用於正態分佈(作為量為檢驗),從而得出兩個具有統計顯著性的標準差的規則。
話說這大哥真的是一拍腦門就想出來的0.05啊,0.05純粹就是個人為設置的值。只不過後來成為了大家都公認了這個定值。
加下來我們看一下統計學中的檢驗假設。(以下來自百度百科)
假設檢驗(hypothesistesting),又稱統計假設檢驗,是用來判斷樣本與樣本、樣本與總體的差異是由抽樣誤差引起還是本質差別造成的統計推斷方法。顯著性檢驗是假設檢驗中最常用的一種方法,也是一種最基本的統計推斷形式。
1、提出檢驗假設又稱無效假設,符號是H0;備擇假設的符號是H1。
H0:樣本與總體或樣本與樣本間的差異是由抽樣誤差引起的;
H1:樣本與總體或樣本與樣本間存在本質差異;
預先設定的檢驗水準為0.05;當檢驗假設為真,但被錯誤地拒絕的概率,記作α,通常取α=0.05或α=0.01。
2、選定統計方法,由樣本觀察值按相應的公式計算出統計量的大小,如X2值、t值等。根據資料的類型和特點,可分別選用Z檢驗,T檢驗,秩和檢驗和卡方檢驗等。
3、根據統計量的大小及其分佈確定檢驗假設成立的可能性P的大小並判斷結果。若P>α,結論為按α所取水準不顯著,不拒絕H0,即認為差別很可能是由於抽樣誤差造成的,在統計上不成立;如果P≤α,結論為按所取α水準顯著,拒絕H0,接受H1,則認為此差別不大可能僅由抽樣誤差所致,很可能是實驗因素不同造成的,故在統計上成立。P值的大小一般可通過查閱相應的界值表得到。
p-value就是用來判斷H0假設是否成立的依據。因為期望值是基於H0假設得出的,如果觀測值與期望值越一致,則說明檢驗現象與零假設越接近,則越沒有理由拒絕零假設。如果觀測值與期望值越偏離,說明零假設越站不住腳,則越有理由拒絕零假設,從而推出對立假設的成立。
說了這麼一大堆那麼大家可以簡單理解成什麼呢?就是如果你的心理學(神經醫學、醫學等等)實驗得到了p<0.05的檢驗結果那麼大概率你就可以水啊不是寫出一篇論文啦!(雖然遠沒有這麼簡單不同學科要求不同,但一般大家默認是0.05和0.01)
那麼為什麼會說p值被很多人厭惡呢?
相信曾經有不少人在TED上看過哈佛大學社會心理學家AmyCuddy的演講,演講的內容是關於“身體語言對於心態的影響”。
其中的內容主要來自於她在2010年發表的關於“調整身體姿態會顯著提升自信”的研究。論文中提出非語言表達(膨脹、開放、佔位姿態)可以影響人們的心情,行為以及激素水平。文章中還提到了在短短兩分鐘內採取支配性和力量相關的身體姿勢可以增加**激素,減少皮質醇,增加對風險的掌控並在工作面試中表現更好。
她因為這篇研究以及後續的媒體報道而名聲大噪,不但被紐約時報等大媒體關注採訪她寫的書也成功登上暢銷榜。一舉成為炙手可熱、名利雙收的美國明星社會心理學家。
然而~在2014年,來自瑞典哥德堡大學的EvaRanehill。
她和其合作者在2015年發表了一篇名為“Assessingtherobustnessofpowerposing:Noeffectonhormonesandrisktoleranceinalargesampleofmenandwomen”看看這論文名字起得:評估力量姿態的魯棒性:在大量男性和女性樣本中激素和風險耐受性沒有影響。這piapia地打Amy小姐姐的臉啊。
EvaRanehill在其實驗中,在採取了更大樣本的情況下,無法重現出Cuddy的結果。這篇論文引起的風波直接導致了對於AmyCuddy的廣泛批評,後來她在2017年春季離開了哈佛商學院的終身職位。(Cuddy後來又在2018年3月重新發表了一篇相關論文來證明自己)
我們再來看看另一個有趣的例子。2015年在西方媒體中,一份論文引發了一陣熱潮。
天啦擼~每天吃一塊巧克力可以減肥啦!!!!!
在這個研究中心,男女年齡在19到67歲之間的參與者被隨機分配到三個治療組之一:第一組進行低碳水化合物飲食,第二組進行相同的低碳水化合物飲食加每天42克巧克力(1.5盎司),第三組則是對照組,要求他們保持日常飲食結構。
實驗在三周之後結束,對照組的體重不增不減,第一組和第二組的參與者一樣平均減掉了2.3kg的體重,但是加餐了巧克力組的減肥速度比不吃巧克力的組快10%。這個實驗結果在統計學上是顯著的,因為p值小於0.05。
你可以想像這個結果有怎樣的爆炸性,新聞媒體立刻跟進,吃巧克力能減肥的消息迅速傳播開來。結果呢?
五月的時候,這位大哥跳了出來,注意一下他和論文中第一作者的名字差別。這篇論文從頭到尾都是一個玩笑。這位Bohannon是何許人也,他是美國著名的科學記者和生物學家。這篇論文就來自於他故意設計的惡意研究,他想要通過這個時間來觀察媒體如何捕獲和吸收“無意義”的研究結果。
他用這篇論文向二十家期刊投稿,並最終被國際醫學檔案館(InternationalArchivesofMedicine)發行。他使用了一個假名字並虛構了一個假的研究機構,但是這篇充滿惡趣味的論文卻登上了大量的世界性媒體。
接下來,我們來看看他是如何操縱實驗結果的。
首先,實驗樣本十分小,只有15個人被分到了三組,這意味着每組只有5個人。每個人被測量追蹤了18個不同的身體指標,包括體重、膽固醇、鈉含量、血蛋白水平、睡眠質量、幸福度等等。他們通過如此設計大大增加了實驗指標中出現假陽性的可能性,如果體重沒有顯著差異,還有很多其他因素可能有。
此處體現p值操縱(p-hacking,或者Datadredging,datafishing,datasnooping,databutchery誰知道為啥有這麼多名字)p值的一個重要特點是它只對單一指標有效,一旦在實驗中比較了一大堆變量,那麼變量中出現假陽性的概率就被大大提高了。研究人員可以在實驗分析中採取很多手段來主動降低p值。
舉個例子,我想要實驗豆類對於人心情的影響,那麼我可以使用一大堆變量。首先是人,抑鬱程度、睡眠時間、自我評價等等,然後是豆類,黑豆、紅豆、黃豆、青豆等等。如果足夠幸運的話,我也許就能夠從中找到一組假陽性的數據並發表論文。標題呢?吃紅豆有助於改善抑鬱癥狀,哇啦,又是一篇微博朋友圈的話題來源~
那麼p值操縱現象在科學界到底有多普遍呢?人們一般會使用p值分佈(p-curve)來判斷是否有認為對p值進行了操縱。有研究表明,在大多數學科的公開論文中,p值更多的落在了0.05和0.01附近的區間。
在實驗研究中研究人員在收集和分析數據的過程中需要作出很多決定:是否應該收集更多數據?是否應排除某些觀察結果?應結合哪些條件,並比較哪些條件?應該考慮哪些控制變量?是否應結合或改變具體措施或同時採取這兩種措施?這些實驗過程中的操縱,或有意或無意的將實驗結果推向了更具有統計學意義的結果。
2015年,社會心理學家,弗吉尼亞州夏洛茨維爾市開放科學中心負責人BrianNosek和269位合著者重複了三份心理學期刊發表的98篇原創論文中的報道。他們一共複製了100項已有的心理學研究,發現只有39個研究能得到之前宣稱的“顯著”結果。在其它學科的類似複製研究中,經濟學的通過率是60%,生物醫藥可能更低。
從這一年開始,科學界開始加大聲量呼籲採取一個更加嚴格的p值來規範學術行為。2015年發表在《科學》上的研究顯示使用更小p值(p<0.01)的研究複製成功幾率較高。雖然這並不能從根本上解決p值操縱的問題,不過這畢竟是朝着更嚴謹的方向前進了一步。從p值這個小角度我們也可以看到科學界中某些問題,比如在學術壓力下更傾向於發表有數據可以做出顯著性的研究,而不是真正思考有價值的課題。
最可怕的是想一想人們在科學這個最尋求嚴謹使用着完善數學工具的領域,經過成熟實驗標準化、複雜數學統計、嚴格同行審議之後依舊會有如此多的不正確信息被正規的科學期刊出版~那麼當人類在非理性的狀態時又會有多頻繁地自欺欺人呢?
寫這篇文章的原因在於我發現我們經常可以在互聯網上看到如下的句式:某國科學家研究表明某大學實驗團隊研究表明某某研究報告證實後面緊跟着的就是一個十分打破常識的內容。吃巧克力減肥吃黃油減肥吃高熱量食物減肥等等都為微博等平台提供了不小的流量。通過這篇文章,我想讓大家了解一下這背後的原理。媒體總是喜歡選擇這些引人注意、吸人眼球的內容,作為一名普通人我們一定要對這些看似科學的內容保持冷靜。
(本章完)