临床研究:不断犯错,最终接受事实的过程
2013-05-15 MedSci MedSci原创
常看新闻的人都知道,大众媒体几乎天天都在报道“科学发现”。它们出现在新闻播报和时事评论里,通常是被用来提出各种涉及健康、养育子女、教育乃至信仰、自我认识等重要事情的观点。我们该如何对待它们呢? 举例来说,至少从2004年起我们就一直听到各种有关“维生素D可以预防风湿” 的研究。一份2010年约翰霍普金斯大学健康通告
常看新闻的人都知道,大众媒体几乎天天都在报道“科学发现”。它们出现在新闻播报和时事评论里,通常是被用来提出各种涉及健康、养育子女、教育乃至信仰、自我认识等重要事情的观点。我们该如何对待它们呢?
举例来说,至少从2004年起我们就一直听到各种有关“维生素D可以预防风湿” 的研究。一份2010年约翰霍普金斯大学健康通告(2010 Johns Hopkins Heath Alert)显示,“维生素D对关节的健康至关重要,维生素D水平低可能引发类风湿关节炎和骨关节炎等类风湿病情”(Clin Exp Rheumatol. 2003 Jan-Feb;21(1):19-26.)。然而,在2013年2月,一项更严谨 的研究对此前的那些研究提出了质疑。类似的,尽管有很多研究表明,服用烟酸(也叫维生素B3或维生素PP)增加“好胆固醇”可以降低心脏病发作的风险,但 一项更严谨的研究表明烟酸并没有这种效果。
像这样的研究使得人们怀疑科学的可靠性。而有鉴于这些新闻一贯被报导的方式,产生这样的怀疑也情有可原。如果科学发现都像这样常常被推翻,那要它们又有何用?但是,问题通常都不是出在科学,而是在报导上面。
“不科学”的科学报道
在上述两个例子中,早期研究显示的都是“相关关系”,而非“因果关系”。 比方说,这些研究没有表明服用维生素D是疼痛减轻和疼痛没有减轻这两者之间唯一不同的有关因素。也许服用维生素D的人同时还做了更多的运动,而这才是导致 疼痛减轻的原因。通常来说,确立因果关系而非相关关系最好的办法,是进行一项随机对照试验(RCT),实验组和对照组之间只有唯一的一个已知有关因素不 同。维生D和烟酸的例子都是后来的随机对照实验表明,先前的研究发现的都只是相关关系而已。
正确设置随机对照实验往往很困难,可能需 要很多年才能完成。因此,我们看到的大多数都只是涉及相关关系的研究。约翰•约安尼季斯(John Ioannidis)在他一系列备受关注的分析中指出(注:约安尼季斯在2005年发表的论文《为何大多数发表的研究都是错误的?》是 PLoS Medicine 迄今下载次数最多的技术论文),在发表出来的医学研究中,有80%的非随机研究(目前最常见的)结果都是错误的。就连25%的随机研究和15%的大型随机 研究(好研究当中的好研究)也都存在种种缺陷(全文:Why most published research findings are false. PLoS Med. 2005 Aug;2(8):e124. http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1182327/ )。
那么,明知道大部分结果都会错,科学家干嘛还要做这些相关性研究呢?其原因之一是,这类研究是非常好的开始,科学家用它们来决定之后要选择哪一种假 说用更加严谨的随机对照实验去评估。与很多非科研工作者想的不同,实证检验法的关键特征并不是它不会出错,而是它具有自我纠错的功能。正如物理学家约翰• 惠勒(John Wheeler)所说,“我们要做的就是尽可能快地犯错。” 事实上,科学正是通过竭力证伪其假说来取得进步,卡尔•波普尔(注:Karl Popper,20世纪西方有影响力的哲学家)就是在这一观点上创立了他那具有启发性的科学哲学体系。
很多科学报道的问题,在于它们在确保公众了解一项科研成果究竟有多重要这件事情上面做得不够。好一些的,会暗暗地把结果中的相关性掩饰起来,例如, 维生素D“可能”减少关节炎疼痛,或者烟酸“或许能”减少心脏病发作。但这些报导很少说清楚,大多数的相关性研究是处在一个怎样的阶段,或者在多大程度上 可以依靠。它们没有解释这样的研究通常在整个学科的进展中所具有的特异局限性。
科学报道、特别是在心理学和社会科学的报道中,往往忽略了另一个重要的局限。就算有了能够确立科学定律的随机对照试验,并不意味着可以援引其结论来 指导实践当中的决策。著名的科学哲学家南希•卡特赖特(Nancy Cartwright)近日强调,最好的随机对照试验本身只能证明一个原因只在一种特殊的情况下有效。例如,从相同的高度下落的羽毛和铅球将在同一时间到 达地面——但只在没有空气阻力的条件下。通常情况下,科学定律使我们能够预测一定条件下的某一个特定的行为。如果这些条件不成立,定律并没有告诉我们会发 生什么。
在面对自然世界时,我们往往能够建立起足以使有关定律成立的条件;而在人类(尤其是社会性的)世界,其高度复杂性和相互关联性使得这种条件极难形 成。一种五年级数学的教学法,经过严格证明对这一学区的师生很有效,但可能在另一个学区就不管用了。就像卡特赖特所说的那样,随机对照试验告诉我们的,只 是“这个在这种情况下有用”。“这个在那种情况下也会有用”完全是另一回事,而且证明起来往往异常困难。
由此,即使从“纯科学”中得到了可靠的结果,还需要工程师来告诉我们,这些结果是否以及如何适用于具体的情况。自然科学(物理、化学、生物)已经建 立了良好的工程方法;但在人类世界中,除了少数例外,仍有很长的路要走。在报道人文学科的“突破”时,需要明确区分理论和应用之间的差距。
建立“科学的”的报道体系
媒体倾向于把几乎所有他们报道的科学成果都做得好像对生活具有指导意义。其实,大多数科研成果并没有直接的实用价值;它们仅仅是把我们往那个或许最终真的有用的结果推进了小小一步。有太多的新闻报道都将实验发现当成了可靠的消息,让人以为可以据此采取行动。在大多数情况下,最好还是把这些发现当成是让接下来可以少犯一些的错误。
如果有一个标识制度,能够明确指出某一研究在其整个学科发展中所处的位置,科学报道将会大为改善。这仅仅是一个“初步的结果”(小型的启发式研究, 旨在提出假设,其结果本身就需要接受很多进一步的检验,才能得出可靠的结论),还是 “更大规模的观察性研究”(表明相关关系,但绝不是建立因果关系),或者是“大样本的随机对照试验”(建立特定的条件下因果关系)?又或者,是一个“在很 多条件下都能成立的行之有效的科学定律”?
当然,像这样分类只是我外行人的一个建议。各个学科应当(通过其管理机构和组织)设置专业的分类标准,对大众媒体中报道的内容进行标注。一些这样的制度是必须要有的,因为有很多关注通俗科研报道的人都在寻找科学发现,可以指导他们在生活、工作或公共政策实践中进行决策。
不幸的是,这样的成果比起初步研究结果来是少之又少(初步研究极有可能是错的、但对于最终得出可靠结论的复杂过程是有贡献的)。媒体报道说:“研究表明……”往往给我们的是非常初步的结果——极有可能是错误的。它们需要被标注出来。
编译自:《纽约时报》专栏,What Do Scientific Studies Show?
作者简介:Gary Gutting 是美国圣母大学的哲学教授
文章小图:desmotivaciones.es
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
确实如此,研究只有继续没有结束
167