查看原文
其他

夏义堃 || 数据生态视域下的人文社会科学撤稿问题分析

夏义堃 汇智澳门 2023-02-15

作者简介:夏义堃,武汉大学信息管理学院教授,信息资源研究中心副主任



[提  要] 从数据生态视角考察人文社会科学撤稿问题,能够全面反映撤稿背后的数据管理问题、学术诚信问题与评价问题。人文社会科学撤稿问题在撤稿原因以及学科、国家、期刊等要素分布上有其自身特点。当前,因数据问题的撤稿不断增加,且类型复杂、界限模糊。究其原因,涉及到数据观念局限、数据制度缺失、数据监管不力、数据基础设施薄弱等问题。随着数据驱动型研究范式的发展,应高度重视人文社会科学撤稿中的数据问题,把握数据管理、学术诚信管理以及学术评价之间的内在关系,以实现多主体数据管理制度的横向贯通与撤稿管理的规范化。[关键词] 数据生态  撤稿  人文社会科学  学术诚信  学术评价 [基金项目] 本文系国家自然科学基金创新群体项目“信息资源管理”(批准号:71921002)的阶段性成果。[原文出处] 《澳门理工学报》(人文社会科学版)2021年第4期“总编视角”栏目https://journal.ipm.edu.mo/images/journal_c/2021_4//b7cc2-202104120-.pdf


撤稿一直被学术界视为纠正偏差的有效手段,是洞察学术不端、伦理失当等行为的有效工具。引文索引的创始人Eugene Garfield指出:撤稿是学术出版过程中必不可少的组成部分,学术界有义务监督其出版物。[1]首个撤稿记录可追溯至1756年6月,英国皇家学会《哲学学报》上刊登的撤稿声明。[2]与自然科学领域频频发生的撤稿事件相比,人文社会科学撤稿有其自身特点,站在数据生态视角,可以更为直观、全面的揭示撤稿背后的驱动要素、发生机理与症结诱因,进而找出解决问题的有效方法与对策。





一、研究背景

(一)人文社会科学撤稿现象研究进展

尽管撤稿问题的高发学科集中在生命科学等自然科学领域,但人文社会科学的撤稿现象依然持续发生。1960年《芝加哥大学法律评论》对五年前发表的一篇文章实施了撤稿;2012年,美国本特利大学会计学教授James E. Hunton被迫辞职,其发表在《国际会计信息系统杂志》等多家期刊的三十多篇文章因数据伪造问题而撤稿;[3]无独有偶,内华达大学前英国文学教授Mustapha Marrouch因剽窃他人成果,23篇文章被撤稿,并被解雇。[4]而荷兰蒂尔堡大学心理学家Diederik Stapel因数据造假导致58篇文章被撤稿,一度引发了心理学的信任危机,涉及可复制性危机、理论危机、统计危机、抽样危机等多方面问题。

从撤稿文章所涉及的学科来看,几乎覆盖人文社会科学领域的所有学科,其中,心理学、经济学、管理学、社会学等社会科学撤稿数量较高。截至2020年5月底,撤稿观察数据库Retraction Watch Database撤稿人文社会科学论文数总计951篇,其中,商业经济372篇,占比39.1%,社会科学467篇,占比49.1%,人文社科112篇,占比11.8%。[5]一项针对欧洲经济学家的大型问卷调查显示,“32%的人报告曾经有选择地提出实证结果以证实个人研究论点,3%承认伪造了一些数据,这些数据表明,经济学中现有的撤稿水平低估了舞弊的实际水平。”[6]当然,较高的撤稿率也反映了期刊、学界对学术不端等不当行为进行处理的强烈意愿,并不只是论文检测能力的问题。

在撤稿原因上,有学者根据Retraction Watch Database心理学撤稿声明的调查,指出数据捏造/伪造/欺诈在心理学(48%)中比在商业和管理(33%)和经济学(0%)中更为突出;[7]也有人通过对工商管理学科撤稿论文的追踪,发现主要原因依次为数据欺诈、自我剽窃和剽窃、数据分析错误、作者身份争议、不恰当的引用操纵等。[8]对此,Ribeiro和Vasconcelos指出,虽然人文社会科学的撤稿数量最少,但在撤稿原因中,数据造假等学术不端占比最高(58%)。[9]

在撤稿现象的深度分析中,普遍认为撤稿反映了学术研究的扭曲,既是市场功利性行为的渗透,也是学术出版过度求新的短视,并对学者声誉造成恶劣影响。多位学者围绕撤稿对撤稿人学术声誉、职业发展的影响展开调查,发现撤稿对知名学者造成的负面影响远大于普通研究人员,[10]第一作者的学术声誉会显著下降,加之媒体报道,会客观上加重对撤稿人的处罚。同时,撤稿不会对资助撤稿学者的机构声誉产生负面影响。[11]

对于撤稿管理,部分学者基于撤稿声明、期刊撤稿流程、撤稿中的责任争议以及撤稿后仍被引用等角度展开分析。魏众、蒋颖聚焦中国人文社会科学的撤稿现象,指出存在着撤稿主体多样、程序不明确、撤稿声明缺乏统一规范以及撤稿后相应获利行为终止与追溯困难等现实问题。[12]

(二)数据生态与人文社会科学撤稿的内在关系

数据生态是相关主体在数据资源采集、加工、存储、利用等环节,相互联系与互动交流所形成的数据关系和数据环境。直观判断,数据生态与人文社会科学撤稿之间并无紧密关联,但数据生态由数据主体、数据节点、数据交换制度、行为和数据流构成,科学研究中的数据生态反映了人文社会科学数据在研究、出版与传播等不同节点的流动与转化,是学术生态的数据化展现,可清晰揭示撤稿论文数据问题的发生与演进过程,折射出撤稿人、期刊、高校等主体的学术动机、学术诚信管理与数据行为选择等群象面貌。具体而言,二者间的内在关联主要体现在以下方面:

(1)数据生态反映了撤稿现象的演进与发展。数据的记录、描述、分析、共享、发布、存储,不仅完整展示了科研过程中数据及成果酝酿、初创到完善的过程,也全面呈现了撤稿论文数据抽取加工直至形成的创作脉络,为问题溯源及处理判断提供了原始依据;因而,人文社会科学研究数据生命周期管理制度从无到有的确立、数据存储共享平台从零到一的建构以及数据文化从封闭到开放的转变,既代表了人文社会科学研究规范化、科学化水平的提升,也预示了学术偏差发现、纠正能力的提升。站在个体维度,数据生态也刻画了撤稿人的学术认知及其数据行为选择标准。据调查,意大利心理学家协会277名成员中有88%承认曾经参与过至少一次可怀疑的研究实践,2.3%的成员承认伪造过数据。[13]在现实中,数据独占的观念窠臼、利益驱动的功利选择都有可能改变研究人员的治学态度进而引发数据造假等学术投机行为。

(2)数据生态揭示了撤稿现象的症结与原因。以研究人员为核心的主体数据认知与数据行为既是构成数据可信度与科研完整性的关键性要素,也是考察撤稿问题的重要切入点。良好的数据生态既关注人文社会科学研究环境的变化,关注大数据环境下研究范式、方法和工具的重新定义与整体推进,也重视微观环境的审视,强调以高质量数据驱动学术生态建设,并将孤立的撤稿问题与人文社会科学学术生态以及学术出版、学术服务与支持等联结在一起,以从中探寻诱发撤稿问题的主客观因素,以求构建自律、规范的人文社会科学学术生态合力。

(3)数据生态诠释了撤稿现象的解决方案与策略选择。数字人文的兴起、数据驱动型研究范式的转变、开放数据与开放科学进程的普及,使得人文社会科学数据生态与学术诚信、学术创新、学术出版乃至学术评价等学术生态体系相关要素之间,形成了互为支撑的复杂链式依存关系。因此,数据问题不仅反映了撤稿人的思维局限,还通过学术诚信、评价、出版等要素之间的交叉作用影响,揭示出数据伪造、数据误用等现象背后的深层次利益关系,并通过开放学术、数据共享以及评价制度改革等找出标本兼治的有效方法,以实现对人文社会科学学术信任机制的重构。

当然,撤稿现象同时也暴露出人文社会科学数据管理的薄弱与不足。国内外多项研究表明,人文社会科学研究人员数据共享意愿低、机构数据管护能力差、期刊数据存缴要求少,公共数据存储开放平台弱等,不仅造成了人文社会科学数据资源汇聚融合、共享利用的现实瓶颈,客观上也为数据造假、数据误用等问题的撤稿打开了便利之门。由此可见,数据生态与人文社会科学撤稿现象之间存在着互为依存互为促进关系(见图1),其本质是激活撤稿主体的数据意识,强化研究过程中的数据共享,并通过负责任的数据管理来增强学术诚信,平衡对资助机构、高校/科研机构、研究人员、期刊编辑和其他参与者的学术伦理和数据义务,以消除或降低撤稿现象的发生。




二、人文社會科學撤稿現象概況及數據問題分析

(一)数据来源

2010年创建的Retraction Watch网站收录了1990年以来的国内外撤稿文献,可通过标题、学科、期刊、出版商、机构、撤稿原因、发表时间、撤稿时间、国家等字段对撤稿论文进行检索,现已成为研究学术不端和学术出版问题的主要数据来源。本文聚焦Retraction Watch网站人文社会科学领域撤稿论文,截至2021年6月10日,去除重复、学科关联不高、非学术论文等干扰项,共采集到2,907篇相关撤稿论文。

(二)基本概况

(1)撤稿原因分布

Retraction Watch网站共罗列出100条撤稿原因,除却通知不全、通知用语模糊等原因不明确的记录,主要撤稿原因可归纳为剽窃或重复发表、数据、作者、方法与结果、期刊/出版商、作者机构、第三方、同行评审、版权/法律纠纷、违背学术伦理共10个类别。由于一篇论文可能涉及多条撤稿原因,被撤稿的2,907篇学术论文共涉及5,514条撤稿原因记录。其中,首要撤稿原因是剽窃或重复发表,占撤稿记录的36.87%;其次是因图像和数据错误、复制、伪造、不可信、缺失、操纵等数据问题导致的论文撤稿676篇,共对应了827条撤稿原因记录,占比15.00%;再次为作者原因引发的撤稿,如违反期刊/出版商的规定或伪造作者、未取得原作者同意等,占比9.70%。此外,因研究方法或实验设计不科学、不完整而导致的结果不可信,也即可怀疑的研究实践,与数据问题关联紧密,占比达到9.18%(参见表1)。

(2)时间分布

总体而言,人文社会科学撤稿论文数量呈现上升且加速增长的趋势,具有较为明显的阶段式增长特点。第一阶段(1982~2008年),撤稿论文数量较少,每年基本维持在个位数;第二阶段(2010~2016年),撤稿论文数量缓慢增加,逐渐从两位数增长到三位数;第三阶段(2017~2020年),撤稿论文快速增加,2019年相较于2018年增幅高达72.13%(参见图2)。自2012年起,因数据问题引发的撤稿开始呈现出缓慢增长的波动趋势,2020年达到高峰,上升到149篇,占该年度撤稿论文的30.00%。从发展趋势来看,数据问题导致的撤稿演进曲线与总体撤稿演进曲线表现出较高的一致性。

(3)时滞分布

从数据分析中发现,数据问题相较于剽窃或重复发表等具有更强的隐蔽性和复杂性,往往需要更长的时间才能被发现。人文社会科学总体撤稿时滞为0~77年,远高于自然科学,其中88%的撤稿发生在5年内,平均值为3.5年;与数据问题相关的撤稿时滞0~77年,71%的撤稿发生在5年内,撤稿时滞中位数为2年,平均值为8.12年。

(4)学科分布

按照Retraction Watch网站的大类学科划分,撤稿论文主要集中在商业和技术相关学科(53.1%),其次为社会科学(39.5%),人文学科数量最低,只占撤稿总量的7.4%。考虑到国内外学科划分的差异,参考《普通高等学校本科专业目录(2020年版)》,本文将哲学、经济学、法学、教育学、文学、历史学、管理学和艺术8个学科门类的相关专业划入“人文社会科学”学科范畴,并将Retraction Watch网站的学科领域手工对应到相应学科门类。

通过比较发现,撤稿论文的学科分布差异性特征明显,法学、管理学等社会科学撤稿记录远多于文学、历史学等人文科学。其中,法学关联撤稿记录最多为1,619条,管理学(502条)次之、其后为教育学(386条)和经济学(367条)(参见表2)。进一步细分各学科撤稿原因,因剽窃或重复发表引发的撤稿始终多于数据问题撤稿,表明人文社会科学的撤稿更多集中在学术诚信问题上。因数据问题导致的撤稿多集中在管理学(27.89%)、哲学(21.74%)、法学(16.49%)等学科,而文学(7.20%)、历史学(6.06%)数据问题撤稿记录占比明显偏低。显而易见,不同学科研究范式对数据需求与处理的差异是造成这一现象的主要原因,法学、管理学、经济学等需要以案例分析、问卷调查、访谈、田野调查等定量研究方法为支撑,对数据的依赖性更高,而文学、历史学等学科更多依靠文献、档案、考古发现等展开研究,定量化数据需求相对有限。

(5)期刊分布

2,907篇人文社会科学撤稿论文共来自1,503个期刊,其中,676篇因数据问题而撤稿的论文来自367个期刊。总体而言,无论是高影响力期刊还是普通学术期刊,撤稿论文分布较为均衡,15个撤稿数量最多的期刊中,仅有5个JCR Q1区、2个Q2区高影响力期刊,撤稿原因多为伪造专家评审和剽窃或重复。例如已停刊的Open Automation and Control Systems Journal撤回的49篇论文中,批量撤回了中国学者发表的47篇文章,主要原因是伪造同行评审专家;而处于JCR Q1区的期刊Multimedia Tools and Applications被撤稿的39篇论文,首要撤稿原因是剽窃或重复发表,其次为同行评审作假。

与之相对,数据问题引发的撤稿更多集中在高影响力学术期刊,撤稿数量最多的15个期刊中,有10个为JCR Q1区、3个为Q2区,排在前五位的期刊中,有四个是心理学高影响力期刊,如Psychological Reports(JCR Q2,撤稿30篇)、Journal of Personality and Social Psychology(JCR Q1,撤稿17篇)和Journal of Experimental Social Psychology(JCR Q1,撤稿11篇)等。归因探究,固然与高影响力期刊拥有更为严格、规范的论文审查和数据核验机制有关,但不可否认的是,过度求新的期刊用稿偏好以及职称、项目等评价导向引发的学风浮躁、数据管理缺失也是撤稿论文不断增加的催化剂。2011年,荷兰心理学家Diederik A. Stapel因实验数据造假导致33篇文章被集中撤稿,面对质疑,Diederik A. Stapel声称造假是为了得出学术期刊愿意发表的漂亮数据与研究结论,[14]揭示出学术期刊偏爱积极的发现以及高校/研究机构过度量化评价是诱发数据伪造、数据操纵等数据问题的直接驱动因素。2020年,英国著名心理学家Hans J. Eysenck的30篇论文被Perceptual and Motor Skills批量撤稿,2019年,伦敦大学国王学院对其论文数据的有效性,包括招募参与者、措施管理、确认结果的可靠性、数据收集中的偏见、缺乏相关协变量、对分析案例的选择等展开调查,认定论文数据及结果不可信,建议伦敦大学告知相关期刊所发表论文中存在的数据与方法缺陷。[15]

(6)国家分布

就撤稿的绝对数量而言,最高的是俄罗斯、美国和中国,而数据问题引发撤稿最多的国家是美国、英国、荷兰(参见表3)。英美等西方发达国家人文社会科学撤稿原因向更具隐蔽性的“数据问题”集中,荷兰、英国、美国、德国因数据问题撤稿占撤稿论文总数的50%以上,而俄罗斯(0.87%)、伊朗(14.81%)、中国(15.86%)、印度(18.85%)等发展中国家相应占比偏低,撤稿原因集中在剽窃/重复发表以及同行评审造假、学术伦理等方面。

这一差异表明,健全的学术诚信管理制度在抑制显性学术不端方面发挥了决定性作用,并使得学术诚信问题与数据操纵、数据捏造以及可怀疑的研究实践等数据问题联系得更加紧密,而学术诚信管理制度的缺失则会助长剽窃、重复发表等撤稿现象的增长。2012年,俄罗斯提出建设科技强国的战略任务,要求2020年至少有五所大学进入世界排名前100的大学,各领域学术论文激增,但俄罗斯科学院直到2019年才设立反学术造假委员会,滞后的学术管理制度设计与执行导致其论文剽窃与批量撤稿事件接连发生。[16]同时,不同国家数据问题撤稿数量的落差也折射出国家之间人文社会科学数据开发利用与管理水平的差异,发展中国家数据驱动型研究水平整体较低,人文社会科学数据管理制度、数据基础设施以及数据共享利用水平相对薄弱,使得数据问题的撤稿尚未成为撤稿的主要原因。而完善的数据管理制度、开放的数据共享平台与基础设施,既是发现数据误用、数据造假等问题的重要手段,也是规避和抑制潜在学术不端的有效方法。

(三)撤稿论文的数据问题分析

人文社会科学数据管理边界的复杂性、权属关系的模糊性、主体认知与能力的不平衡性导致撤稿论文中的数据问题形式多样、归因复杂(参见表4)。从对象来看,既包括问卷与实验调查数据,也涉及一定的图像音视频资料;从主体行为意愿来看,既有数据伪造、操纵、分割利用等主观故意(占比25.88%),也有计算、分析错误等非主观故意(占比74.12%)。


从质量标准来看,数据问题导致的撤稿主要表现为未能满足人文社会科学研究对数据准确性、有效性、可靠性、规范性等质量要求。其中,首要问题是数据准确性问题,如在采集、加工与分析利用中出现的数据/图像错误、分析错误、数据/图像不可信等,占比超过43%;其次是数据有效性问题,包括对数据/图像内容与形式的质疑或争议,占比30%以上;可靠性强调数据的“可信赖”或“可信任”程度,而因数据或图像伪造、操纵以及文章恶作剧等导致的撤稿占比接近18%;规范性关注数据表达的规范化程度,由于作者的不规范引用、将大型数据集割裂使用导致的论文撤稿占比接近6%;完整性是期刊发表的基本要求,目前,未提供完整原始数据的撤稿仅有2篇。




三、数据生态视域下人文社会科学撤稿现象原因分析

将撤稿现象置于数据生态环境下,可从数据管理视角放大撤稿背后的学术问题,并在人文社会科学数据管理层面,将撤稿问题涉及到的学术诚信、学术评价、学术出版等一并纳入数据生态建设范畴,重新理解撤稿现象,以寻求数据生态优化的可行路径方法。此举不仅可以避免将撤稿简单归结于学术诚信的思维局限,还可以扩展人文社会科学数据管理触角,为撤稿问题包括学术诚信的综合整治建立一个基于数据生态的参照体系。当前,人文社会科学撤稿现象所折射出的数据管理问题形式多样,涉及多重利益关系与错综复杂的矛盾冲突。主要的症结原因如下:

(一)数据观念局限,价值驱动错位

数据是科学研究的基石,人文社会科学研究需要运用大规模的数据、多种类的数字档案、多模式的媒体文本、数据库以及复杂的软件和工具。不同主体的数据共享意愿、数据利用态度,既决定了数据生态体系的开放与封闭程度,也直接影响到人文社会科学数据质量乃至研究成果的科学性、创新性。

撤稿论文的大量出现,尤其是有关数据问题撤稿数量的急剧增加,其一是功利化数据观的体现,部分研究人员既撇开了数据真实性、准确性、完整性等质量要求,也放弃了严谨务实、追求真理的学术初心。虽然有些错误可以归因于意外或不称职的研究,但大量案例表明,很多撤稿是学者在日益激烈的竞争环境下不诚实的学术行为造成的。其二则是人文社会科学领域数据管理观念的短视、偏见,导致数据采集、加工与利用、存储的不规范。在数据拥有方面,许多人文社会科学研究人员习惯独占文献资料并隐瞒所拥有的数据。在数据共享利用方面,美国图书馆和信息资源委员会的调查发现,社会科学研究人员对于修改和保护其科研数据的兴趣不大,兴趣点主要集中在数据的有用性以准备发表和出版方面。[17]

(二)数据规范缺失,制度执行遇阻

如果说数据观念、数据管理意识是造成数据问题撤稿的内在动因,那么,外在的数据采集利用等制度规定则对撤稿构成了无形的外在约束。在一定程度上,外在约束力的强弱决定了撤稿者数据博弈的机会成本,并对数据行为选择产生直接影响。总体而言,人文社会科学数据管理的制度化水平滞后于自然科学,主要表现在:

(1)数据生命周期管理的制度体系不够健全,数据行为规范缺失。美国政治科学协会(APSA)的道德准则规定,研究人员有道德义务通过数据访问、生产透明度和分析透明度促进对其基于证据的知识主张的评估,以便他们的工作能够得到测试或复制。但在现实中,无论是资助机构还是高校/研究机构,针对人文社会科学数据采集、加工、分析、利用的质量要求极为有限,数据管理计划、数据管护职责以及存储汇缴标准等缺乏统一的操作性规定和强制性要求,宽泛的数据政策为各种理由的数据造假、数据误用留有余地。

(2)不当数据行为界定模糊,存在制度执行盲区。从有预谋的数据伪造、数据操纵到因草率无知而出现的数据误读、数据不完整等非主观行为,不当数据行为类型复杂。与自然科学研究高度依赖精确的实验室数据相比,人文社会科学的实证、量化分析往往并非在严格控制变量的实验室环境中开展,撤稿论文中存在大量有问题的研究或可疑研究,心理学、管理学、经济学等研究方案设计、样本选择以及数据选取范围等环节均容易出现纰漏。例如,根据个人偏好设定研究结论并采取灵活性数据分析获取预期数据结果,则含有潜在数据不当行为,处在数据问题与学术不端的灰色地带。由于处理手段有限,“伪造新药的结果可能会导致病人死亡,而伪造商业期刊数据则不太可能直接影响特定业务”,[18]进一步加大了部分研究人员不当数据行为的投机心理。

(3)期刊数据政策不完善,制约撤稿管理的实施。与自然科学学术出版平台严格的数据提交、发表、存储等制度执行相比,人文社会科学研究成果学术出版环节对数据问题的规范笼统、关注重点局限在研究方案设计和数据生成方式的说明上,对数据提交、存储、共享与核验等要求的重视程度有限,仅少量期刊制定了数据汇缴与共享政策。例如,《会计研究杂志》(JAR)要求提交的论文或附录中应注明原始数据是如何获得或生成的,包括数据来源、下载或获取数据的具体日期以及用于生成数据的仪器,筛选数据的标准,数据转换使用到计算机的程序或代码,明确要求指明负责数据收集和管理的作者。[19]但总体而言,大多数人文社会科学学术期刊并未对作者做出数据资料提交的强制性要求,亦无统一的数据提交格式标准,更无专门的数据审查环节,同行评审聚焦在研究的理论性、新颖性和严谨性等方面,对数据资料核验的重视度不高。

(三)数据监管不力,信息传导低效

“学术记录的诚信取决于验证和自我修正机制的可靠性,而不是单一数据集的准确性”。[20]无论是主观意图上的数据造假,还是非故意的数据缺失、数据误用,无论是有意的可疑研究实践及结论,还是无意的资料记录错误和数据遗漏等,撤稿论文中形形色色的数据问题清晰揭示了人文社会科学数据过程监管和学术诚信管理的薄弱。主要表现如下:

(1)项目资助机构、高校/研究机构等相关主体未能对研究人员提交的科研项目数据管理计划、数据管理实施进展等进行必要的审核和指导。许多学科,学术组织方式上基本属于学者个体或者小型团队自主性学术行为,外在的参与和监督十分有限,导致研究人员在科研组织以及数据准备和结果分析中享有过大的自由裁量权。

(2)研究团队数据管理职责的弱化。从数据分析中发现,数据问题撤稿的作者合作密度高于总体撤稿的平均作者合作密度,2,907篇撤稿论文中有1,992篇(占比68.52%)系多作者合著,有1,255篇(占比43.17%)是多机构合著;而676篇因数据问题撤稿论文中有570篇(占比84.32%)是多作者合著,388篇(占比57.40%)是多机构合著,心理学、经济学、管理学等数据密集型学科大量撤稿论文属于团队研究成果,容易在数据分析处理过程中出现混乱和错误累积。同时,合作研究责任的分散,常常给人一种认知假设,即其他成员将会检查和重新检查设备、样本、数据和分析,从而使各种问题从裂缝中消失。

(3)期刊及审稿人的数据把关不到位。尽管2016年的COPE指南明确规定:“期刊应对其编辑的行为负责,保护研究记录,并确保其发表的一切内容的可靠性”。[21]但在注意力稀缺的现实情境下,复杂数据问题的检测需要审稿人和编辑高强度的细致检查,并以大量的时间成本和机会成本为保障,这与普遍奉行的效率导向原则构成冲突,一些期刊甚至没有使用任何形式的抄袭检测软件,导致学术发表环节的数据监管流于形式。同时,部分撤稿声明对问题陈述的审慎与含混不清,如研究不可复制、研究可信度不足等温婉表述客观上麻痹了人们对数据问题严重性的认识。

(四)基础设施投入不足,协同治理薄弱

准确、高效的数据管理需要以高水平的数据库、数据存储利用平台和便捷的应用工具等基础设施为支撑。国外的调查指出,项目资助机构和管理部门越来越深刻地意识到研究人员越来越依赖于功能完善的、可持续的科学数据管理基础设施。[22]伴随着数据科学、数字人文以及计算社会学等学科的兴起,以数据平台、数据存储中心等为代表的基础设施对于推进人文社会科学研究的支撑性和重要性进一步凸显,需求也越来越高。

当前,即便有形式多样的与人文社会科学相关的数据存储库或数据中心、数据平台,但与现实需求相比,人文社会科学研究既面临着数据基础设施不足的困境,也面临着研究人员对数据基础设施建设参与不足、利用不高的双重实践难题。欧洲针对人文社会科学研究人员的调查结果表明,55%的人回答没有参与数据基础设施建设,主要理由是没有兴趣,其次是不知道数据基础设施对自己的研究有多大帮助,[23]人文社会科学领域还没有形成专注于共享和使用开放数字资源的学术文化。对此,德国北部的University of Bielefeld提出人文社会科学数据管理必须以技术基础设施、政策和宣传推介三个维度为基础的三大支柱战略来加以实施;[24]《伦敦大学2020─2025发展战略》也指出要为跨学科调查建立知识基础设施,使广大研究人员从中受益,并支持艺术和人文学科的使用。[25]

撤稿中的数据问题不仅揭示了研究人员、数据管理人员以及期刊编辑等职责的缺位,也映射出项目资助机构、研究机构等主体数据监管的协同不力。如果不是大规模的期刊撤稿引发各界关注,一般性撤稿并不会及时反馈到作者所在单位和项目资助机构,更不会引起学术诚信委员会/办公室的注意,对作者的影响特别是普通作者的影响相对有限。美国会计学会承认期刊出版部门应对数据完整性等问题负责,但由于这些部门没有能力进行深入调查与核验,认为该职责应由学院、大学和资助机构履行,并鼓励作者向其他研究人员分享数据。即便如此,该学会并未指明数据保存平台和方法,[26]对数据问题的处理缺乏多主体的分工负责与整体协同。

当然,人文社会科学研究的抽象性、思辨性等内在属性决定其数据加工与解释不同于自然科学的实验记录,在细致跟踪、客观描述、忠实记录基础上,还需要有更高的数据敏锐性和学术创造力,不仅打破了学术创造、学术服务和学术传播之间泾渭分明的界限,也模糊了高校/研究机构、研究人员、数据管理者、期刊编辑、数据平台等传统学术主体的角色和责任,需要形成多主体协同参与人文社会科学学术研究与数据管理乃至学术诚信管理的新格局,即学术研究的完整性和准确性取决于由个体研究人员、学术同行和学术界等多主体共同组成的互为支撑的生态体系。





四、思考与对策建议

数据既是数字化时代学术成果及其记录的关键组成部分,也是决定和考察学术诚信的决定性要素。“在科学研究中,有三件事很重要:数据,收集数据的方法(这给了他们鉴定价值)以及将数据和方法与结论有机联系起来的逻辑”。[27]健全的数据管理制度、完善的数据流程、开放的数据存储共享平台足以保证数据及研究成果的可发现性、可访问性、互操作性与再利用性,进而降低问题论文的出现,规避有意或无意的数据错误。

尽管人文社会科学撤稿论文总量以及因数据问题而撤稿数量有限,但并不意味着人文社会科学领域整体的数据管理规范、数据开放共享与学术诚信程度较高,而是其研究范式与数据管理的复杂性特殊性导致研究成果中的数据问题更加隐蔽,加之整体的数据意识薄弱、数据素养不足而难以验证。例如,人文社会科学研究更加重视研究视角、理论、方法及结论的原创性、示范性,更加注重研究规律与发展趋势的描述性总结与推广,而对调查或实验数据进行复制、验证的需求相对较低,使得数据问题的发现具有明显的滞后性。同时,由于研究成果的多样性,书籍、手稿、诗歌、创造性写作、地图、照片、艺术、新闻、娱乐和许多其他类型的文本乃至考古发现等实物资料,事实上使得人文社会科学数据及成果的开放共享成本与技术实现难度更高,数据及其资料的核验复制耗时费事。当然,人文社会科学学术研究本身的抽象性思辨性,客观上使得研究成果的数据问题,即便是主观故意,也有可能以不太严重的形式出现,如选择性报告和遗漏数据,由于没有明确的辨析界限,有时会处于数据处理不当和学术不端的模糊地带。[28]无论动机如何,以不同形式出现的数据问题,本质上既是数据管理问题也是学风与学术诚信问题,一些国外学者甚至将可怀疑的研究实践、迎合型或灵活型统计分析归结为隐形学术不端行为。

在现实中,许多学术诚信准则等制度规范在应对快速发展的数字化变革带来的管理挑战上仍然存在缺陷,无论基于工具理性还是价值理性,学术诚信的倡导与推进都需要有具体明确的载体形式,而不是空中楼阁和枯燥说教。数据生态着眼于数据产生、流动的整体情境与价值实现,不仅是人文社会科学研究的存在状态,也是学者赖以依存并运用数据流开展学术创新的操作系统,还是透视数据行为以检验学术诚信的试金石。通过对数据收集方式、研究设计、数据整合以及分析技术等综合检验,可以将学术诚信管理中抽象的、框架性原则转换为具体的、连续性数据行为,并对数据问题引发撤稿的主体、过程与后果进行综合判断。

当然,决定各主体数据行为选择的既有学术创新的源动力,也有职务晋升、项目申请等评价指挥棒的外在压力,当外在压力形成人文社会科学学术创新的正向激励时,研究人员的数据管理计划及其数据采集、加工、传播、共享等行为会沿着规范化轨迹,实现包括学术创新与学术诚信的自律;而一旦评价指挥棒异化,外在压力就会对学术行为形成负向激励,如“货币化”学术激励、“数量化”考核压力等就会为学术不端提供强大驱动力,并导致数据造假、数据误用等关联性实践。有人指出,“在研究过很多科研不端案例后可以发现,研究人员面临着巨大压力,采用数据造假是一个很容易解决他们科研困境的途径。”[29]可见,学术评价、数据生态与学术诚信之间是前后衔接的逻辑链条,考察撤稿论文的数据问题,可以更集中地反映学术评价与学术诚信之间、学术研究与学术传播(期刊出版)之间的内在逻辑关系。涵养有利于人文社会科学研究创新的学术生态,关键着力点是在数据管理、学术诚信以及学术评价之间形成互为促进的正反馈效应(见图3)。一旦孤立、片面地看待三者间关系,则难以切中要害,无助于撤稿现象的根治与杜绝。


近年来,国家有关部门对学风建设与数据管理等方面均表示了高度的关注,并先后出台了相关的文件。2019年,国务院办公厅印发的《关于进一步弘扬科学家精神加强作风和学风建设的意见》指出,论文等科研成果发表后1个月内,要将所涉及的实验记录、实验数据等原始数据资料交所在单位统一管理、留存备查。2018年,澳大利亚研究理事会、澳大利亚大学联盟等联合推出了《澳大利亚负责任研究行为准则》,也将恰当地管理和保存研究数据纳入到负责任研究行为的重要内容。上述政策文件表明,科研过程中的数据生态已成为学术诚信治理的重要组成部分。随着数据驱动型研究范式在人文社会科学研究中的广泛应用,数据生态及学术评价制度不仅成为根治撤稿现象的关键,也是恪守学术诚信的决定性要素。

将数据生态理念融入人文社会科学科研管理实践,为解决当前的学术诚信管理问题提供了新的视角和方案,有必要实现政府、资助机构、高校、期刊等多主体数据管理制度的横向贯通与撤稿权限、程序、责任的具体化规范化。同时,还要不断提升研究人员的数据素养,健全人文社会科学数据的生命周期管理制度体系,建设高水平的数据存储共享平台,进一步推动数据驱动型研究范式的普及,以此激发人文社会科学研究人员的学术自律,打造标本兼治的良好学术氛围。

本文虽然从数据生态视角揭示了人文社会科学撤稿中数据问题的概况、成因与表现,但对于撤稿及其撤稿中数据问题与学术诚信管理之间的内在关系及作用机理并未展开深度分析与论证,限于篇幅原因,有待于在后续研究中进一步论证和说明。

〔致谢:本文的写作得到了武汉大学信息管理学院董克副教授和博士研究生管茜同学在资料与数据加工方面的支持,在此表示感谢。〕

[责任编辑  刘泽生]





注释

①B. K. Redman & J. Merz, Policies and Quality Assurance Research Misconduct Policies of High Impact Biomedical Journals, Accountability in Research 92 (2), 2004, pp. 242-246.

②J. Brainard, et al., Rethinking Retractions, Science 362 (6413), 2018, pp. 390-393.

③赵河雨:《美国本特利大学教授因学术不端被撤稿31 篇》, 北京:科学网,2015-06-30,http://news.sciencenet.cn/htmlnews/2015/6/321791.shtm,检索日期:2021年8月6日。

④B. P. Schmidt UNLV Professor Is Investigated for Career-Spanning Plagiarism, Chronicle of Higher Education 61 (1), 2014, pp. A16-A16.

⑤蒋颖:《科研诚信视角下的人文社科国际学术论文撤稿特征研究》,北京:《情报资料工作》,2020年第6 期。

⑥S. Necker Scientific Misbehavior in Economics, Research Policy 43 (10), 2014, pp. 1747-1759.

⑦R. Craig, et al., Using Retracted Journal Articles in Psychology to Understand Research Misconduct in the Social Sciences: What is to be done?, Research Policy 49 (4), 2020, 103930.

⑧Dennis Tourish, Russell Craig, Research Misconduct in Business and Management Studies: Causes, Consequences, and Possible Remedies, Journal of Management Inquiry 29 (2), 2018, pp. 174⁃187.

⑨M. D. Ribeiro, S. M. R. Vasconcelos, Retractions Covered by Retraction Watch in the 2013-2015 Period: Prevalence for the Most Productive Countries, Scientometrics 114, 2018, pp. 719-734.

⑩Pierre Azoulay, et al., The Career Effects of Scandal: Evidence from Scientific Retractions, Research Policy, 2017, 46 (9): 1552-1569.

[11] Xin Shuai, et al., A Multidimensional Investigation of the Effects of Publication Retraction on Scholarly Impact, Journal of the Association for Information Science and Technology 68 (9), 2017, pp. 2225-2236.

[12] 魏众、蒋颖:《中国人文社会科学学术期刊撤稿问题研究》,澳门:《澳门理工学报》,2020年第4 期。

[13] F. Agnoli et al., Questionable Research Practices Among Italian Research Psychologists, PLoS ONE , 2017, 12 (3):e0172792.

[14] M. A.,Edwards, & S. Roy, Academic Research in the 21st Century: Maintaining Scientific Integrity in a Climate of Perverse Incentives and Hypercompetition, Environmental Engineering Science, 2017 (34), pp.51-61.

[15] King's College London, King's College London Enquiry into Publications Authored by Professor Hans Eysenck with Professor Ronald Grossarth Maticek. https://www.kcl.ac.uk/news/statements/docs/hans⁃eysenck⁃enquiry⁃final⁃may⁃2019.pdf,检索日期:2021年6月10日。

[16] 杨枭:《俄罗斯近千篇论文被撤稿,未来还会有更多》,http://new. qq. com/omn/20200119/20200119A07HX900.html,检索日期:2021年6月24日。

[17] Nancy⁃Diana, Gómez et al., Social Sciences and Humanities Research Data and Metadata: A Perspectivefrom Thematic Data Repositories, Profesional de la Información 25 (4), 2016, pp. 545-555.

[18] B. Honig et al., Ethics in the Production and Dissemination of Management Research: Institutional Failure or Individual Fallibility?, Journal of Management Study, 51 (2014), pp. 118-142.

[19] Journal of Accounting Research, Author Guidelines, https://onlinelibrary.wiley.com/page/journal/1475679x/homepage/forauthors.html,检索日期:2021年6月10日。

[20] Heather Coates, Ensuring Research Integrity: The Role of Data Management in Current Crises, College &Research Libraries News 75 (14), 2014, pp. 598-601.

[21] E. Wager, S. Kleinert. Cooperation between Research Institutions and Journals on Research Integrity Cases: Guidance from the Committee on Publication Ethics, Saudi Journal of Anaesthesia 72 (2), 2012, pp. 165-169.

[22] SCIENCE EUROPE. Funding Research Data Management and Related Infrastructures. https://repository.jisc.ac. uk/6402/1/Funding_RDM_%26_Related_Infratsructures_MAY2016_v7.pdf,检索日期:2021年6月10日。

[23] DARIAH, Barriers and Pathways to Community Engagement, Report on the Activities of the DARIAH VCC2 Community Engagement Working Group, 2018.

[24] J. Schirrwagen, et al., Expanding the Research Data Management Service Portfolio at Bielefeld University according to the Three-pillar Principle towards Data FAIRness. https://pub.unibiel-efeld.de/publication/2919659,检索日期:2021年6月10日。

[25] University of London, University of London Strategy 2020-2025. https://london.ac.uk/strategy/vision-and-ob-jectives# researching-22805, 检索日期:2021年6月10日。

[26] Americian Accounting Association, AAA Publications Ethics Policy-Data Integrity. https://meridian.allenpress.com/DocumentLibrary/AAAN/Data-Integrity. pdf, 检索日期:2021年6月10日。

[27] DB. Allison, Letter for Hearing on Pros and Cons of Restricting SNAP Purchases, Committee on Agriculture, House of Representatives, 115th Congress, 1st Session(U.S. Government Publishing Office, Washington, DC), 2017.

[28] Jeremy Hall & Ben Martin, Towards a Taxonomy of Research Misconduct: The Case of Business School Research, Research Policy 48 (2), 2019, pp. 414-427.

[29] 王晓真:《完善学术诚信保护举措》,北京:《中国社会科学报》,2019年8月28日。


延伸阅读

劉澤生 || “總編視角”欄目主持人語

項飆 || 為承認而掙扎:社會科學研究發表的現狀和未來


劉澤生 || “總編視角”主持人語

劉益東 || 開放評價、前沿學習與開放教育革命

徐雅雯 || 期刊学术不端行为的伦理困境及破解之道


劉澤生 || “總編視角”欄目主持人語
王春磊 || 人文社科核心期刊合著用稿的觀察與思考
王思婕 || 德國數字人文教育的啟示

秦開鳳 || 傳統紙媒數字化轉型與學術期刊的應對郭慶華 || 論編輯情懷——兼以學術期刊為觀察點
项飙 || 为承认而挣扎:社会科学研究发表的现状和未来
王春磊 || 人文社科核心期刊合著用稿的观察与思考
魏众 蒋颖 || 中国人文社会科学期刊撤稿问题研究


[网络编辑  陈志雄]



感谢您分享、点赞、在看!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存