李化侠等 | 学习进阶测评工具研发：以小学生统计思维为例

Original 李化侠等华东师范大学学报教育科学版 2021-09-10

本期精彩

新刊速递 | 华东师范大学学报（教育科学版）2020年第4期目录特稿岳昌君 , 夏洁 , 邱文琪：2019年全国高校毕业生就业状况实证研究“一带一路”教育陈时见 , 王远 | 从“边境”到“跨境”：“一带一路”背景下跨境民族教育的转型发展蔡文伯 , 闫佳丽 | “一带一路”沿线国家来华留学生与中国对外直接投资关系的实证研究高等教育评价林小英 , 薛颖 | 大学人事制度改革的宏观逻辑和教师学术工作的微观行动：审计文化与学术文化的较量王楠 , 罗珺文 | 高校科研成果的非学术影响及其评估：是什么，为什么，怎样做？

学习进阶测评工具研发：以小学生统计思维为例

李化侠 , 宋乃庆 , 杨涛 , 辛涛

摘要：学习进阶可以描述学生思维发展的轨迹，揭示学习进程和思维发展规律。测评工具研发是学习进阶的重要组成，研发不足会制约学习进阶的研究与应用。该研究的目的是采用学习进阶理论研制小学生统计思维的测评工具，为加强学习进阶的实证研究、应用研究提供参考。研究方法包含建立小学生统计思维学习进阶的理论假设、组建测试题目、分析题目质量、验证学习进阶理论与学生实际表现四个步骤。研究结果表明，小学生统计思维的学习进阶理论假设与实际状况基本相符，基于学习进阶理论开发的测评工具能为了解学生思维发展、改进教学提供更多参考信息，并可为发现学习规律提供新视角。

关键词：学习进阶；测评工具开发；小学生；统计思维

作者简介：李化侠，人民教育出版社中小学道德与法治国家教材重点研究基地高级研究员，教育学博士。

辛涛（本文通信作者），北京师范大学教授、博士生导师，北京师范大学中国基础教育质量监测协同创新中心常务副主任，教育部长江学者特聘教授。

基金项目：北京师范大学中国基础教育质量监测协同创新中心重大成果培育性项目“我国基础教育测评模型构建范式研究”（2018-06-002-BZPK01）；中国博士后科学基金面上资助项目“学习兴趣测评模型构建及其在小学数学教材编写中的应用”（2018M641404）

原文载于《华东师范大学学报（教科版）》2020年第四期

一、问题提出

二、学习进阶构建测评工具文献综述

三、基于学习进阶的小学生统计思维测评工具研发

四、讨论与结论

五、小结

一、问题提出

(一) 学习进阶理论优点突出但应用受限

学习进阶（learning progressions，LPs）这一术语是美国国家研究理事会（National Research Council，NRC，2007）在2005年K-12年级科学成就测验政府工作报告中提出的。报告将学习进阶界定为“对学生在一定时间跨度内学习和探究某一主题时依次进阶、逐级深化的思维方式的描述”。虽然学习进阶的提出已有十余年，但其定义仍无定论。有研究者指出，学习进阶不同定义的共同之处是都关注学生思维的发展历程、聚焦于某一学科概念，描述学生在某一时间内的思维发展状况（高一珠，陈孚，辛涛等，2017）。学习进阶的研究及应用受到了不少学者的青睐。有研究（Kane & Bejar，2014）认为，学习进阶是一种使测评结果更有意义、对教师更有帮助的方式，可以将学生掌握某一领域或学科复杂水平的学习过程模型化，反应学生理解某一知识、概念所经历的多个中间水平以及学生在各水平上的学习表现，体现学生对某一学科核心知识、技能逐步掌握的过程。学习进阶在实践中显示了价值，在核心概念进阶设计、课程标准研制与修订、教育测量与评价、学校教学实践等方面已崭露头角（韦斯林，贾远娥，2010）。

虽然国内外学者从多方面开展了学习进阶的研究，但学习进阶测评工具的开发涉及到诸多环节，特别是涉及到了较为复杂的心理测量学模型，国内的相关研究显得薄弱。然而测评工具研发是开展学习进阶理论和实践研究的重要一环，是验证学习进阶理论假设、获得学生学习轨迹的一个关键步骤，如果学习进阶测评工具这一关键环节得不到很好的解决，那么学习进阶理论便不能在课标校准、教育评价、教学设计中真正发挥作用。

(二) 统计思维是大数据时代公民的基本素养但研究不足

19世纪英国科幻作家威尔斯曾预言：“统计的思维方法，就像读和写的能力一样，将成为效率公民必备的能力。”大数据时代，这种预言已成为现实。由于统计在社会经济发展及人们日常生活中作用日益显著，联合国将2010年10月20日定为第一个世界统计日，以后每5年庆祝一次。20世纪80年代起，各国纷纷将统计与概率的内容纳入义务教育课程标准中，2001年我国也将其列入。然而由于统计与概率的内容进入义务教育课程的时间不长，其教育教学还处于摸索期，存在教师教学经验不足、学生学习疑惑不解、课程标准有待完善等问题。

(三) 研究目的

小学是当前我国义务教育的起点，在大数据时代探讨小学生的统计学习状况和思维发展规律，对进一步完善义务教育“统计与概率”部分的课程标准、教材内容安排、课程活动设计具有重要意义。学习进阶是理论研究者、考试命题者、课程编制者、教育决策者对话的重要渠道，是沟通学习研究和学校课堂实践的桥梁，是联结课程标准、教学与评价，促进一致性的最具潜力的工具（Duncan & Hmelo-Silver，2009）。鉴于学习进阶的优良性能和大数据时代小学生统计思维价值显著但研究不足的状况，本研究尝试使用学习进阶的方法开发小学生统计思维的学习进阶测评工具，并侧重呈现测评工具开发的步骤、方法，以期为我国学习进阶实证研究提供方法参考和工具支撑。

二、学习进阶构建测评工具文献综述

因学习进阶可以有效地改进课程标准、课堂教学、教学评价，促进三者相互联结（韦斯林，贾远娥，2010），学习进阶的测量一直是学习进阶研究的重要内容，国内外研究者对学习进阶测评工具开发的原理、步骤、方法、流程、试题形式、测量模型方面开展了一些研究。

(一) 学习进阶的要素及建立过程

Corcoran et al.（2009）提出，一个完整的学习进阶包括五个组成要素。第一个要素是学习目标（learning goals），即学生达到一个阶段进阶终点时的表现。学习目标的确定往往需要综合考虑社会对未来公民的期望以及学生接受下一阶段教育的起始要求。第二个核心要素是进阶变量（progress variable），它可以是学生对核心概念的理解、应用和练习。研究者可以通过追踪一个或多个发展变量来测量学习进阶。第三个要素是成就水平（levels of achievements），指学习进阶发展路径中的多个中间层级，这些层级可以反映学生不同阶段的能力发展过程，是实现终极目标的跳板。第四个要素是学习表现（learning performance），指处于不同发展层级的学生完成相应任务时的表现。第五个要素是测量工具（assessment），指一套基于假设模型的测量学生发展的工具。

学习进阶的建立一般包括三个步骤：首先，建立假设性学习进阶，包括验证性和演进性两种方法，验证性方法是从课程或考试标准出发，自上而下地基于学科专家所预期的学生概念发展情况来制定学习进阶的具体内容；演进性方法是从学生对概念的理解出发，自下而上地基于学生对概念的理解来制定学习进阶（Duschl，Maeng，& Sezen，2011）。其次，根据建立的假设性学习进阶编制试题，组成信效度良好的测验。最后，采用所编制的测验施测于目标样本，用心理测量学模型分析数据，一方面对学生的概念掌握情况进行诊断，另一方面对建立的学习进阶进行验证或修正（Plummer，2012）。

(二) 适用于学习进阶的试题形式

学习进阶测评工具的试题形式广泛，一般而言，能够适用于项目反应理论的试题形式都可以应用于学习进阶测评工具开发，建构反应题（constructed response，CR）、顺序多项选择题（ordered multiple-choice，OMC）、填空题（a short answer）、多项选择题（multiple choice，MC）、判断对错题（multiple true or false，MIF）均可应用于学习进阶的测量（Chen，2012；Javid，2014）。这些类型的试题各有特点，如多选项选择题使用方便，但存在猜测效应，不能呈现学生本来的想法，可能不能用来测量高级思维，且在低能力段上测验信度不高；主观建构题更适合于测量学生组织、整合、综合知识的能力和解决新问题的能力，可以呈现学生初始的想法和推理的过程，缺点是难于管理、赋分，评分者之间易出现不一致性，也不能总是很好地呈现学生思考的过程（Lane，2010）。综合两类题目的特点，Briggs et al.（2006）等人开发了顺序多项选择题，这类题型比传统的建构反应题和多项选择题能更有效、更精细地诊断学生的学习进阶水平。

(三) 适用于学习进阶的测量模型

有研究者较为系统地阐述了学习进阶的心理测量学模型，归纳了学习进阶的多个单维和多维测量模型（高一珠，陈孚，辛涛等，2017）。但在实际应用中，众多研究者都选用了Rasch模型（李亚，2016；王祖浩 ,杨玉琴，2012；张燕华, 郑国民, 关惠文，2014）。研究者认为，Rasch模型是一种理论导向的测量模式，当测量数据与Rasch 模型拟合时，该测量会具备独特的优良性质，建立被试和题目的怀特图，解释被试和题目之间、不同题目、不同被试之间的差距（Wilson，2004）。

(四) 使用学习进阶开发测评工具的流程

Wei，Liu，& Jia（2014）以Rasch模型为基础讨论过学习进阶测量工具设计的一般方法，其步骤包括：①明确测量的目的，即分数的用途；②界定所要测量的结构变量、心理特质；③鉴别体现结构的行为表现；④建立测试细目表；⑤设计系列测试题；⑥评审测试题；⑦试测，实地测试；⑧进行建模；⑨信度、效度研究；⑩设计测试实施、评分、分数解释指南。Alonzo（2009）等人将使用Rasch模型开发测评工具的步骤描述为：①基于某学科领域专家对学生学习的认识或已有的关于学生迷思、概念掌握的文献，建立该学科重要概念的学习进阶；②根据最初建立的学习进阶编制题目，组成测验；③在代表性样本中试测，为测验、题目、选项提供信、效度证据；④将测验施测于目标样本，根据题目类型选择合适的测量学模型进行数据分析，获得测验的心理测量学性能，并验证学习进阶的理论假设。

综上，研究者在学习进阶测评工具的开发上已有了一些研究，本研究主要借鉴他们的研究成果，开发小学生统计思维的学习进阶测评工具。

三、基于学习进阶的小学生统计思维

测评工具研发

(一) 小学生统计思维学习进阶的理论假设

小学生统计思维学习目标和学习起点参考了《义务教育数学课程标准（2011年版）》及其解读。《义务教育数学课程标准（2011年版）》提出，统计与概率的学习目标是培养学生的“数据分析观念”。在整理、描述和分析数据的过程中，首先要对数据进行分类，分类是描述和整理数据的开始，接着是排序，进行必要的归纳和整理，最后把整理的数据运用统计图表直观地表示出来，并进行适当的分析，为人们作出决策和推断提供依据（史宁中，张丹，赵迪，2008）。根据这些论述，我们把“数、数量、基本运算、分类、比较”界定为小学生统计思维的学习起点。

小学生统计思维的进阶变量是通过专家访谈与问卷调查确立的。具体而言，访谈了第二届华人数学家代表大会的6名主席团成员，调查了与会的55名代表，进而初步确定出进阶变量，又通过246名小学数学教师、小学数学教研员调查的验证而确立。调查问卷的克隆巴赫α系数为0.908。

小学生统计思维发展水平的理论假设是参照他人的研究成果确立的。具体而言，依照了SOLO分类体系的前结构、单点结构、多点结构、关联结构、抽象扩展结构水平划分模式（彼格斯, 科利斯, 等，2010），参考了小学生统计思维的研究结果（Jones，Thornton，Mooney，Perry，& Putt，2000），并结合小学生所处的年龄阶段，把小学生统计思维的进阶水平划分为特征、过渡、数量化、分析四个水平。小学生统计思维的进阶变量及假定的进阶水平可见表1。

(二) 小学生统计思维测评题目

小学生统计思维测评工具的开发目的是了解和诊断学生统计思维的发展规律和发展水平，测验目的定位于形成性评价，而非高利害的总结性评价。因此，测评工具组建主要是围绕小学生统计思维的学习进阶，测量小学生在各个方面的发展情况。测评工具组建时主要考虑了试题形式、测验题目、评分标准三个方面。

1. 测试题目的来源与类型

测试题目主要来源于两个方面：一是与小学生统计思维测评有关的测评工具，二是小学数学教材的课后练习题。具体来说，从TIMSS、PISA、统计推理测验（Statistical Reasoning Assessment，SRA）、统计素养测试（Watson & Callingham，2003）题目中筛选合适的题目翻译、改编，使之符合中国小学生实际状况；从国内某些版本的小学数学教材课后练习题中筛选部分题目进行改造。聘请了1位数学教育、2名心理与教育测量学研究生，使用李克特5点量表评估试题与测评指标的对应程度，删除了平均等级小于3.5的题目，以保证题目的内容效度。聘请9名有经验的小学数学教师对试题难度进行评定和预估，难度预估采用1—10的计分方式，删除平均得分小于2（过于容易）和大于9（过于困难）的题目。考虑到学生的作答时间，测验预设了35道题，题目类型包括顺序多项选择题、主观建构题、多项选择题、填空题、对错题。

2. 测试题目与进阶变量、进阶水平的对应

依据学习进阶理论开发测评工具也需要制定双向细目表，考虑各内容的考察水平、所占比重。更重要的是，使用学习进阶开发测评工具时，学生的每一种作答反应模式都可以划到题目对应的进阶水平上，每一种作答反应均有测评意义。因此，依据学习进阶开发测评工具时，提供题目作答模式所对应的进阶水平显得十分重要。为了标定小学生统计思维测试题目所测查的进阶水平，本研究借鉴了Tatsuoka et al.（2004）使用TIMSS测验进行认知诊断研究时题目翻新的方式，邀请了小学数学教材编写专家、具有教学实践经验的小学数学教师、数学教研员、统计学及教育测量学博士生5人组成测试题目水平标定小组，根据水平描述的内容标定题目的测量水平。对标定不一致的题目开展讨论，3人及以上统一了标定的水平后可结束该题目的讨论。表2呈现了小学生统计思维学习进阶测评工具双向细目表。

3. 测试题目的赋分标准

基于学习进阶的测验赋分标准，取决于题目的形式。填空题和传统的多项选择题，使用0、1计分，顺序多项选择题依据相关文献，采用多步计分，计为0、1、2、3，分别代表学习进阶的四个水平；主观建构题采用分步计分，首先对学生作答反应进行编码，依据编码进行赋分。主观题编码规则及赋分标准主要是依据制定的小学生统计思维的学习进阶理论假设，将学生的作答反应划分到对应的四个进阶水平上，从低到高依次计为 0、1、2、3。如其中有一道主观题题目为：有个新生坐私家车来上学，Ta是男生还是女生？你怎么知道？对该题目的编码方式为3、2、1、0、9，其中9代表空白，其他编码的含义及部分样例如下：

Code 3 有“可能”“概率”等表述方式，并用数字呈现。如：

Ta是女生，因为乘坐私家车的有五人，其中女生是男生的四倍，所以我觉的Ta可能是女生。

Code 2 采用局部比较、多数的答题样例，考虑到私家车一行的大多数情况，或考虑到了组间的男女平衡，但缺少“可能性”的表达。如：

答：Ta是女生。因为大部分的女生都坐私家车。

答：Ta是女生。因为坐私家车的大多数是女生。

答：我认为是男生。因为男生有13个，女生有14个，为了人数相等，所以是男生。

Code1 采用图形的顺序或规律进行判断。如：

答：Ta是男孩，因为坐汽车的规律是：女、男、女、女，正好空出一个男孩，然后接着循环。

Code 0与题目信息无关，如分析了学生的性别特点，理解题目错误等。如：

答：Ta是女生，因为女孩子比较安静，不喜欢骑车，喜欢坐车，所以，我推测，Ta是女生。

答：Ta是男生，因为男生胆大，如果不是因为不熟悉路，他是不会坐私家车的，也正是因为他是新生，以前是其他学校的，他才会不熟悉路，如果他不是新生，一条走了五年的路，他不会坐车。

(三) 学习进阶的理论假设与测试题目的交叠验证

基于学习进阶的小学生统计思维测评工具的开发，与普通的测验工具开发流程基本类似，需要通过预测完善题目及测验质量。本研究开展了两轮预测。第一轮预测的主要目的是进一步完善试题。第二轮预测的主要目的是进一步验证修改后的试题，验证学习进阶的理论假设与学生实际发展状况的相符程度。

第一次预测选择了4—6年级536名学生进行预测。这种取样方式主要考虑到1—3年级的学生接触到的统计内容较少，4—6年级作为一个独立的学段，接触到的统计知识相对较多，又是初中、高中统计学习不可跨越的阶段。使用ConQuest（Wu，Admas &Wilson，1998）软件，采用Rasch模型的item+item*step的计算方法，进行题目难度估计及拟合指标检验，采用国际上常用的怀特图、加权的MNSQ（大于1.3）、未加权的MNSQ（T值大于2）、加权的MNSQ（T值大于2）等信息，删减和修改题目（Keeves & Alagumalai，1999；Wu，Admas &Wilson，1998）。

通过分析发现，有些题目的分步计分的难度阈限值并未呈现出增高趋势，需要完善评分标准。如旅游决策的题目，很少有学生能够结合两条线索并结合现实背景进行信息解释，而且能得3分的学生与整个测验的能力值相关度不高。将赋分标准从0、1、2、3调整为0、1、2，0表示不得分，1表示根据1条线索解释，2表示根据2条线索解释。

另外，图形阅读题难度较小，使得怀特图上学生的能力值偏高，测验的难度需要微调。具体方法是减少了条形统计图、折线统计图相关题目，增加了一道饼形图阅读及解释题，设置了一道能考察学生统计批判性思维的题目。调整后，题目包含28道题目，50个分步。

第二轮预测依然选择4—6年级学生，样本容量为846，主要目的是验证修改后的试题及整个测验与小学生统计思维学习进阶的匹配性。数据处理方法与第一轮预试后相同。题目的难度、估计误差，未加权的拟合指标、加权的拟合指标如表3所示。

28道题目的加权的MNSQ、未加权的MNSQ取值均在0.7—1.3之间，但部分题目|T|大于2，对学生的能力估计不够稳定。尽管如此，这些题目多数都是小学生统计思维需测查的必要内容，结合本测验的诊断性目的，保留了这几道试题。进一步检验题目的项目功能差异（different item function，DIF），不存在性别、城乡差异。

测试题目的难度与学生的能力分布基本呈现正态分布。从28道题单维（图1a）、50个分步单维（图1b）的怀特图可以看到，调整后的正式测评试卷试题难度分布较为合理，对4—6年级学生的统计思维能力具有一定的测评广度，且接近正态分布。水平1、水平2、水平3、水平4题目的难度均值依次为−1.26、0.23、0.5、1.35，四个难度水平逐渐上升，与学习进阶的理论假设一致。

(四) 基于学习进阶的小学生统计思维测评工具的质量分析

小学生统计思维的测评工具具有较好的内容效度。科学地划分测评的维度和指标、组卷前测试题目与测评指标的对应性评估，一定程度上保证了测评工具的内容效度。测试过程中，与小学数学教师的深入访谈也表明了该测试工具具有较好的内容效度。有教师提到“问卷涉及了读图、作图、计算平均数等教学中常见的统计与概率的题目类型，也结合具体情境给出了适合学生高级统计思维过程的题目”，“试卷有读数据，描述数据，解释数据含义，通过数据进行预测和判断，还体现了统计不确定性的特点”，“有些题目学生看上去是没有学习训练过，但学生结合学过的知识，仔细观察、认真思考后能够作答，能更深刻地反应学生的统计思维发展水平”。

数据分析发现，小学生统计思维测评工具具有较好的结构效度（李化侠，辛涛，宋乃庆，杨涛，2018）。探索验证性因素分析发现，当使用三因素模型时，数据拟合状况良好，RMSEA<0.08、SRMR<0.05、CFI>0.90、TLI>0.90。

小学生统计思维的测试题目具有一定的实证效度。访谈中教师提到学生阅读统计图比较容易，解释统计图困难，能够计算平均数，但理解平均数困难。与此同时，测试题分析结果表明：小学四年级以上学生基本能够较好读取直观的统计图表，图表的最大值、最小值不论是以条形图、折线图还是饼形图形式出现，学生均可正确读取。但是，学生理解统计图存在一定困难，比如条形图内部不使用纯色填充而使用竖条图纹填充时，4、5年级的部分学生会忽略坐标轴的标度而对填充图中竖条的数量进行计数，做出错误判断；测试题中与平均数有关的内容，学生的作答反应较为分散，选择题也存在较多猜测成分。教师访谈结果与实际测试题目难度的一致性，说明小学生统计思维测试题目在内容设置、内容水平上具有一定的效标关联效度。

小学生统计思维的信度及稳定性良好。Rasch模型分析显示测验的内部一致性信度为0.82，测试卷的总体EAP/PV 信度为0.92，数据的基本认识、数据描述与表征、数据分析三个维度的EAP信度分别是0.809、0.834、0.808。同时，本研究使用密歇根州立大学Frank（2000）开发的程序KonFound-it!©，将统计分析得到的回归系数、标准误差、样本容量输入程序，结果显示需要更换掉91%以上的调查对象才能推翻本研究的结论，进一步表明了小学生统计思维测评工具的稳定性。

四、讨论与结论

(一) 小学生统计思维学习进阶理论与学生发展实际基本一致

通过试题分析，可见小学生统计思维的学习进阶理论与学生的实际发展状况基本相符。学生统计思维的发展规律从自身的个性化特征向生活经验，再向数量化、分析化水平发展，关注的要素从单线索到多线索、多结构发展。这种发展规律与SOLO分类体系、Jones等人（2000）发现的小学生统计思维的发展规律基本一致。在个性化水平阶段，小学生倾向抛开给定的数据、基于自身的经验开展思维，如“女孩子比较安静，不喜欢骑车”“我又不是小明，我怎么知道”这类作答反应，与题目给定的数据基本无关。在过渡水平阶段，小学生已能关注到数据的某个方面，能根据基本的标准对数据分组、排序，认识到数据之间存在差异，但这一水平的学生往往只能关注到单一线索，如“图形排列有顺序”“男女生坐车的数据存在规律”这类作答反应，学生使用了不同的符号将男女生分组、排序，但仅凭图形排列规律、忽略了人数的线索做出的判断是不够准确的。在数量化水平上，小学生能注意到多条线索，或能对数据说明的问题做出多种反应，但存在反应不准确、与问题背景关联不紧密等问题，如“大部分的女生都坐私家车”这类作答反应，注意到了私家车与性别的关系但计算过程错误，再如“男生有13个，女生有14个，为了人数相等，所以是男生”这类作答反应，考虑到了班级学生的性别平衡但与具体问题的关联度不高。在分析水平上，小学生能够使用局部数据或整体数据进行比较，并结合背景知识进行有效推断，表达统计“可能性”的特点，如学生通过数据计算和比较，做出“女孩概率较高”这类作答反应，较好地体现了小学生统计思维的第四个进阶水平。

(二) 理论与实践的交叉验证为改进教学提供了更多参考信息

虽然小学生统计思维的学习进阶理论假设与学生的发展状况基本一致，但是基于学习进阶的小学生统计思维测评工具的开发过程中也体现了部分学生统计思维的发展呈现出“全”或“无”的特点，这与学习进阶的逐渐增长、循序渐进的理论假设并不完全一致。如“这张统计图是否每天都一样？”这道题，学生的作答反应基本都来自生活经验，他们的回答有“不一定，有可能谁的自行车坏了，就得选择其他交通工具”、“爸妈不出差就不坐私家车”、“不会，因为有可能公共汽车太挤了，就有人步行走到学校，所以不一样”、“不一样，因为只查了星期一的，以后说不定会有变化”等。旅游决策问题，许多学生并不知道需要依据图表提供的信息进行决策，而是基于“夏天吃雪糕”“秋天水果成熟”等与题目无关的信息作答。这说明小学阶段学生对统计问题的回答，很多都依赖于自身的主观经验，并不具备数据意识，更不知道从数据中得到结论。学习进阶的理论所期望的较高水平的答案较少出现在学生的作答反应中，说明学生的实际发展水平可能低于预期。这种状况可能与教师教学有一定关系。已有研究（Watson & Kelly，2002）显示，变异的内容的掌握与学生的年龄并无直接关系，通过恰当的内容安排，小学三年级儿童可以较好地掌握变异，而没有学习过变异知识的学生，九年级也不能很好地理解变异的知识（巴桑卓玛，2006）。基于这样的证据，如果认为学生统计思维的学习进阶理论假设是成立的，那么对学生在制作统计图、理解数据变化、基于数据做出决策等问题的影响因素上应做更多反思，在教学中给学生提供更多的学习机会。

(三) 学习进阶测试题目能更精细地反映出学生的水平

学习进阶的测试题目有多种形式可供灵活选择，由于测试题目的每一种作答反应都对应着不同的进阶水平，因而使用学习进阶的题目可以了解到学生思维发展的更多信息。如对平均数理解的一道题：

科学课上，9个同学对同一物体分别测量重量（单位克），记录如下：

6.2 6.0 6.0 15.3 6.1 6.3 6.2 6.15 6.2

为了尽可能准确地估计这个物体的重量，你推荐使用哪个数值或方法？（　）（单选）

A. 使用出现次数最多的数，6.2

B. 用 6.15，它最精确

C. 把9个数加起来再除以9

D. 去掉15.3，把其他8个数加起来，再除以 8

选项A是众数，选项C是平均数的计算方式，选项D是对平均数更深层次的理解，排除掉极端值之后计算稳定的平均数。依据这种分析，A、B选项计分为0，C选项计分为1，D选项计分为2。这种顺序多项选择题的每一个选项都可以了解学生对平均数的理解水平，进而可以为诊断学生的学习状况提供更多信息。

(四) 学习进阶的测评结果能为发现学生学习规律提供新视角

基于学习进阶开发的测验，除了具备正常测验具备的功能，如了解学生发展状况及水平，提供诊断信息之外，还能为发现学生学习中存在的问题提供新的视角。如文献综述所提到的，学习进阶能够反应学生思维发展的轨迹，学习进阶的测试工具基本上遵照学生思维发展的规律而设，如果测评结果与理论假设一致，那么可以证实学生思维发展的规律；如果测评结果与理论假设不一致，学习进阶的测评结果则可能为发现新的状况提供参考。比如，学生在作图题上的反应，可能由于学生都接触过了统计图，极少有学生使用自创的、有个人特质的图形，这与假定的学习进阶并不完全一致。小学阶段制作条形图、折线图时，高水平的学生与低水平的学生在作图题上的反应不在于是否知道用图形表示、用哪种图形表示，而在于对数轴上数的把握是否准确，得分较高的学生对数轴上的数量有着比较恰当的估计。这种不一致的情况，为我们了解学生统计图制作提供了更精细的诊断。

五、小结

本研究基于学习进阶理论构建了小学生统计思维的测试题目，描述了应用学习进阶理论开发小学生统计思维测评工具的过程和方法，并开发出了具有较好信度、效度的小学生统计思维测评工具。这对于推广学习进阶的实证研究、推动学习进阶理论在教育中的应用、提高教育的实证研究水平具有积极意义。

（辛涛为本文通讯作者，xintao@bnu.edu.cn）

参考文献

巴桑卓玛. (2006). 中小学生对统计的认知水平研究. 长春: 东北师范大学博士学位论文.

彼格斯, 科利斯, 等. (2010). 学习质量评价(高凌飚等译). 北京: 人民教育出版社.

高一珠, 陈孚, 辛涛, 詹沛达, 姜宇. (2017). 心理测量学模型在学习进阶中的应用:理论、途径和突破. 心理科学进展, 25(09), 1623-1630.

李化侠, 辛涛, 宋乃庆, 杨涛. (2018). 小学生统计思维测评模型构建. 教育研究与实验, 181(02), 80-86.

李亚. (2016). 我国地理核心素养的学习进阶研究. 上海: 华东师范大学硕士学位论文.

史宁中, 张丹, 赵迪. (2008). “数据分析观念”的内涵及教学建议——数学教育热点问题系列访谈之五. 课程•教材•教法, 28(06), 40-44.

王祖浩, 杨玉琴. (2012). 基于Rasch模型的“化学实验认知能力”测验工具编制及测评研究. 化学教育(中英文), 33(9), 95-102.

韦斯林, 贾远娥. (2010). 学习进程:促进课程、教学与评价的一致性. 全球教育展望, 39(09), 24-31.

张燕华, 郑国民, 关惠文. (2014). 中学生语文学科能力表现——基于Rasch模型的语文测试评价. 课程·教材·教法, 34(11), 69-74.

Alonzo, A., & Steedle, J.. (2009). Developing and assessing a force and motion learning progression. Science Education, 93(3), 389-421. DOI:10.1002/sce.20303

Briggs, D., Alonzo, A., Schwab, C., & Wilson, M.. (2006). Diagnostic assessment with ordered multiple-choice items. Educational Assessment, 11(1), 33-63. DOI:10.1207/s15326977ea1101_2

Chen, J.(2012). Applying item response theory methods to design a learning progression-based science assessment(Doctoral Dissertation). Michigan: Michigan State University.

Corcoran, T., Mosher, F., & Rogat, A.(2009). Learning Progressions in Science: An Evidence-Based Approach to Reform. CPRE Research Report # RR-63. Consortium for Policy Research in Education.

Duncan, R., & Hmelo-Silver, C.. (2009). Learning progressions: Aligning curriculum, instruction, and assessment. Journal of Research in Science Teaching, 46(6), 606-609. DOI:10.1002/tea.20316

Duschl, R., Maeng, S., & Sezen, A.. (2011). Learning progressions and teaching sequences: A review and analysis. Studies in Science Education, 47(2), 123-182. DOI:10.1080/03057267.2011.604476

Frank, K. (2000). Impact of a confounding variable on a regression coefficient. Sociological Methods & Research, 29(2), 147-194. DOI:10.3102/0162373713482763

Javid, L. (2014). The comparison between multiple-choice(MC) and multiple true-false(MTF) test formats in Iranian intermediate EFL learners’ vocabulary learning. Procedia-Social and Behavioral Sciences, 98, 784-788. DOI:10.1016/j.sbspro.2014.03.482

Jones, G., Thornton, C., Langrall, C., Mooney, E., Perry, B., & Putt, I. (2000). A framework for characterizing children's statistical thinking. Mathematical Thinking and Learning, 2(4), 269-307. DOI:10.1207/S15327833MTL0204_3

Kane, M., & Bejar, I.. (2014). Cognitive frameworks for assessment, teaching, and learning: A validity perspective. Psicología Educativa, 20(2), 117-123. DOI:10.1016/j.pse.2014.11.006

Keeves, J. P., & Alagumalai, S. (1999). New approaches to measurement. In Masters, G. N., & Keeves, J. P. (ed.). Advances in Measurement in Educational Research and Assessment. New York: Pergamon.

Lane, S. (2010). Validity of high-stakes assessment: Are students engaged in complex thinking?. Educational Measurement Issues & Practice, 23(3), 6-14. DOI:10.1111/j.1745-3992.2004.tb00160.x

National Research Council [NRC](2007). Taking Science to School: Learning and Teaching Science in Grades K-8. Washington, DC: The National Academies Press.

Plummer, J. D. (2012). Challenges in defining and validating an astronomy learning progression. In Alonzo, A.C., & Gotwals A.W. (ed.). Learning Progressions in Science. Rotterdam: SensePublishers.

Tatsuoka, K. K, Corter, J. E, & Tatsuoka, C. (2004). Patterns of diagnosed mathematical content and process skills in TIMSS-R across a sample of 20 countries. American Educational Research Journal, 41(4), 901-926. DOI:10.3102/00028312041004901

Watson, J., & Callingham, R. (2003). Statistical literacy: A complex hierarchy construct. Statistics Education Research Journal, 2(2), 3-46. DOI:10.1080/0969594X.2016.1225668

Watson, J., & Kelly, B. A. (2002). Can grade 3 students learn about variation? Proceedings of the Sixth International Conference on Teaching Statistics(ICOTS6). Cape Town: International Statistics Institution 2002.

Wei, S., Liu, X., & Jia, Y.. (2014). Using Rasch measurement to validate the instrument of students’ understanding of models in science(sums). International Journal of Science and Mathematics Education, 12(5), 1067-1082. DOI:10.1007/s10763-013-9459-z

Wilson, M. (2004). Constructing Measures: An Item Response Modeling Approach. New Jersey: Lawrence Erlbaum Associates.

Wu M. L., Adams, R. J., & Wilson, M. R.(1998). ConQuest: Generalized Item Response Modelling Software. Sydney: Australian Council for Educational Research(ACER).

●往期回顾 ●

新刊速递 | 华东师范大学学报（教育科学版）2020年第3期目录

特稿

朱永新 , [美]约翰 •库奇：技术如何释放终身学习者的潜能？——朱永新与约翰•库奇关于未来教育与学习升级的对话

基本理论与基本问题

[美] 林逸梅：期待其他多重世界，赋我们自身以生机：向比较教育学发出的一份邀请
朱旭东：论教室文化的构建刘坚等：高中生睡眠时间与高学业成绩的理想匹配模式探究及预警

学习科学

徐光涛等：近二十年学习科学领域的研究脉络与发展趋势——对《人是如何学习的》系列报告的文本分析唐一鹏等：如何提升中小学生的学业成绩？——基于学习策略与教学策略改进的视角白倩等 | 重识与重估：皮亚杰发生建构论及其视野中的学习理论农村教育赵锦等 | 教育精准扶贫：中国农村学生近视问题研究及防控政策建议