千米小说网

千米小说网>认知诊断模型有哪些 > 第二 认知诊断评价理论假设检验(第2页)

第二 认知诊断评价理论假设检验(第2页)

以上几种假设检验都是针对数据资料本身的特性进行分析检验的。对测验资料假设进行逐项检验可能是一个非常烦琐的过程,而且有些假设条件之间本来也是相互关联的,如作答过程真实性可能会影响被试的局部独立性。

假设检验都是为数据资料选择合适的分析模型提供证据保障的,为此,我们可以假设所选择的模型与数据资料之间是拟合的,然后检验基于所选择模型的分析结果是否符合预期,来判断模型选择的合理性。下面介绍另外两种检验方法。

四、模型-资料拟合检验

不同的认知诊断模型建立了包含不同参数的项目反应函数,以描述不同水平被试答对每个项目的概率。借鉴项目反应理论中的模型-资料拟合检验方法,我们可以基于不同水平被试的观察答对比例与项目反应函数的答对比例之间的一致性来构建拟合检验统计量。其实已经有许多研究者提出了各种基于这种分析逻辑的检验方法。我们以DINA模型为例,首先,依据该模型估计所有被试的属性掌握模式,并将属于相同属性掌握模式的被试归类到一组;其次,根据DINA模型的项目反应函数计算各组被试(其实,对于DINA模型来说,这时候只有两个组,即掌握了项目测量的所有属性的被试组和未掌握项目测量的所有属性的被试组)在各个项目上的答对概率(期望比例),同时,统计各组被试(注意与前面分组一致)在各个项目上实际观察答对比例;最后,计算期望答对人数与观察答对人数之间的差异统计量,即拟合统计量,作为所选模型与实际观察数据之间拟合程度的指标。拟合性程度指标可以使用皮尔逊卡方统计量(Pearsonchi-squares),如式(4-8)所示:

其中,k表示被试按属性掌握模式分组的组数(同样,对于DINA模型来说,这时只有两个组,即掌握了项目测量的所有属性的被试组和未掌握项目测量的所有属性的被试组),foj和fej分别为各个组正确作答的观察被试个数和期望被试个数。正确作答的观察被试个数,通过直接点算相应组的实际正确作答人数得到;正确作答的期望被试个数,通过相应组总人数乘项目反应函数计算的正确作答概率得到。

另外,杨统计量是实际使用非常广泛的另一个模型拟合性程度指标,也叫Q1统计量,其定义如式(4-9)所示:

式子中,k表示被试按属性掌握模式分组的组数,Nj表示处于第j组的被试数量,Qij表示第j组被试在第i题上的实际观察正确作答比例,Eij表示第j组被试在第i题上的期望正确作答比例,这里就是通过模型的项目反应函数计算得到的正确反应概率,也可以用杨提出的式(4-10)进行计算:

Pi(αl)就是属性掌握模式为αl的被试在第i题上的正确反应概率,杨统计量渐近地服从自由度为(k-c)的卡方(χ2)分布,c表示模型中的参数个数。杨同时定义整个测验与所选项目反应模型的拟合程度为各个题目Q1的累加和。

另外,有一些在各学科领域常用的模型资料拟合统计量,如AIC统计量(Akaikeinformation)、BIC统计量(Bayesianinformation)、DIC统计量(deviaion)等,也可以用于指导我们选择更合适的认知诊断模型。其实,AIC统计量、BIC统计量和DIC统计量的建构逻辑原则非常相近,但在应用中存在一些差异。我们依次介绍这几个统计量及其使用。

AIC统计量是在给定一批数据资料的情形下,表示多个统计模型之间对该数据资料的拟合质量的测量指标。AIC统计量分析了每个模型相对于其他模型的拟合质量,因此可以协助为数据资料选择更合适的模型。AIC统计量是基于信息理论建构的,表示了使用某个模型来解释数据资料时相对的信息丢失量。当然,模型的参数越多,越能更好地解释数据,越能利用和传递数据包含的信息,但模型本身就会显得更加复杂而难以处理。因此,AIC统计量是在模型和数据的拟合优良性与模型的简化程度之间进行权衡的指标。AIC统计量无法提供关于某个模型绝对意义上的拟合程度评价信息,即使所有模型实际上拟合数据的程度都很差,AIC统计量也无法给出一个临界信息。因此,这类拟合统计量被归类为相对拟合统计量。

假设有一批数据资料U,统计模型M用于解释这批数据。W表示模型估计的参数个数。比如,DINA模型估计的参数数目为2J(题目参数个数,J为题目数)+2K-1(被试参数数目,K为测验属性个数),Lmax表示模型的极大似然函数值(关于极大似然函数的概念请参见参数估计一章中的相关内容),Lmax=P(U|θ,M),θ为使似然函数达到极大值的参数值。AIC统计量定义如下:

在一批备选模型中,AIC统计量越小的模型被认为是拟合数据资料越好的模型。根据式(4-11)可以知道,数据资料的拟合质量(通过似然函数评价拟合质量)越高,模型参数数目越小,AIC值越小。不鼓励过度拟合(),因为增加参数数目几乎总是会提升模型的拟合度。

在实际应用中,我们首先计算所有备选模型的AIC值,然后选择AIC值最小的模型。然而,实际观察数据资料总会存在误差效应,因此,如果有模型的AIC值与最小AIC值非常接近,这时应该如何选择呢?这时可以计算一个评价指标exp[(AI-AICi)2],i表示一个与AIC值最小的模型竞争的模型。该评价指标表示了竞争模型相对于当前最小AIC值模型来说,有多大可能成为AIC值最小的模型。如果该评价指标值比较大,那么在选择模型时就需要更加谨慎。比较稳妥的办法是增加观察数据资料,使更佳拟合模型的选择趋于一致,同时保证参数估计的精确性和结果解释的稳定性。

BIC统计量同样是在候选模型有限的情形下选择一个最佳模型。该统计量同样认为,模型参数越多,拟合数据资料的可能性越大,但会导致过度拟合的结果。为此,BIC统计量也对模型参数的数量设置了惩罚项,而且BIC统计量对此的惩罚力度更大。BIC统计量定义如下:

在多个候选模型中,BIC值最小的模型是最合适的模型。BIC值会随着需要自由估计的参数数目的增加而增大,同时也会随着模型的估计误差方差的增大而增大。也就是说,因变量(结果变量)估计偏差和自变量(解释变量)的数目会导致BIC值变大。因此,小的BIC值就意味着更少的待估参数和更佳的模型拟合度。不同模型之间的BIC值差异及其意义的判断一般参照以下标准:0~2意味着模型效率差异不明显;2~6意味着推荐选择BIC值更小的模型;6~10意味着强烈建议选择BIC值更小的模型;大于10意味着两个模型具有显著不同的解释力和应用价值,BIC值小的模型应该被选择。

BIC统计量比AIC统计量更严厉地惩罚参数冗余,当然,两者之间的差异会受到样本容量及样本容量与参数数目的相对大小的影响。另外,BIC统计量和AIC统计量一样都是相对拟合统计量,均没有绝对意义上的统一的临界值。

关于DIC统计量,我们首先定义离差统计量:

其中,y代表了结果数据,θ是模型的未知参数,P(y|θ)是似然函数,C是一个常数。这个常数在对不同模型进行比较时会被抵消,因此我们在实际应用中不用知道它的具体取值。

DIC统计量更倾向于选择数据拟合良好的模型,因此可能会产生过拟合的评估结果。同时,与AIC统计量和BIC统计量一样,DIC统计量是一个相对拟合指标。DIC统计量也容易受到样本容量大小的影响,同时,只有当后验分布渐近多元正态分布时,DIC统计量的检验结果才是可信的。

五、被试-模型拟合检验

在进行模型-资料拟合检验时,一般都是通过作答数据检验各个项目是否拟合模型,很少关注被试作答行为是否拟合当前模型。主要是因为被试是一个随机化的样本,而测验是一个相对稳定的结构化变量。其实,在实际的评价项目中,当前所选模型可能对有些被试的作答结果无法很好地进行解释,也就是说,当前模型参数也许并不能很好地描述被试真实的潜在特质水平。因此,从被试评价的角度来说,有必要对每个被试也进行模型-资料拟合检验,以对被试水平做出更加准确的判断。

对于认知诊断评价,被试与模型之间的拟合检验显得尤为重要。因为被试作答测验时所应用的知识结构也许与模型所定义的那些知识结构并不是一致的。崔等人基于属性层级方法(attributehierar)的思想,提出了一种检验被试拟合程度的统计量指标——层级一致性指标(hierarsistendex,HCI)。

在项目反应理论中,对于某个被试来说,当某个题目的答对概率较高却作答错误,而当某个题目的答对概率较低却作答正确时,我们认为这样的作答模式是不正常的。

在认知诊断评价中,被试水平不再只是通过一个单独的能力水平分数来评价,而是通过其在多个测验属性上的发展状态来评价。这些测验属性之间很有可能存在层级关系(虽然有的诊断模型在参数估计过程中并不强调属性层级的作用,但在补救教学阶段却仍然必须定义属性间的层级关系)。这时就必须要检验被试在作答反应中所运用的知识结构是否与基于该层级关系建立的Q矩阵一致。

Qr矩阵定义了每个项目测量的知识属性,被试必须掌握这些属性才能答对项目。于是,通过比较被试的观察反应模式和Qr矩阵的属性定义模式,就可以评估被试在作答项目时是否运用了与Qr矩阵定义的知识属性或属性组合不同的属性或属性结构。

如果被试掌握了项目测量的所有属性,那么他就应该可以答对该项目,于是,他也就可以答对所有包含答对项目子属性(项目属性是另一项目属性的子集)的项目。基于该逻辑思想,被试i的HCI指标的构建模式如下:

其中,

Sj包括测量了项目j属性子集的所有项目;

以一个被试的观察作答反应模式为例,具体计算HCI指标的过程如下:

⑤计算HCI指标值,并做出拟合程度判断。

HCI指标和前文介绍的个人作答模式拟合指数均可以对被试的异常作答模式进行检验,均依据观察结果与期望结果之间的差异做出判断。当然,这两个统计量指标的具体构建模式存在着明显的不同。

本章小结

模型-资料拟合检验检查模型参数及函数形式是否能够较好地解释或预测数据资料。每个模型都是基于研究者对数据资料形成逻辑的认知而提出的,并用参数化的函数来表示这种逻辑关系。研究者的认知需要通过对实际数据的分析进行检验。每个模型均是一个解释数据的有机整体,包括参数的设置、函数的形式及相应的假设条件,它们共同支撑模型对数据的解释,因此,任何部分的扭曲都将导致模型整体对数据解释的偏离。当然,模型的不同组成部分对整体模型的影响程度不同,有些条件还具有较好的稳健性。

我们虽然从不同的角度提出对模型进行检验,从每个角度又提出了各种不同的检验方法,但正如上面所说,其实不同角度的检验之间存在着内在的关联,均检验被试作答模式是否与模型的建构逻辑一致。因此,只要有一个角度的检验结果发现了数据偏离模型,这就意味着整个模型无法很好地解释该数据结果。

思考题

1。思考作答过程真实性假设的意义和主要的检验方法。

2。思考局部独立性假设的意义和主要的检验方法。

已完结热门小说推荐

最新标签