项目反应理论的Parscale软件实现*(3)_中国教育学刊杂志社投稿_期刊论文发表|版面费|电话|编辑部|论文发表

一、稿件要求： 1、稿件内容应该是与某一计算机类具体产品紧密相关的新闻评论、购买体验、性能详析等文章。要求稿件论点中立，论述详实，能够对读者的购买起到指导作用。文章体裁不限，字数不限。 2、稿件建议采用纯文本格式(*.txt)。如果是文本文件，请注明插图位置。插图应清晰可辨，可保存为*.jpg、*.gif格式。如使用word等编辑的文本，建议不要将图片直接嵌在word文件中，而将插图另存，并注明插图位置。 3、如果用电子邮件投稿，最好压缩后发送。 4、请使用中文的标点符号。例如句号为。而不是.。 5、来稿请注明作者署名(真实姓名、笔名)、详细地址、邮编、联系电话、E-mail地址等，以便联系。 6、我们保留对稿件的增删权。 7、我们对有一稿多投、剽窃或抄袭行为者，将保留追究由此引起的法律、经济责任的权利。二、投稿方式： 1、请使用电子邮件方式投递稿件。 2、编译的稿件，请注明出处并附带原文。 3、请按稿件内容投递到相关编辑信箱三、稿件著作权： 1、投稿人保证其向我方所投之作品是其本人或与他人合作创作之成果，或对所投作品拥有合法的著作权，无第三人对其作品提出可成立之权利主张。 2、投稿人保证向我方所投之稿件，尚未在任何媒体上发表。 3、投稿人保证其作品不含有违反宪法、法律及损害社会公共利益之内容。 4、投稿人向我方所投之作品不得同时向第三方投送，即不允许一稿多投。若投稿人有违反该款约定的行为，则我方有权不向投稿人支付报酬。但我方在收到投稿人所投作品10日内未作出采用通知的除外。 5、投稿人授予我方享有作品专有使用权的方式包括但不限于：通过网络向公众传播、复制、摘编、表演、播放、展览、发行、摄制电影、电视、录像制品、录制录音制品、制作数字化制品、改编、翻译、注释、编辑，以及出版、许可其他媒体、网站及单位转载、摘编、播放、录制、翻译、注释、编辑、改编、摄制。 6、投稿人委托我方声明，未经我方许可，任何网站、媒体、组织不得转载、摘编其作品。

项目反应理论的Parscale软件实现*(3)

作者:

关键词:

摘要：

[11] 陈新林，徐谦，文艺，等.条目反应理论MG-Bilog软件在量表研究中的应用.中国组织工程研究,2016(49):7443-7448.

项目反应理论(item response theory，IRT)也称条目反应理论，广泛用于教育学、心理学及医学量表测验中。Parscale软件是实现IRT理论的常用软件，由Eiji Muraki 和Darrell Bock等开发，现在由Scientific Software International(SSI)公司拥有( 模型，Samejima模型(graded response model)，Master部分评分模型(partial credit model)，广义部分评分模型(generalized partial credit model)，多项选择项目分析，多组多分类项目反应模型(multiple-group polytomous item response models)。Parscale软件还可以对量表进行项目功能差异(differential item functioning,DIF)分析。目前，Parscale软件广泛用于心理量表的评价[1-3]，教育学的评价，生存质量量表的研发和分析[6-9]。例如Castro等使用Parscale软件评价Beck抑郁问卷，研究发现Beck抑郁问卷中，患者最严重的条目是减肥、自杀的想法和社会退出[1]。Kopec等使用Parscale软件评价关节炎患者生存质量量表，从218个条目中筛选出不存在DIF的31个条目，构成5个领域。Fukuhara等使用Parscale软件研制视觉功能问卷的简短版，将原来的32个条目简化为11个条目[8]。本文结合多分类条目介绍如何使用Parscale软件。资料分析资料为鼻咽癌患者生存质量量表的生理领域，一共包括9个条目，都是五分类的正向条目，得分越高说明生存质量越大。资料保存为dat格式，命名为NPC.DAT。一共15列，前面3列是ID，中间3列是空格，后面9列是条目得分。使用Samejima模型计算各个条目的参数，并估计患者的能力参数。分析步骤语法本文使用的Parscale软件是4.1版本。打开Parscale软件。点击“File…New”，建立分析的文件，文件命名为Pars.PSL。 Parscale的语法都以“>”开始。在Pars.PSL中输入以下语法：>FILE DFNAME=′NPC.DAT′,SAVE;>SAVE PARM=′NPC.PAR′,SCORE=′NPC.SCO′;>INPUT NIDW=3,NTOTAL=9,NTEST=1,LENGTH=(9),NFMT=1;(3A1,3X,9A1)>TEST1 TNAME=SCALE1,ITEM=(1(1)9),NBLOCK=1;>BLOCK1 BNAME=SBLOCK1,NITEMS=9,NCAT=4,CADJUST=0.0;>CALIB GRADED,LOGISTIC,SCALE=1.7,NQPTS=30,CYCLES=(25,2,2,2,2),NEWTON=5,CRIT=0.005,ITEMFIT=10;>SCORE EAP,NQPT=30,SMEAN=0.0,SSD=1.0,NAME=EAP,PFQ=5;2.语法说明FILES语句，用于读取数据。DFNAME=NPC.DAT表示读取NPC.DAT 的数据，要求数据和语法文件放在同一个文件夹。SAVE表示保存语法。SAVE语句，用于保存结果。PARM=′NPC.PAR′，表示保存条目参数(包括名字和文件扩展名)；SCORE= NPC.SCO，表示保存患者的能力参数(得分)。INPUT语句，说明分析数据的属性。NIDW表示患者的ID数量；NTOTAL表示分析的总条目数；NTEST表示量表(测试)的数量；LENGTH表示每个量表的条目数；NFMT表示读取原始记录的行数。另外TAKE = n表示选取前面n个测试者进行分析；MGROUP/MRATER说明亚组(或评价者)的数目，用于DIF分析；WEIGHT表示加权。(3A1,3X,9A1) 语句，是变量格式语句，说明数据的存储格式，前3列是ID，其次3列是属性，最后9列是分析的条目。TEST1语句，是测试命令语法，用于说明分析的条目数，测试的名字，定义阈值参数和区分度的初始值等。TNAME 表示测试量表的名字；INAME表示条目的列表；NBLOCK表示有相同分类参数(区组)条目的数量。另外，ITEMS表示估计的条目；INTERCEPT、THRESHOLD和SLOPE分别设定条目截距、阈值参数和区分度的初始值，经常采用默认值。BLOCK1语句，说明每个区组的属性，Parscale软件把具有相同分类数目的条目放在一起估计。BNAME表示区组的名字；NITEMS表示每个区组包含的条目；NCAT表示每个条目的分类数目(条目的分类，本例是四分类)；CADJUST对区组参数的均数进行调整。另外，GPARM设定猜测参数，RATER用于提供评价者的方差比例；REPEAT表示BLOCK语法的重复次数；SCORING表示指定计分函数。ORIGINAL表示条目的初始得分，MODIFIED表示对条目重新赋分。例如将1、2得分转化为2、1，使用ORIGINAL=(1,2),MODIFIED=(2,1)。CALIB语句，说明估计所采用的方法。GRADED/PARTIAL表示采用Samejima模型(GRM)或者Master模型(partial credit model)对参数进行估计；LOGISTIC/NORMAL说明要使用的响应函数；SCALE表示尺度常数，设定为1.7；NQPTS表示积分点的数目；CYCLE完成EM估计的最大次数；NEWTON表示Gauss-Newton迭代的最大次数；CRIT为EM估计和Gauss-Newton迭代的收敛标准；ITEMFIT说明用于计算条目拟合统计的次数。>SCORE EAP,NQPTS=30,SMEAN=0.0,SSD=1.0,NAME=EAP,PFQ=5;SCORE语句，说明评分过程，用于估计被测试者的得分。EAP/MLE/WML为估计的方法，EAP、ML和WML分别表示Bayes后验估计、最大似然估计和加权最大似然估计方法；NQPT为积分点的数目；SMEAN为测试的平均值；SSD为测试的标准差；NAME为估计文件的名字；PFQ说明移动到临近分类的百分比；DIST说明先验分布类型。3.运行程序及展示结果点击菜单栏的Run，包括四个阶段：(1)0阶段(phase 0)，输入数据和准备分析，包括模型说明(model specifications)、校准参数(calibration parameters)、文件任务和规定(file assignments dispositions)。校准参数的结果主要包括：最大EM周期数、最大内部EM周期数、最大类别估计周期、最大条目参数估计周期数、EM周期的收敛标准、斜率的收敛标准、阈值的收敛标准等等。(2)1阶段(phase 1)，输出数据和计算条目统计量。条目汇总统计量(summary item statistics)，给出每个条目的总人数、每个选项的人数及比例，见表1；条目参数估计值，给出每个条目的均数和标准差，所有条目的均数(31.922)和标准差(5.416)，并计算出经典测量理论下的阈值参数(initial location)和区分度参数(initial slope)，见表2。表1 条目汇总统计量NAMEtotalNot presentOmitcategories510(0.0)0(0.0)12(2.7)86(19.1)183(40.6)159(35.3)11(2.4)000(0.0)0(0.0)23(5.1)102(22.6)159(35.3)149(33.0)18(4.0)?????????000(0.0)0(0.0)14(3.1)58(12.9)111(24.6)179(39.7)89(19.7)Cumul*130(3.2)609(15.0)1070(26.4)1411(34.8)839(20.7)*：Cumul表示汇总结果。表2 条目参数估计值Block response meanS.D.*total score meanS.D.*Pearson & polyserial correlationinitial slopeinitial **.0820.956**………………** ....0634.488*：本表结果基于经典测量理论。(3)2阶段(phase 2)，估计模型的条目参数。包括给出类别参数(category parameter)及其标准误；每个条目的参数估计值，包括区分度参数(slope)及标准误；阈值参数(location)及标准误，猜测参数(guessing)及标准误，条目拟合统计量的χ2值和P值，见表3。所有条目的猜测参数均为0，条目5的阈值参数最小(-2.376)，条目3的阈值参数最大(0.578)，所有条目阈值参数的平均数为-1.005，说明拟定的条目对患者而言偏容易。表3 条目的参数估计值及条目拟合统计量ITEMslopeSElocationSEguessingχ.............137均数标准差*：Slope表示区分度，location表示阈值参数，guessing表示猜测参数，SE表示标准误，χ2表示条目拟合统计量。(4)3阶段(phase 3)，估计被测试者的参数，包括每个被测试者的平均分类(mean category)、能力参数(ability)及标准误，见表4。这里的ability是根据IRT理论计算出来的能力参数，跟阈值参数的尺寸一致。表4 被测试者的参数估计值IDgroupweightmean ..221-0....8910..4287???????.1110..4766(5)显示图形。Parscale软件还提供了很多图形，运行完所有程序后，点击Run…Plot，显示了常见的图形，包括条目特征曲线(item characteristic curve，ICC)，条目信息曲线(item information curves)，总体信息曲线(total information curves)等。例如图1显示了条目0001的条目特征曲线；图2显示了总体信息曲线。同时显示所有条目的ICC，见图3；估计能力的直方图，见图4。图1 条目0001的条目特征曲线图2 总体信息曲线图3 同时显示所有条目的ICC图4 估计能力的直方图小结Parscale软件功能强大，可以估计条目参数和被试者的能力参数，并展现多种图形，广泛用于多种模型，包括logistic 模型，Samejima模型，Master模型和广义部分评分模型等。RUMM 2030软件也可以用于分析多个模型[10]；而Bilog-MG软件只能分析二分类条目(logistic 模型)，不能分析多分类条目[11]。Parscale软件的实现需要编写语句，而RUMM 2030采用点击的操作模式；两种软件各有优缺点，相对而言，Parscale软件的语句容易出错，在一定程度上影响了它的使用。参考文献[1] Castro SM,Trentini C,Riboldi J.Item response theory applied to the Beck Depression Bras Epidemiol,2010,13(3):487-501.[2] French GA,Dodd recovery for the rating scale model using Outcome Meas,1999,3(2):176-199.[3] 邹丹杰，伍霞.结构方程模型和IRT等级反应模型在人格量表项目筛选中的对比研究.内江师范学院学报,2014,29(12):52-56.[4] 戴莹.基于GPCM的高中数学教师评价指标体系的调查与分析.数学的实践与认识,2013,43(9):37-43.[5] 周群.基于论证的我国高考开发质量评价模型研究.华东师范大学,2011.[6] Kopec JA,Sayre EC,Davis AM,et of health-related quality of life in arthritis:conceptualization and development of five item banks using item response Qual Life Outcomes,2006,4:33.[7] Yang FM,Heslin KC,Mehta KM,et al.A comparison of item response theory-based methods for examining differential item functioning in object naming test by language of assessment among older Test Assess Model,2011,53(4):440-460.[8] Fukuhara S,Wakita T,Yamada M,et of a short version of the visual function questionnaire using item-response One,2013,8(9):e.[9] 林岳卿，张伟涛，方积乾.项目反应理论在医学量表条目筛选中的应用.中国医药导报,2014,11(5):155-158.[10] 陈新林，侯政昆，林岳卿，等.应用RUMM2030软件实施条目反应理论.中国卫生统计,2016(5):896-898.[11] 陈新林，徐谦，文艺，等.条目反应理论MG-Bilog软件在量表研究中的应用.中国组织工程研究,2016(49):7443-7448.