第二语言阅读能力计算机自适应测试中的若干问题

1996年3月20日至22日

本次研讨会是第二语言评估领域的一个里程碑，是第一次专门关注第二语言计算机自适应测试(CAT)的国际会议。来自世界各地的80多名参与者前来学习这一前沿的语言评估领域。

明尼苏达大学长期以来一直被誉为语言能力测试领域的领导者，其语言习得高级研究中心(CARLA)通过测试开发和研究推动了语言能力评估的议程。1996年夏授予CARLA的“利用计算机自适应测试技术改进和加强基于外语水平的测试”赠款使CARLA研究小组开始构建计算机自适应测试，以评估和提供关于学生法语、德语和西班牙语阅读能力的诊断信息。本次研讨会的一个主要目标是讨论将为这些测试的构建提供信息的关键问题。

这次开创性的研讨会邀请了计算机自适应测试、技术、第二语言阅读能力和第二语言评估领域的顶尖专家。演讲内容涉及第二语言阅读和计算机自适应测试评估的理论问题和实证结果。

研讨会涵盖以下议题:

卡拉大学计算机自适应阅读能力测试的发展
第二语言阅读模型与研究:与计算机自适应测试的关系
计算机自适应测试的最新趋势，包括评分算法和项目选择启发式
计算机化测试技术，包括多媒体，模拟，项目格式，曝光和安全
第二语言计算机自适应测试与评估“，
项目反应理论
多项目池用于能力和诊断测试

会议演讲

计算机化第二语言测试展望
David Weiss博士，明尼苏达大学心理学系教授

计算机化的管理模式和各种形式的适应性管理可以改善第二语言测试。本文将讨论计算机管理的一些优点。本文将描述自适应测试的起源和方法，并介绍自适应测试在第二语言测试中的几个应用。

大型网络上的计算机化测试:今天和明天的问题
Charles Johnston博士，Drake Prometric公司技术副总裁。

许多机构和组织已经转向计算机化考试，其中计算机自适应测试代表了一种日益增长的交付模式。交付通常需要一个大型的全国或全球交付点网络。该系统必须反映测试开发和心理测量学的最新趋势，包括多媒体演示、模拟、新的项目/测试格式、专家评分系统和安全性等。

探索计算机化考试的新项目类型:新的可能性和挑战
Michael Yoes，博士，评估系统公司总裁。

计算机化考试的应用越来越广泛。很少考虑到计算机化所特有的新项目类型的机会。大多数计算机化测试(包括CATs)使用的题目类型都来自于纸质测试。测试开发人员可以考虑新的项目类型。讨论可能的新方向，并提出心理测量的挑战。

学习外语阅读和C-A阅读评估
William Grabe，博士，北亚利桑那大学英语系副教授

本演讲将首先简要概述母语阅读研究的一些主要发现，这些发现对大学外语阅读学习具有重要影响。然后，演讲将提出一系列在大学外语环境中影响阅读能力发展的问题(或困境)。考虑到这些问题(或困境)，并考虑到特定大学现代语言系的目标，最后一部分将考虑实施计算机自适应阅读评估需要解决的问题。

如果阅读是基于读者的，是否可以有计算机自适应阅读测试?
Elizabeth B. Bernhardt，博士，斯坦福大学语言中心主任兼德国研究教授

这次演讲回顾了第一语言和第二语言阅读的理论。此外，它检查了支持每个理论的数据，特别强调最近对L1/L2读写能力关系数据的重新检查。本文认为，从这些个人的观点和他们的综合来看，在试图评估阅读理解时，CAT是一种潜在的异类努力。

计算机自适应测试:局外人的观点
蒂姆·麦克纳马拉，墨尔本大学语言学与应用语言学系副教授，博士

技术上创新的评估形式不可避免地令人兴奋，但这种创新需要在广泛的评估需要范围内加以评价。CAT能做什么，不能做什么?本文从当前的评估思想，特别是绩效评估的角度对CAT进行了评价。

通过计算机化自适应测试阅读能力的内容考虑
Jerry Larson博士，杨百翰大学人文研究中心主任，西班牙语教授

本报告将集中讨论阅读能力计算机化自适应测试的相关内容。特别值得关注的是，需要提供在各种语言设置中代表当前语言的阅读文章。CAT算法实现适当的项目选择将被演示。

检查用于开发二语听力理解CATs的内容和测量模型的实用性和适当性:对进一步发展综合CATs的启示
帕特丽夏·邓克尔，美国乔治亚州立大学应用语言学和ESL系教授兼系主任

本文首先介绍了ESL和豪萨语中多媒体听力理解的研究与发展。然后，主讲人将分享从开发CATs和对正在学习(或已经学习)ESL和豪萨语的考生试用题库中获得的见解。从观察数据和经验中获得的见解将主要讨论与CAT开发人员所做的关于以下方面的先验决策有关的问题:(1)理解内容/任务模型的识别;(2)指定编写题库和创建题库的框架;(3)选择Rasch IRT模型作为CAT测量模型;(4)项目选择和停止CAT的算法规范。

基于结构化题库的计算机辅助教学集成学习与测试
John de Jong博士，荷兰国家教育测量研究所语言测试部门负责人

从全球的角度来看，大量的工具似乎可以用于测试外语阅读理解。然而，仔细观察，这些工具中似乎有许多质量不高，而且大多数集中在有限数量语言的有限数量领域。考虑到我们当今社会语言需求的多样性，这种混乱的局面导致了一个悖论，即实际上可用的测试数量远远不够。因此，有人认为，如果教育希望在世纪之交满足市场需求和技术标准，建立结构化题库的国际合作是至关重要的。本文将举例说明如何为计算机辅助计算建立结构项目库。

用计算机辅助阅读法构建阅读强度剖面
J. Michael Linacre，博士，芝加哥大学MESA心理测量实验室副主任

CAT提供了灵活性、彻底性、诊断和测试安全性。短信息的阅读可以用第二语言进行多项选择释义测试，长文本可以用定制的第一语言MCQ问题测试。对于筛查使用，时间是最小化的。对于安置，更长的测试可以诊断强度。给出了试验理论和报告。

托福阅读理解适应性评估
Daniel R. Eignor博士，教育考试服务中心首席测量专家

ETS目前正在评估引入计算机自适应版托福考试的可行性，托福考试的最后一个部分目前测试阅读理解能力。在本演讲中，将讨论用于托福阅读理解部分自适应版本的IRT模型、选题算法和控制题项暴露的过程，以及做出这些选择的原因。

Rasch测量模型的实用
Richard Luecht，博士，高级心理测量学家，计算机自适应测试主任，国家医学检验委员会

所有统计模型都是对现实的不完全反映;然而，有些模型是有用的。模型的效用取决于许多因素，包括统计拟合、结构可识别性、参数估计成本和模型选择基础的实质性理论。本文提出了一个全面的框架来评估IRT模型的实际效用，一般来说，并实证地证明了相当吝啬的Rasch模型家族的总体有用性，特别强调CAT和阅读评估的应用。

参观计算机适应性测试项目详情请浏览网页。