连续的提高

评价的客观性与主观性


如果我们查看沿着连续体的评估的客观性和主体性,我们可以沿其长度代表各种评估和评分方法。

可以客观地评估的测试项目具有一个正确的答案(或一个正确的响应模式,在更复杂的项目格式的情况下)。评分器不需要在标记响应方面进行判断,正确或不正确。它们通常通过遵循答案密钥来标记测试。在某些情况下,客观测试由扫描机器和计算机进行评分。客观测试通常是由选定 - 响应项目格式,例如多项选择,匹配和真假。在客观评分测试中包括所选响应项的优点是可能答案的范围仅限于测试编写器提供的选项 - 测试接受者不能提供替代,可接受的响应。

由于我们在阅读和听力理解措施中评估的大​​部分是测试作者首先解释的,因此客观地评分的一定程度的主观性存在。因此,解释模式的评估,即使是由“单右答案”项目组成的评估,也可能不会在连续统一的客观结束时一直放置。

甚至最简单的情况,客观地评估响应可能更困难固定反应项的格式.答案键可以指定一个单词的正确答案,也就是填空项,但实际上可能有多个,可接受的对教师或测试开发人员未预期的该项目的替代响应。在课堂测试情况下,教师可能会感知某些反应,如同均衡或部分正确,并在炼制其标记测试时对其进行评分标准进行一些主观判断。短答题物品的非正式评分标准可能适用于课堂测试,只要它们一致地应用并且可防止。

就像很少有对第二语言知识和技能的真正客观的衡量一样,也很少有对表现的纯粹主观的评价。让分数者的主观印象来决定学习者的成绩,对于大多数学生、他们的父母或其他利益相关者来说是不可接受的。我们通常不需要证明一件艺术作品是好是坏,我们只是喜欢它或不喜欢它。因为我们的判断对艺术家没有重大的影响(除非我们是艺术评论家),一个主观的评价是可以接受的。这也不是一个值得关注的问题,许多观众的艺术作品不同意其质量。

布朗和AbeyWickrama(2010年)建议判断评估有五个主要标准:

  1. 实用性: 在预算之内;可以在适当的时间内完成;考虑设计和得分的时间和精力
  2. 可靠性:均匀的尺寸,以各种评分器借出持续应用;任务项目对完成任务的人是明确的
  3. 有效性:测量它建议测量的东西;提供有关个人能力的有用的、有意义的信息
  4. 真实性:项目/任务是上下文化的,而不是孤立的;有意义的、相关的、有趣的话题;复制现实的任务
  5. 反拨作用:积极影响教师教学和学习者的学习;为学习者提供了增强他们的语言发展的反馈。

卡拉邮件列表注册 联系Carla. 卡拉事件 捐赠给卡拉 Carla在Facebook上 卡拉在YouTube上 推特
语言习得高级研究中心(Carla)•140型大学国际中心•331 - 17号AVE SE•明尼阿波利斯,MN 55414