论文名: Improving Low-Resource Short Answer Scoring through Large Language Model-Based Data Augmentation

作者：Peichao Lai, Kexuan Zhang, Yilei Wang, Bin Cui

IEEE Transactions on Knowledge and Data Engineering 是数据工程与人工智能领域的顶级国际期刊（CCF-A类），长期关注数据管理、机器学习与智能系统等方向的前沿研究成果。其在自动化教育评估、数据挖掘与智能学习系统领域具有重要影响力。PKU-DAIR实验室论文《Improving Low-Resource Short Answer Scoring through Large Language Model-Based Data Augmentation》被TKDE 2026接收。

问题背景与动机

随着在线教育规模的迅速增长，如何高效、准确地对学生主观题进行自动评分，成为教育智能化中的关键问题。其中，短答案评分（Short Answer Scoring, SAS）由于具有明确参考答案和更强约束性，比长文本作文评分更具实际落地价值。

然而，在真实低资源场景（Low-resource）应用中，SAS 面临三个核心难题：

1. 新题目不断出现，标注数据难以获取

2. 学生答案表达多样，语义空间极其复杂

3. 不同分数区间样本稀疏，模型难以学习细粒度评分边界

这些问题使得当前方法在实际部署中效果不稳定，严重制约了自动评分系统的发展。

核心挑战：数据多样性 vs 评分一致性

现有方法主要面临两大瓶颈：

1. 数据稀缺与分布失衡：真实学生答题数据存在评分分布不均问题，低资源场景下标注样本稀少，模型易过拟合，泛化能力受限。

2. 合成数据质量不足：传统数据增强方法易引入噪声，且LLM生成的合成样本与真实学生答题风格差异较大，导致评分模型出现偏差；同时，评分模型难以有效捕捉文本中的关键实体，影响评分准确性。

图1：与现有基于数据增强和迁移学习的SAS方法的对比

为解决上述挑战，本研究提出SCALE框架，通过知识图谱驱动的数据生成、双阶段过滤标注与实体感知建模，实现低资源场景下SAS性能的显著提升，核心思路具体如下：

1. 知识图谱（KG）驱动数据合成：构建包含硬边、软边等多类型边的知识图谱，结合风格重写提示词，生成语义一致、风格多样的合成样本，缓解数据稀缺问题。

2. 双阶段过滤与标注对齐：通过语义距离优化的初始过滤，保留多样且上下文相关的样本；再通过代理数据训练标注器，缓解合成样本与真实样本的风格偏差，确保评分准确性。

3. 实体感知注意力模型：引入实体提取与实体级注意力机制，融合文本语义与关键实体信息，提升模型对技术类文本（如公式、代码）的评分能力。

主要贡献概括为：

1. 提出SCALE框架，通过KG驱动的数据合成与双阶段过滤，平衡数据多样性与语义一致性，有效缓解低资源场景的数据稀疏问题。

2. 设计实体感知注意力机制，增强模型对关键实体的捕捉能力，提升技术类短答案的评分准确性。

3. 在多语言、多领域数据集上验证了方法的有效性，尤其在少样本场景下表现突出，同时具备良好的跨领域迁移能力。

方法介绍

图2：SCALE框架的整体工作流

数据生成阶段

数据生成阶段核心是基于知识图谱实现可控的数据增强，打破传统随机生成模式的局限，构建语义一致且多样的合成样本。首先，研究通过大语言模型从参考答案和真实学生答案中，精准抽取关键语义单元，涵盖关键短语（如专业术语、公式、代码片段等）、实体类型（包括条件、操作、数值等不同类别）以及语义摘要，这些抽取的信息为后续知识图谱构建提供了核心支撑。基于这些语义单元，研究构建了一个任务特定的知识图谱，该图谱包含三种关键关系：

类型关系（硬边），用于明确实体间的固定关联的；
语义共现关系（软边），用于表征实体间的潜在关联；
表达与语义映射关系，用于关联不同表述形式与同一核心语义。

该知识图谱为后续数据生成提供了严格的结构化约束，确保生成过程不偏离目标领域语义。在生成过程中，模型并非直接对原始文本进行改写，而是在知识图谱中查找与原始关键短语语义相似的候选节点，对关键短语进行精准替换，同时严格保持文本整体语义的一致性，这种方式相比传统随机替换，大幅提高了合成数据的质量，有效减少了语义偏移问题，增强了数据生成的可控性。此外，为进一步扩展数据多样性，SCALE引入了风格规则库，包含详细解释风格、简洁回答风格、数学专家风格、分点结构风格等多种真实学生答题中常见的风格，通过随机采样规则库中的风格，对同一答案进行多风格重写，显著扩展了训练数据空间，为后续模型训练提供了丰富的样本支撑。

数据过滤与对齐

该阶段主要用于提升合成数据质量，解决合成样本与真实样本的语义偏差和标注偏差问题，分为语义过滤、对齐标注和细粒度过滤三个步骤。首先是语义过滤阶段，核心目标是筛选出高质量的合成数据，筛选标准兼顾多样性与一致性：既要与原始样本差异较大，以保证数据的多样性，避免样本冗余；又要与原始样本的语义邻域接近，以确保合成数据与目标领域语义的一致性。为实现这一目标，研究设计了一个多目标优化函数，通过最大化合成样本与原始样本的语义距离来保证多样性，同时最小化合成样本与原始样本邻域样本的语义距离来保证一致性，有效平衡了两者之间的矛盾。其次是对齐标注阶段，针对直接使用原始模型标注合成数据会产生标注偏差的问题，SCALE提出了Proxy Data（代理数据）机制，具体做法是利用LLM对真实学生答案进行“润色”处理，在保持答案核心语义不变的前提下，使润色后的答案表达风格接近生成的合成数据，再使用这些经过润色的真实答案作为代理数据，训练专属的标注模型（Annotator），最后由该训练好的标注模型对筛选后的合成数据进行打分，从而有效缓解合成样本与真实样本的标注偏差。最后是细粒度过滤阶段，通过比较合成样本的原始标签与标注模型预测的标签，若两者差异超过预设阈值，则将该合成样本剔除，最终得到高质量、高一致性、高多样性的训练数据，为模型训练提供可靠支撑。

模型训练阶段

在训练阶段，SCALE将引入实体级建模，增强模型对关键信息的捕捉能力，尤其适配含数学题、代码题、技术问答等场景的短答案评分需求。在该阶段，首先进行实体信息注入，将从短答案文本中抽取的关键短语转化为结构化输入，与原始文本并行输入模型，使模型能够清晰识别文本中的关键实体及其属性，打破传统模型仅关注文本表面语义的局限。随后，模型引入实体注意力机制，通过多头注意力机制实现文本语义表示（句子级）与实体语义表示（实体级）的深度融合，让模型在训练过程中能够自动关注影响答题准确性的关键实体，强化关键实体特征的权重，弱化无关信息的干扰。这种实体感知增强设计的优势十分显著，对于数学题、代码题、技术问答等关键实体（如公式、代码片段、专业术语）决定答题准确性的场景，能够大幅提升模型对关键信息的捕捉能力，减少因忽略关键实体导致的评分偏差。同时，模型基于预训练语言模型（如BERT、ERNIE 3.0）进行微调，结合经过过滤对齐的合成数据与原始标注数据进行融合训练，进一步提升模型的泛化能力和评分准确性，确保在低资源、跨领域场景下仍能保持稳定的性能表现，最终实现短答案自动评分的精准化。

实验结果

实验数据与场景配置

数据集：涵盖多语言、多领域，包括新构建的中文ADS数据集（含代码、公式，适配技术类答题场景），以及LE、ASAG、SR等公开数据集。
实验场景：分为全量数据与少样本（N-way K-shot）场景，模拟低资源环境，对比多种强基线模型（BERT、ERNIE 3.0、SPRAG等）。
评价指标：采用Pearson相关系数（R）、二次加权Kappa（QWK）、均方根误差（RMSE），全面衡量评分准确性。

核心实验结果

表1: 全量数据集实验结果

表2: 少样本数据集实验结果

1. 全量数据场景：SCALE在所有数据集上均优于基线模型，其中SCALE（ERNIE 3.0）在ADS数据集上QWK达到83.85%，较原生ERNIE 3.0提升1.90%，且RMSE最低，评分误差最小。

2. 少样本场景：优势更显著，SCALE（BERT）较SPRAG平均提升6.45%的R值，在SR数据集k=5的极端低资源场景下，R值较 vanilla BERT提升15.67%，有效缓解数据稀疏导致的性能下降。

图3: 原始训练样本、合成样本和测试集样本t-SNE可视化

3. 可视化与消融分析：t-SNE可视化显示，过滤后的合成样本能精准填补原始数据的语义空白；消融实验证明，数据增强、实体注意力、细粒度过滤是SCALE性能提升的关键，其中细粒度过滤模块可使QWK平均提升3%以上。

表3: 跨领域少样本数据集实验结果

4. 跨领域迁移：在医疗、金融等领域的文本匹配任务上，SCALE仍能保持优势，证明其良好的鲁棒性与迁移能力。

总结

本研究针对低资源场景下短答案自动评分的核心痛点，提出SCALE框架，通过知识图谱驱动的数据合成、双阶段过滤标注与实体感知建模，有效平衡了数据多样性与语义一致性，显著提升了评分准确性与模型泛化能力。实验表明，SCALE在多语言、多领域及少样本场景下均达到当前最佳性能，尤其适用于含代码、公式的技术类答题评分场景，为低资源环境下的主观题自动评分提供了新范式，具有重要的实际应用价值。

实验室简介

北京大学数据与智能实验室（Data And Intelligence Research Lab at Peking Univeristy，PKU-DAIR实验室）由北京大学计算机学院崔斌教授领导，长期从事数据库系统、大数据管理与分析、人工智能等领域的前沿研究，在理论和技术创新以及系统研发上取得多项成果，已在国际顶级学术会议和期刊发表学术论文200余篇，发布多个开源项目。课题组同学曾数十次获得包括CCF优博、ACM中国优博、北大优博、微软学者、苹果奖学金、谷歌奖学金等荣誉。PKU-DAIR实验室持续与工业界展开卓有成效的合作，与腾讯、阿里巴巴、苹果、微软、百度、快手、中兴通讯等多家知名企业开展项目合作和前沿探索，解决实际问题，进行科研成果的转化落地。

基于大语言模型增强的低资源短答案自动评分方法

问题背景与动机

方法介绍

实验结果

总结

实验室简介

评论 0

近期热门新闻

下一篇

基于大语言模型增强的低资源短答案自动评分方法

问题背景与动机

方法介绍

实验结果

总 结

实验室简介

评论 0

近期热门新闻

下一篇

总结