论文名: Improving Low-Resource Short Answer Scoring through Large Language Model-Based Data Augmentation
作者:Peichao Lai, Kexuan Zhang, Yilei Wang, Bin Cui
IEEE Transactions on Knowledge and Data Engineering 是数据工程与人工智能领域的顶级国际期刊(CCF-A类),长期关注数据管理、机器学习与智能系统等方向的前沿研究成果。其在自动化教育评估、数据挖掘与智能学习系统领域具有重要影响力。PKU-DAIR实验室论文《Improving Low-Resource Short Answer Scoring through Large Language Model-Based Data Augmentation》被TKDE 2026接收。
问题背景与动机
随着在线教育规模的迅速增长,如何高效、准确地对学生主观题进行自动评分,成为教育智能化中的关键问题。其中,短答案评分(Short Answer Scoring, SAS)由于具有明确参考答案和更强约束性,比长文本作文评分更具实际落地价值。
然而,在真实低资源场景(Low-resource)应用中,SAS 面临三个核心难题:
1. 新题目不断出现,标注数据难以获取
2. 学生答案表达多样,语义空间极其复杂
3. 不同分数区间样本稀疏,模型难以学习细粒度评分边界
这些问题使得当前方法在实际部署中效果不稳定,严重制约了自动评分系统的发展。
核心挑战:数据多样性 vs 评分一致性
现有方法主要面临两大瓶颈:
1. 数据稀缺与分布失衡:真实学生答题数据存在评分分布不均问题,低资源场景下标注样本稀少,模型易过拟合,泛化能力受限。
2. 合成数据质量不足:传统数据增强方法易引入噪声,且LLM生成的合成样本与真实学生答题风格差异较大,导致评分模型出现偏差;同时,评分模型难以有效捕捉文本中的关键实体,影响评分准确性。

图1:与现有基于数据增强和迁移学习的SAS方法的对比
为解决上述挑战,本研究提出SCALE框架,通过知识图谱驱动的数据生成、双阶段过滤标注与实体感知建模,实现低资源场景下SAS性能的显著提升,核心思路具体如下:
1. 知识图谱(KG)驱动数据合成:构建包含硬边、软边等多类型边的知识图谱,结合风格重写提示词,生成语义一致、风格多样的合成样本,缓解数据稀缺问题。
2. 双阶段过滤与标注对齐:通过语义距离优化的初始过滤,保留多样且上下文相关的样本;再通过代理数据训练标注器,缓解合成样本与真实样本的风格偏差,确保评分准确性。
3. 实体感知注意力模型:引入实体提取与实体级注意力机制,融合文本语义与关键实体信息,提升模型对技术类文本(如公式、代码)的评分能力。
主要贡献概括为:
1. 提出SCALE框架,通过KG驱动的数据合成与双阶段过滤,平衡数据多样性与语义一致性,有效缓解低资源场景的数据稀疏问题。
2. 设计实体感知注意力机制,增强模型对关键实体的捕捉能力,提升技术类短答案的评分准确性。
3. 在多语言、多领域数据集上验证了方法的有效性,尤其在少样本场景下表现突出,同时具备良好的跨领域迁移能力。
方法介绍

图2:SCALE框架的整体工作流
数据生成阶段
数据生成阶段核心是基于知识图谱实现可控的数据增强,打破传统随机生成模式的局限,构建语义一致且多样的合成样本。首先,研究通过大语言模型从参考答案和真实学生答案中,精准抽取关键语义单元,涵盖关键短语(如专业术语、公式、代码片段等)、实体类型(包括条件、操作、数值等不同类别)以及语义摘要,这些抽取的信息为后续知识图谱构建提供了核心支撑。基于这些语义单元,研究构建了一个任务特定的知识图谱,该图谱包含三种关键关系:
- 类型关系(硬边),用于明确实体间的固定关联的;
- 语义共现关系(软边),用于表征实体间的潜在关联;
- 表达与语义映射关系,用于关联不同表述形式与同一核心语义。
该知识图谱为后续数据生成提供了严格的结构化约束,确保生成过程不偏离目标领域语义。在生成过程中,模型并非直接对原始文本进行改写,而是在知识图谱中查找与原始关键短语语义相似的候选节点,对关键短语进行精准替换,同时严格保持文本整体语义的一致性,这种方式相比传统随机替换,大幅提高了合成数据的质量,有效减少了语义偏移问题,增强了数据生成的可控性。此外,为进一步扩展数据多样性,SCALE引入了风格规则库,包含详细解释风格、简洁回答风格、数学专家风格、分点结构风格等多种真实学生答题中常见的风格,通过随机采样规则库中的风格,对同一答案进行多风格重写,显著扩展了训练数据空间,为后续模型训练提供了丰富的样本支撑。
数据过滤与对齐
该阶段主要用于提升合成数据质量,解决合成样本与真实样本的语义偏差和标注偏差问题,分为语义过滤、对齐标注和细粒度过滤三个步骤。首先是语义过滤阶段,核心目标是筛选出高质量的合成数据,筛选标准兼顾多样性与一致性:既要与原始样本差异较大,以保证数据的多样性,避免样本冗余;又要与原始样本的语义邻域接近,以确保合成数据与目标领域语义的一致性。为实现这一目标,研究设计了一个多目标优化函数,通过最大化合成样本与原始样本的语义距离来保证多样性,同时最小化合成样本与原始样本邻域样本的语义距离来保证一致性,有效平衡了两者之间的矛盾。其次是对齐标注阶段,针对直接使用原始模型标注合成数据会产生标注偏差的问题,SCALE提出了Proxy Data(代理数据)机制,具体做法是利用LLM对真实学生答案进行“润色”处理,在保持答案核心语义不变的前提下,使润色后的答案表达风格接近生成的合成数据,再使用这些经过润色的真实答案作为代理数据,训练专属的标注模型(Annotator),最后由该训练好的标注模型对筛选后的合成数据进行打分,从而有效缓解合成样本与真实样本的标注偏差。最后是细粒度过滤阶段,通过比较合成样本的原始标签与标注模型预测的标签,若两者差异超过预设阈值,则将该合成样本剔除,最终得到高质量、高一致性、高多样性的训练数据,为模型训练提供可靠支撑。
模型训练阶段
在训练阶段,SCALE将引入实体级建模,增强模型对关键信息的捕捉能力,尤其适配含数学题、代码题、技术问答等场景的短答案评分需求。在该阶段,首先进行实体信息注入,将从短答案文本中抽取的关键短语转化为结构化输入,与原始文本并行输入模型,使模型能够清晰识别文本中的关键实体及其属性,打破传统模型仅关注文本表面语义的局限。随后,模型引入实体注意力机制,通过多头注意力机制实现文本语义表示(句子级)与实体语义表示(实体级)的深度融合,让模型在训练过程中能够自动关注影响答题准确性的关键实体,强化关键实体特征的权重,弱化无关信息的干扰。这种实体感知增强设计的优势十分显著,对于数学题、代码题、技术问答等关键实体(如公式、代码片段、专业术语)决定答题准确性的场景,能够大幅提升模型对关键信息的捕捉能力,减少因忽略关键实体导致的评分偏差。同时,模型基于预训练语言模型(如BERT、ERNIE 3.0)进行微调,结合经过过滤对齐的合成数据与原始标注数据进行融合训练,进一步提升模型的泛化能力和评分准确性,确保在低资源、跨领域场景下仍能保持稳定的性能表现,最终实现短答案自动评分的精准化。
实验结果
- 数据集:涵盖多语言、多领域,包括新构建的中文ADS数据集(含代码、公式,适配技术类答题场景),以及LE、ASAG、SR等公开数据集。
- 实验场景:分为全量数据与少样本(N-way K-shot)场景,模拟低资源环境,对比多种强基线模型(BERT、ERNIE 3.0、SPRAG等)。
- 评价指标:采用Pearson相关系数(R)、二次加权Kappa(QWK)、均方根误差(RMSE),全面衡量评分准确性。

表1: 全量数据集实验结果

表2: 少样本数据集实验结果
1. 全量数据场景:SCALE在所有数据集上均优于基线模型,其中SCALE(ERNIE 3.0)在ADS数据集上QWK达到83.85%,较原生ERNIE 3.0提升1.90%,且RMSE最低,评分误差最小。
2. 少样本场景:优势更显著,SCALE(BERT)较SPRAG平均提升6.45%的R值,在SR数据集k=5的极端低资源场景下,R值较 vanilla BERT提升15.67%,有效缓解数据稀疏导致的性能下降。

图3: 原始训练样本、合成样本和测试集样本t-SNE可视化
3. 可视化与消融分析:t-SNE可视化显示,过滤后的合成样本能精准填补原始数据的语义空白;消融实验证明,数据增强、实体注意力、细粒度过滤是SCALE性能提升的关键,其中细粒度过滤模块可使QWK平均提升3%以上。

表3: 跨领域少样本数据集实验结果
4. 跨领域迁移:在医疗、金融等领域的文本匹配任务上,SCALE仍能保持优势,证明其良好的鲁棒性与迁移能力。
总 结
本研究针对低资源场景下短答案自动评分的核心痛点,提出SCALE框架,通过知识图谱驱动的数据合成、双阶段过滤标注与实体感知建模,有效平衡了数据多样性与语义一致性,显著提升了评分准确性与模型泛化能力。实验表明,SCALE在多语言、多领域及少样本场景下均达到当前最佳性能,尤其适用于含代码、公式的技术类答题评分场景,为低资源环境下的主观题自动评分提供了新范式,具有重要的实际应用价值。
实验室简介
北京大学数据与智能实验室(Data And Intelligence Research Lab at Peking Univeristy,PKU-DAIR实验室)由北京大学计算机学院崔斌教授领导,长期从事数据库系统、大数据管理与分析、人工智能等领域的前沿研究,在理论和技术创新以及系统研发上取得多项成果,已在国际顶级学术会议和期刊发表学术论文200余篇,发布多个开源项目。课题组同学曾数十次获得包括CCF优博、ACM中国优博、北大优博、微软学者、苹果奖学金、谷歌奖学金等荣誉。PKU-DAIR实验室持续与工业界展开卓有成效的合作,与腾讯、阿里巴巴、苹果、微软、百度、快手、中兴通讯等多家知名企业开展项目合作和前沿探索,解决实际问题,进行科研成果的转化落地。

评论 0