【例会预告】
会议名称:数据科学与创新管理团队例会
会议时间:2025年11月20日(周四)15:00-17:00
会议地点:经管楼609会议室
汇报人:李虎峰
汇报题目:
一种基于DAC方法的统计学检验思路
汇报摘要:
相较于传统的实证、案例等研究方法,数据驱动分析方法(Data-driven Analysis for studying the influence mechanism of Complex factors,DAC)综合了定量和定性研究的优势,通过机器学习的方法研究复杂系统关键核心因素的机制。有助于提供基于企业异质性的高度细分的管理建议,通过CART决策树有助于理解要素间存在的高阶交互作用。但是,DAC方法在方法层面也存在一些不足:例如缺乏统计学推断方面的严谨性、模型的不稳定和高方差问题,单棵CART树对训练数据的微小变动非常敏感。数据集中的少量变化可能导致树的结构发生巨大变化,降低了模型的稳定性。此外,当缺乏有效剪枝策略时,还可能导致模型的过拟合问题。基于上述问题,借鉴统计学和计量经济学领域的假设检验及“处理效应的思路”,针对DAC方法进行一定的补充。具体而言,通过Kruskal-Wallis H检验和事后检验(Dunn’s Test)检验K-Means聚类分组间的差异性。针对具体决策规则,引入卡方检验验证规则的显著性,通过替换模型超参数、重复随机子样本抽样检验和安慰剂检验研究决策路径的稳健性。以验证具体决策路径(即分类规则)的实际区分能力,以及生成的分类规则是来源于数据内在规律而非随机偶然。

图1 自由度为2的卡方检验

图2 双侧检验结果

图3 安慰剂检验结果