非对称统计模型为具有罕见“阳性”的不平衡数据提供了更好的拟合,例如纵向健康数据集。
有时,当标准的现成模型无法切割时,需要更复杂但更准确的模型。这是来自 KAUST 统计项目的研究人员的信息。
一个有趣的例子是包含罕见疾病发生的大型健康数据集。特别是在多年跟踪许多患者的纵向研究中,在大型数据集中寻找少数疾病实例对标准统计方法提出了挑战。
“在纵向研究中,我们可能希望找到某种疾病与几个潜在影响因素之间的关系,”Zhongwei Zhang 博士说。Raphael Huser 的学生。“为此,我们可能会随着时间的推移从数百名受试者那里收集数据。由此产生的反应数据将是二元的——疾病或无疾病——并且同一受试者的反应是相关的,因为它们是从同一个人那里收集的。”
对于这种相关的二元响应数据,最先进的模型是多元概率模型。但是,当数据不是对称分布或不平衡时,此模型可能不适合,其中正数与负数大致相同。
“由于这种对称链接模型,多元概率模型可能并不总是为高度不平衡的数据提供最佳拟合,这可能导致平均响应的估计存在重大偏差,”张解释说。“有必要为这类数据开发灵活的非对称链接模型。在这项研究中,我们开发了一种新的多元斜椭圆链接模型,可以更好地解释数据。”
斜椭圆链接模型是一种灵活的模型,能够捕捉数据中的不平衡,例如大多数结果为零但一小部分重要部分等于 1 的情况。使用作为特例嵌入的多元概率模型,该模型的数学灵活性使其可用于平衡和不平衡数据。
由 Zhang 与 KAUST 教授 Marc Genton 和 Huser 开发的新模型被证明可以更好地拟合来自美国加利福尼亚地区的高度不平衡的 COVID-19 数据集。
“在灵活性和简约性之间经常存在权衡,”张说。“如果您正在寻找具有高效推理的易于解释的模型,那么就选择手头的简约模型。但如果您正在寻找根据特定标准具有最佳性能的模型,则可能存在更复杂的更合适的模型。”