Mal-ID能准确识别542名COVID-19、HIV、狼疮、1型糖尿病、近期接种流感疫苗者和健康对照者血液样本中的免疫状态,在未用于训练的数据上,接收者操作特征曲线下的多类面积(AUROC)达到0.986。结合B细胞和T细胞受体数据的特征可获得最高的分类性能,但即使仅使用BCR序列,研究人员仍然获得了很高的分类性能(在扩大的队列中,增加了51个仅有BCR数据的个体,其AUROC为0.959)。
尽管该模型经过训练可以对多个异质类别进行分类,但它也可以专门用于检测特定病症。在专门用于区分狼疮患者与其他患者和健康对照组时,分类器的灵敏度达到了93%,特异性达到了90%。与目前的检测方法相比,这种性能表明BCR和TCR序列分析具有检测临床相关信号的潜力。
与来自健康供体的序列相比,该模型为来自外部数据库的与SARS-CoV-2结合的BCR序列赋予了更高的COVID-19关联分数。研究人员还验证了批次效应和人口统计学因素(如年龄、性别和血统)不会对疾病分类性能造成影响,而且该模型在其他实验室的外部数据集上进行测试时表现良好。