诊断试验准确性研究的设计类型和选择

发布时间：2025-08-28 发布者：浏览次数：

诊断试验准确性研究的设计类型和选择

2024年12月26日 21:51

引用本文：刘晓龙,邬娜,李亚斐.诊断试验准确性研究的设计类型和选择[J].中华流行病学杂志,2024,45(12):1705-1714.DOI:10.3760/cma.j.cn112338-20240617-00356

刘晓龙，邬娜，李亚斐

摘要

诊断试验是临床工作中不可或缺的工具，在将诊断试验引入临床实践之前，要经由科学设计的准确性研究进行严格评价，其准确性直接关系到诊断的正确性和治疗决策的合理性。本文介绍了诊断试验准确性研究的设计类型及其特点，包括单组设计、诊断性病例对照研究设计、单组配对设计以及平行组设计，并根据研究问题所处阶段、诊断试验在临床诊断路径中的作用和实际临床应用场景推荐合适的设计类型，为进一步规范当前临床诊断试验准确性研究设计提出建议。本文旨在帮助临床研究者更好地了解和选择合适的诊断试验准确性研究设计类型，以期提高诊断试验准确性研究的质量。

【关键词】诊断试验准确性；设计类型；单个诊断试验准确性研究；诊断试验准确性比较研究

前言

诊断试验指将患者与可疑患病但实际无病者区别开来的试验方法，不仅包括患者的症状、体征等临床资料，还包括实验室检测、影像学检查和特殊仪器检查等结果^［^1-2^］。准确的疾病诊断是临床医疗工作的前提，使用不准确的诊断试验会引起诊断错误，并在临床实践中导致医生做出错误的治疗决定^［^3-4^］。因此，在将诊断试验引入临床实践前，对其进行严格的评价至关重要，同时也是实施循证诊断的基础^［⁵^］。

对一项诊断试验开展研究和评价主要包括可靠性、准确性和临床应用价值3个方面^［⁶^］。关于这类研究可宽泛地称为诊断性研究或诊断试验研究。

诊断试验的可靠性又称重复性、稳定性或信度，指在相同条件下诊断试验对相同人群重复试验获得结果的稳定程度。可靠性越高，说明试验结果受随机误差的影响越小，评价的指标主要包括符合率、Kappa值、SD和变异系数等^［⁷^］。

诊断试验的准确性又称真实性，指诊断试验所取得的结果与实际（真实）情况相符合的程度。一般通过比较研究对象的诊断试验结果和临床参考标准结果的一致性来评价诊断试验的真实性，评价的指标包括敏感度、特异度、约登指数、似然比、OR值、预测值、受试者工作特征曲线下面积等^［^8-9^］。任何新的诊断方法在临床开展之前，均要经科学设计的准确性研究进行严格评价。关于这方面的研究称为诊断试验准确性研究。开展诊断准确性研究的前提是有公认的金标准，用于明确诊断是否患目标疾病，否则无法评价诊断试验的准确性。

诊断试验的临床应用价值通常指收益、可行性、成本和风险以及对临床结局的影响。具有良好可靠性和较高准确性是一项诊断试验进入临床实践的前提条件，对诊断试验的最终评估是临床应用价值的确认^［¹⁰^］。临床价值取决于能否基于诊断试验结果做出正确的诊疗决策，并改善患者的临床结局。即便一项诊断试验具有良好的可靠性和较高的准确性，但其诊断结果不会带来临床最终结局的差异，那么该诊断试验就没有实际临床价值，这样的诊断也极大可能成为所谓的“过度诊断”^［¹¹^］。

可见，对一项诊断试验的可靠性、准确性和临床应用价值3个方面的评价是由浅入深，逐步进行，运用的评价指标和研究设计各不相同。当前发表的诊断性研究大多是诊断试验准确性研究，但目前的诊断试验准确性研究中对于诊断试验准确性研究设计类型的命名和分类不够统一，大部分教材也未明确。Yang等^［¹²^］2021年开展的一项诊断准确性比较研究的方法学系统综述，对2015-2017年发表的100项诊断准确性比较研究文献的方法学进行了系统分析，结果发现，61项研究中有39项未报告研究设计类型名称；而在这61项研究中共报告了29个不同的研究设计类型，其中使用命名较多的是回顾性研究、前瞻性研究、横断面研究、病例系列、病例对照研究、前瞻性队列的横断面分析等，可见设计类型的命名较混乱，缺乏统一规范。名称概念上的模糊往往会影响研究设计的规范化和科学化，进而影响诊断试验准确性研究的质量。此外，对于如何根据不同的临床应用场景选择合适的研究设计类型，现有文献提供的指导相对有限。本文针对诊断试验准确性研究的设计类型进行介绍，并对不同研究阶段和临床应用场景设计类型的合理选择提出建议。

一、

诊断试验准确性研究常用的设计类型

不合理设计会引入各种偏倚，导致结果不准确，因此采用何种研究设计类型是开展诊断试验准确性研究需要考虑的首要问题。在一项诊断试验准确性研究中，以金标准作为参照，比较1种诊断试验准确性的研究称为单个诊断试验准确性研究；比较≥2种诊断试验准确性的研究称为诊断试验准确性比较研究。

1. 单个诊断试验准确性研究

（1）单组设计：

单个诊断试验准确性研究一般采用单组设计，即制定统一的纳入排除标准，对符合标准的对象进行连续纳入，确定研究对象后，使每位研究对象同时接受待评价的诊断试验和金标准，并判定比较二者的结果^［¹³^］。通常要求“同步、盲法”比较，即待评价诊断试验和金标准之间最好同步进行，或有合理的时间间隔，并且采用“盲法”判读待评价诊断试验和金标准的结果。见图1。

这种单组设计具有传统流行病学研究中横断面研究设计的时间框架，因此很多研究也直接将这种设计称之为横断面研究，有研究也称之为诊断性横断面研究^［^13-14^］，但其与流行病学的横断面研究并不完全相同，本文称之为单组设计。

①优点：

第一，研究对象的选择可采用连续抽样。连续抽样是一种临床研究中常用的可行性较好的非随机抽样方法，即选择一定时期内符合要求的连续性病例，与其他非随机抽样方法相比，既结合了在临床工作中入组患者的实际情况，又可以在一定程度上减少选择偏倚。

第二，因为是单组设计，研究对象的纳入符合“单门原则”，即研究对象均采用统一的纳入排除标准，而不是将患者和非患者群分别抽样^［¹⁵^］。当然，纳入排除标准的确定要紧密结合诊断试验的应用人群，注意结果外推性的同时也要兼顾研究的可行性^［¹⁶^］。例如，在一项单源双能计算机断层扫描（CT）诊断椎体压缩性骨折的骨髓水肿的准确性研究中，研究者前瞻性纳入影像检查疑为胸椎或腰椎压缩性骨折的>50岁人群，符合“单门原则”，对所有患者采用单源双能CT检查，以磁共振成像为金标准评价其诊断准确性^［¹⁷^］。“单门原则”加之连续抽样有利于保证纳入研究对象的流程与真实世界的情况类似，使研究对象的疾病谱和其他特征与诊断试验推广应用的目标人群类似；也有助于估计研究对象的患病率，以便进一步估算预测值^［¹⁸^］。

第三，根据对象招募方式或数据收集的时序性，可以采用前瞻性或回顾性设计。前瞻性设计纳入尚未被诊断的研究对象，有利于实施“盲法”，也有利于保证数据的准确性。回顾性设计收集历史资料开展研究，类似于回顾性的横断面研究，研究周期更短，成本更低，更有利于快速评估诊断试验。例如，一项BMI在沙特阿拉伯人群中肥胖的诊断准确性研究中，按照统一的纳入排除标准回顾性地收集了2005年1月至2016年3月来自多医疗中心的研究对象，将历史记录的BMI与体脂百分比（作为金标准）数据进行比较分析^［¹⁹^］。也有研究采用双向性设计纳入研究对象，即前瞻性和回顾性设计的组合^［¹³^，^20-21^］。这里的前瞻性、回顾性、双向性设计仅指研究对象纳入或资料收集的方式。

第四，单组设计具有横断面研究的时间框架，容易实现“同步”评价，即在相同时间或恰当的时间间隔对同一患者进行待评价诊断试验和金标准的检查。

②缺点：

第一，由于单组设计需要足够的研究对象同时接受2种诊断，当待评价诊断试验或金标准具有侵入性或价格昂贵时，研究对象的招募难度增加，研究可行性受限，也容易引发伦理问题。

第二，如果待评价诊断试验和金标准的诊断结果之间相互产生影响，那么单组设计的“同步”要求反而会增加偏倚的风险。

第三，单组设计中回顾性或双向性设计高度依赖历史数据的准确性，有时数据的完整性和同质性不能得到保证。

③适用条件：

是单个诊断试验准确性研究经典、常用的设计类型，适用范围较广。在诊断试验进行初步探索、验证是否可以进行鉴别诊断或推向临床应用阶段均适用。但在待评价诊断试验与金标准诊断之间相互影响时不推荐使用。

（2）诊断性病例对照研究设计：

部分诊断试验准确性研究采用了类似病例对照研究的设计，为区别于经典的病例对照研究，有研究将其称为诊断性病例对照研究^［¹⁶^］。这种设计针对2组人群，分别设立不同的纳入排除标准，其中一组为可疑患病人群或确诊人群，另外一组为非患者和/或健康人群，确定研究对象后，用诊断试验进行检测，并判定与患病结果的一致性。见图1。

①优点：

第一，诊断性病例对照研究常用于诊断试验准确性的初期探索性研究，可以方便、快速地确定病例组和对照组，提高研究效率。

第二，如果目标疾病是少见或罕见病，或明确诊断需要较长的周期，诊断性病例对照研究可利用以前积累的患者群作为病例组，也可以显著提高研究效率，尤其是在罕见病的诊断性研究中具有独特的优势。

②缺点：

第一，纳入研究对象时无法实现“单门原则”，研究者的纳入采用“双门设计”，即采取不同的纳入排除标准分别针对患者和非患者进行抽样，存在较大的选择性偏倚和疾病谱偏倚风险^［²²^］。例如，在一项宽带鼓室图作为梅尼埃病诊断工具的病例对照研究中，研究者从诊断为梅尼埃病的患者中，选取52名作为患病组，又从无耳科疾病史的听力正常成年人中选取99名作为对照组。分别使用宽带鼓室图（诊断试验）和金标准方法进行听力测定，并比较分析^［²³^］。这种设计不太符合临床的实际应用情况，临床实践中需要进行诊断的可能是与梅尼埃病类似的听力障碍患者。

第二，病例对照设计纳入的研究对象很难做到连续性，若纳入病情严重、易于诊断的病例较多，会高估准确性。只有病例组和对照组的疾病谱类似于诊断试验推广应用的目标人群时，才能有效估计敏感度和特异度，但这在病例对照设计的实际研究中很难实现，导致该设计容易错误估计诊断试验的准确性^［¹⁵^］。

第三，由于在纳入研究对象时已经进行明确的分组设计，病例已经被诊断，所以很容易对后续诊断试验结果的判读产生影响，不容易贯彻“盲法”的原则。

第四，一般不能使用病例对照设计所得的数据直接计算预测值和相关指标，因为预测值与患病率直接相关，该类研究设计很难确定研究对象的患病率^［²⁴^］。

③适用条件：

常用于诊断试验的初期探索性研究中，例如新的诊断标志物的筛选等，因为初期主要是探究诊断试验对患者的诊断结果是否与非患者和/或健康人群不同，检验该诊断试验是否值得进一步研究。

2. 诊断试验准确性比较研究：

在临床决策中，往往需要判断1种诊断试验是否比其他诊断方法表现更好，针对这一问题研究，需要开展诊断试验准确性比较研究，涉及≥2种诊断性试验，分别与金标准进行比较，以确定哪种诊断试验的准确性更高。研究设计类型包括单组配对设计和平行组设计。

（1）单组配对设计：

①完全配对设计：

纳入具有代表性的一组研究对象，均接受全部待评价的诊断试验和金标准诊断。见图2。例如，在一项比较MR-proANP和NT-proBNP诊断心衰能力的研究中，研究者首先前瞻性、连续性招募了287名因不明原因呼吸困难为主诉而就诊于某医院急诊室的患者，研究对象均接受了待评价的试验（血清MR-proANP和NT-proBNP检测）和金标准诊断，属于典型的完全配对设计^［²⁵^］。

ⓐ优点：

第一，由于是单组设计，可避免组间患者特征分布不均衡导致的混杂偏倚，且节约了样本量，具有更高的检验效能。

第二，单组配对设计不仅可以对比2种待评价诊断试验的准确性，且可用于探究多种诊断试验联合使用的准确性。

ⓑ缺点：

第一，当一种待评价诊断试验的操作会影响另一种待评价试验的结果时，这种设计也会因此产生偏倚。专门用于诊断准确性比较研究证据质量评价标准的QUADAS-C指出，在理想情况下，如果某一待评价诊断试验可能影响后续待评价试验的效果，那么每名研究对象应只接受1种待评价试验以避免偏倚^［²⁶^］。

第二，在诊断试验具有侵入性或价格昂贵时，让研究对象接受≥2种试验的检测，也会引发伦理问题和经济问题。如果存在上述情况，采用完全配对设计可行性较差，在实际研究中通常会采用部分配对设计或平行组设计。

ⓒ适用条件：

是诊断试验准确性比较研究中较理想的设计方法，适用范围广泛。但在当待评价诊断试验结果相互影响时、具有侵入性或价格昂贵时，这种设计不太适用。

②部分配对设计：

如果仅有部分研究对象接受全部待评价试验，其余研究对象仅接受1种待评价诊断试验，称之为部分配对设计。见图2。

ⓐ优点：

第一，部分配对设计纳入的研究对象可能更加符合实际情况，临床上有些患者无法耐受≥2种诊断试验，不仅减少了出现伦理问题的风险，而且节省人力物力财力。

第二，进行回顾性收集资料进行研究时，无法对一部分研究对象的资料进行完全配对，可借部分配对设计尽可能增加样本量。

ⓑ缺点：

第一，部分配对设计如果把全部数据纳入分析，需要关注组间研究对象特征的可比性问题。且接受诊断试验的种数往往受病情的严重程度、患者的耐受程度等因素的影响，均会导致研究结果出现偏倚。例如：一项评价数字减影血管造影（DSA）与磁共振血管造影（MRA）对硬脊膜动静脉瘘诊断的准确性研究中，共纳入27名研究对象，其中14名接受了DSA和MRA待评价诊断试验，12名仅接受了DSA待评价诊断试验，1名仅接受了MRA待评价诊断试验，研究对象均接受了硬脊膜动静脉瘘手术，在比较2种待评价诊断试验准确性的研究中，分为DSA（26名）和MRA（15名）2组，手术诊断作为金标准，进行了非随机部分配对设计的诊断试验准确性比较研究；研究者在同时接受了2种待评价诊断试验的人群中采取完全配对设计进行比较分析，但该研究的样本量较小，所得出的试验结果需要进一步的研究设计来确证^［²⁷^］。如果想提高部分配对设计组间的可比性，理想的状况是，随机抽取（或随机分配）一部分研究对象接受所有的待评价诊断试验检测，但这在实际应用中有一定难度，类似的研究也极少^［¹²^］。

第二，部分配对设计如果只分析完全配对的数据，会导致样本量减少，研究对象的代表性可能会下降。

ⓒ适用条件：

待评价诊断试验价格昂贵，所有研究对象接受≥2种诊断试验的检查不太经济时；待评价诊断试验具有一定侵入性，部分研究对象无法耐受全部检查时；收集的待评价诊断试验资料是历史性的，无法完全配对时。

（2）平行组设计：

如果研究对象不能同时接受≥2种诊断试验检测，就需要用平行组设计开展研究。平行组设计一般将研究对象分为≥2组，每组分别进行不同的诊断试验检测，研究对象均接受金标准诊断，结果分析可以比较不同诊断试验之间诊断效能是否有差异。使用平行组设计时，如何分配研究对象也是设计的重点，根据是否随机分组，可分为随机平行组设计和非随机平行组设计。

①随机平行组设计：

为保证组间基线均衡可比，理想的方法是采用随机平行组设计，类似于随机对照临床试验设计。以2个平行组为例，即将纳入的研究对象随机分为2组，分别接受不同的待评价诊断试验并同时接受金标准诊断。见图3。例如，在一项内镜超声引导下细针穿刺活检（EUS-FNB）联合或不联合快速现场评估技术（ROSE）诊断胰腺实性病变的随机对照非劣效性试验中，研究对象被随机分配至联合ROSE的EUS-FNB和不联合ROSE的EUS-FNB组，与金标准进行比较，分别计算2组的灵敏度、特异度和预测值，并对准确性进行比较，结果发现2组患者的诊断准确率差异无统计学意义^［²⁸^］。

ⓐ优点：

随机平行组设计在诊断性研究中，能够提供较高的证据水平，可以比较新的诊断试验和金标准的性能，也可以比较不同待评价诊断试验之间的准确性，对结果的解释和推广具有较强的科学依据。相比其他研究设计，随机平行组设计可以控制潜在的混杂因素，保证组间可比性，降低误差和偏倚的影响。

ⓑ缺点：

与单组配对设计相比，随机平行组设计需要的样本量较大，而且无法探究≥2种诊断试验联合诊断的准确性。

ⓒ适用条件：

出于经济或侵入性的考虑，研究对象不能同时接受≥2种待评价诊断试验，但可以在研究对象内随机分配接受诊断试验的情况适用。

②非随机平行组设计：

如果研究对象无法做到随机分组，也可以采用非随机平行组设计。见图3。例如，在一项关于磁共振成像诊断肩关节上盂唇前-后向撕裂的准确性的研究中，采用非随机平行组设计的方法，研究对象均接受金标准关节镜的检查，其中234名接受单纯磁共振成像检查，另外210名接受磁共振肩关节造影术检查，比较分析每种待评价试验和金标准检查结果。但该研究存在明显的局限性，在数据分析阶段，研究者并未设法解决组间的混杂因素^［²⁹^］。

ⓐ优点：

更容易被研究者和研究对象接受，规避伦理问题。

ⓑ缺点：

非随机平行组设计与其他设计相比，组间的可比性不容易保证，不可控的混杂因素可能会干扰研究结果，应着力于在研究设计和数据分析阶段控制混杂因素问题^［^30-31^］。

ⓒ适用条件：

该类设计多应用于对历史资料进行诊断试验准确性比较设计时，或部分患者明确无法耐受其中1种待评价诊断试验。

二、

不同设计类型的选择

了解诊断试验准确性研究不同的设计类型后，临床研究者经常面临的问题是选用哪种合适的方法开展诊断试验准确性研究。一般来说，需要根据研究目的和以下因素综合考量：研究问题所处的阶段、诊断试验的临床应用场景、招募病例的难易程度和可用的资源等。

1.根据诊断试验准确性研究的不同阶段选择不同的研究设计类型：

一项新的诊断试验从研发到临床应用，往往需要经历不同的阶段。不同阶段解决的问题和目标不同，可以提供不同级别的诊断证据，对应的研究设计方法也有区别。目前诊断试验准确性研究划分为3个阶段^［³²^］：

（1）探索阶段：

所解决的问题是诊断试验对患者的诊断结果是否与健康人群不同。这个阶段主要是对新诊断试验的诊断能力进行初步估计，需要快速开展，为下一步研究提供线索。纳入研究对象通常为诊断明确的典型患者和非患者，通常可纳入健康人群作为对照。可采用诊断性病例对照研究设计或单组设计。

（2）验证阶段：

所解决的问题是诊断试验能否做到鉴别诊断。主要针对的是临床的疑似患病者，诊断试验能否区分真正的患者和非患者。可将诊断试验应用于难以鉴别诊断的患者与非患者的各亚组，对诊断试验的准确度进行验证。这一阶段纳入的研究对象为诊断明确的患者和非患者，患者可纳入各种病理类型、分期和合并症的，非患者可纳入需要鉴别诊断的。可采用诊断性病例对照研究设计或单组设计。

（3）确证阶段：

所解决的问题是诊断试验在实际临床应用时的诊断准确性。应考虑诊断试验的临床应用场景，纳入的研究对象要尽可能符合临床实际情况和推广的目标人群。该阶段的纳入标准必须基于有诊断意图的患者，最好贯彻“单门原则”，采用前瞻性、随机或连续抽样确定样本人群。本阶段还建议最好在多中心同时进行，最好有外部验证。如果是评价单个诊断试验建议采用单组设计。如果涉及到新的诊断试验和已有的诊断方法进行比较，可以采用完全配对设计或随机平行组设计。

2.根据诊断试验在临床诊断路径中的作用选择不同的研究设计类型：

研究一项新的诊断试验，临床医生最关心的问题可能是新的诊断试验是否可以弥补已有诊断手段的不足，多种诊断试验联合使用是否更有助于提高总体诊断准确性。回答这些问题需要对新的诊断在现有疾病诊断路径中的地位进行明确界定，这有助于研究者科学选择合适的研究设计类型，提高此类研究的效率。根据诊断试验在现有诊断路径中的作用，大致可分为替代、分诊和附加^［³³^］。见图4。

（1）替代：

旨在用新的诊断试验方法替代现有的诊断方法。新的诊断试验可能更准确、侵入性更小、更容易操作、风险更小、对患者造成的不舒适感更少、可以更快产生结果或更容易解释。例如，在检测脊髓损伤时，目前磁共振成像已基本取代脊髓造影（注射造影剂后行X线影像检查），因为其不仅提供了详细的图像，而且更简单安全，不需要暴露于辐射^［³⁴^］。对于未经确诊的肺部结节或肿块，细针穿刺活检和空芯针穿刺活检如何选择能获得更准确的结果，更小的副作用，这是值得比较研究的^［³⁵^］。

为了验证新的诊断试验是否可以取代现有的诊断，必须比较2种试验的诊断准确性，可以选择单组配对设计或随机平行组设计^［³⁶^］，由于完全配对研究设计可比性好且节约样本量，优先推荐单组完全配对设计。然而，如果新旧试验是侵入性的，或试验之间存在相互干扰的情况，无法在同一患者身上实施，应选择随机平行组设计。

（2）分诊：

在现有诊断试验或路径前，进行新的诊断试验，旨在筛选出一部分患者进入下一步诊断路径，从而起到分流作用。这种分诊检查未必比现有的方法更准确，但往往具有操作简单或成本低的优点，而侵入性检查或价格昂贵的检查不适用于分诊。分诊试验的目的不是提高当前诊断准确性，而是为了避免一些不必要的侵入性诊断，减少费用，提高工作效率。例如，关于肺栓塞的诊断，血浆D-二聚体检测可能是较好的分诊试验，结果阴性的患者大概率不需要计算机断层扫描血管造影，因为肺栓塞本身患病率较低，而且D-二聚体结果阴性的人群基本上可以排除肺栓塞^［³⁷^］。

对分诊试验进行评价研究时，通常针对的是分诊试验联合现有诊断试验的准确性，推荐采用单组配对设计。在完全配对设计中，所有患者接受分诊性试验、现有诊断试验和金标准，研究结果既可以比较分诊试验和现有诊断试验的准确性，也可以估算分诊后的诊断路径是否具有可以接受的准确性。另外，对分诊试验的评价根本上关注的是分诊试验的效率，且尽可能不出现漏诊，因此，更简单的设计是采用部分配对设计，仅对分诊试验阴性和分诊及现有诊断试验阳性的研究对象进行金标准验证，可以估算加入分诊后新诊断路径的漏诊率，以确保新诊断路径在经济有效的同时，敏感度不损失太多。

（3）附加：

即在现有诊断路径之后，附加某种新的检测，以进一步降低误诊率或漏诊率。一种情况是对现有诊断试验阳性人群进行附加诊断，以减少现有诊断中假阳性率，即降低误诊率，提高特异度。另一种情况是对现有诊断阴性人群进行附加诊断，这种附加性检查旨在提高诊断的准确性，但可能存在价格较昂贵或操作不够便捷等局限性，主要用于降低漏诊率，即增加现有诊断方法的敏感度，但这也存在增加误诊率，牺牲特异度的风险。例如，隐匿型冠心病的诊断，即使静息心电图正常，也需要额外进行运动后的心肌灌注成像检查，静息心电图虽然使用方便，但容易漏诊一些罕见的疾病，因此利用附加试验（心肌灌注成像）降低漏诊率^［³⁸^］。

研究附加试验时，通常针对的是现有诊断试验联合附加试验的准确性，可以采用完全配对设计和随机平行组设计。如果是降低漏诊率的附加诊断，旨在找到现有诊断试验无法发现的阳性人群，因此，相较完全配对设计和随机平行组设计，更有效的设计是仅针对现有诊断试验呈阴性，但附加试验呈阳性的患者进行金标准检测，验证其真实患病情况，进一步估计附加诊断试验后真阳性和假阳性者的数量变化，从而评估附加诊断后为现有诊断路径诊断准确性带来的变化。反之，如果是降低误诊率的附加诊断，可对现有诊断试验呈阳性但附加试验呈阴性的患者进行金标准检测，以评估附加诊断后是否能有效甄别现有误诊的人群。

总之，为了确定一种新的检测方法是否具有替代、分诊或附加诊断的作用，需要研究的不仅是对其敏感性和特异性等指标的简单估算，更需要了解新诊断试验的特点，如便利性、成本、可解释性等，应明确其临床应用场景，选择恰当的设计类型开展研究，确定新的诊断会如何改变现有诊断路径的准确性，这些变化决定了新诊断试验的临床价值。

3.罕见病研究设计类型的选择：

低患病率疾病为诊断试验准确性研究设计带来了新挑战^［^39-40^］，此时采用经典的研究设计（单组设计、完全配对设计或平行组设计）会使大量患者同时接受诊断试验和金标准诊断，费用较大，如果是侵入性的诊断或价格昂贵，还会引起伦理和经济问题，导致可行性较差，因此在设计方法的选择上要更加慎重。诊断性病例对照研究设计针对罕见病研究相对容易实施。但病例对照研究用于诊断试验正确性评价可能会引入诸多偏倚，应在设计时尽量避免这些偏倚。另外，有时也会根据实际情况对传统的设计方法进行改良和变通，从而衍生出新的设计类型，例如，诊断性的巢式病例对照设计、分层设计、两阶段设计等^［^41-45^］。

三、

对进行临床诊断试验准确性研究设计阶段的主要建议

目前关于临床诊断准确性研究的设计类型存在局限性，可能造成一些诊断试验最终研究结果的准确性被误判。根据目前存在的问题提出以下建议：

1.明确指出是诊断试验准确性研究，不要宽泛地称为诊断性试验：

因为准确性评价只是诊断研究的一个方面，有的诊断性研究可能是对可靠性或临床应用价值的评估，对设计类型和评价指标的要求完全不同。如果是诊断准确性比较研究，也应在题目和摘要中明确。在研究设计阶段相关概念混淆不清，使用不当可能导致最终设计类型选择不当，甚至难以计算准确性评估指标。

2.研究某项新的诊断试验的准确性时，明确研究的目的和研究的阶段：

如果对目的和研究阶段模糊，会导致研究方案的设计不恰当，进而影响研究对象纳入排除标准的确定，可能引起选择偏倚或疾病谱偏倚。探索阶段可以纳入健康人群作为研究对象，也可以采用诊断性的病例对照研究设计。但在确证阶段，研究对象要考虑实际的临床应用人群，疾病谱要尽可能接近推广应用的人群，最好采用单组设计，贯彻“单门原则”，研究对象最好是前瞻性、连续纳入。如果研究设计未与研究分期对应，例如在验证阶段仍旧采用病例对照研究设计类型，将会高估诊断试验的效能。

3.明确诊断试验的临床意义，深入考虑其当前的临床应用场景：

因为诊断试验的准确性会受到其在诊断路径中地位的影响，故应充分了解新诊断试验的特性，以及其与现行诊断试验之间的关系。替代、分诊和附加诊断试验在临床诊断路径中的作用和地位完全不同，对其敏感度和特异度的要求也不相同。因此，不考虑临床应用场景，会影响研究者对研究设计类型和评价指标选择，可能导致对结果临床解读的误判。此外，随着医学的不断发展或环境发生变化时，诊断试验的作用可能会发生变化，研究者应根据实际情况调整研究设计。

4.明确研究的设计类型，规范使用研究设计类型的名称：

目前对诊断试验准确性研究的设计类型，尚缺乏公认的命名。诊断准确性研究报告标准指导委员会制定了STARD声明。在2015年的STARD声明中，关于研究设计类型的报告规范要求较简单，仅要求说明数据收集是前瞻性的还是回顾性的^［⁴⁶^］。其实，根据数据收集或研究对象的纳入方式，诊断准确性试验可以分为前瞻性、回顾性和双向性设计。

现有研究将诊断准确性比较研究分为2类：单组配对设计（包括完全配对设计和部分配对设计）和平行组设计（随机平行组设计和非随机平行组设计）^［¹²^，⁴⁷^］。既往研究针对单个诊断试验准确性研究，研究设计要求与金标准进行“同步、盲法”检测比较，更接近于描述性的、横断面研究的特点^［¹³^，¹⁵^］，但其与流行病学的横断面研究也不尽相同，更不同于以病因推断为主要目的的病例对照研究和队列研究。有些研究中将其称为横断面研究和病例对照研究，这是不妥的；有些研究使用诊断性队列研究来命名设计类型^［^48-49^］，但根据具体方法，可以明确研究的队列实际上是病例研究对象的纳入过程，并未对研究对象进行随访，也并不符合传统流行病学对于队列研究的定义。建议将单个诊断试验的研究设计类型称为单组设计或诊断性病例对照研究较合适，以区别传统流行病学研究类型。在专门用于诊断准确性比较研究证据质量评价标准的QUADAS-C工具中，对研究设计的评价指出完全配对设计和随机平行组设计是较科学的设计类型^［²⁶^，⁵⁰^］，建议在研究设计阶段尽量使用这2种设计方法。

综上，本文阐述了诊断试验准确性研究的设计类型及其选择原则，并根据当前设计中存在的问题提出建议，有助于临床研究者根据研究目的、研究阶段和可用的资源选择最合适的设计类型，提高诊断准确性研究的质量。值得提出的是，诊断准确性研究只是决定某项诊断措施是否有用的一个环节，在推广应用到临床之前，还应评价诊断试验的可重复性、可行性和成本，以及是否影响了临床决策、改善了临床结局。并非准确性高的诊断试验一定有很高的临床应用价值，对于并不能提高患者重要结局的诊断试验，即使准确性很高，其临床应用价值也会降低。作为诊断准确性研究评价的敏感度、特异度等一系列指标，可能是与患者重要结局相关的中间指标，并非代表患者的终点指标。但评价一项诊断试验对临床结局的影响是有难度的，通常较易开展的研究是比较一项诊断试验和现行诊断方法的可靠性、准确性、成本或风险，进而间接推断其对临床结局的潜在影响。因此，目前真正涉及诊断试验对临床结局（例如延长生存期或改善生活质量）影响的研究并不多，而这方面研究将为避免真正的“过度诊断”提供关键的循证依据。诊断性的随机对照试验是开展这类研究的理想设计类型，这也将是未来循证诊断领域的重要研究内容。

上一条：创伤弧菌感染诊治、预防专家共识

下一条：关于新发传染病预警策略的理论推演