CJI (Traditional Chinese Medicine)
基于纵向研究数据的非线性混合效应模型在中医证候演变规律研究中的应用
1,2,3,关建新1,2,3,闫丽祯1,2,3,倪园园1,2,3,王至婉2,3,4
伊明洋
1.河南中医药大学,河南 郑州 450046;
2.河南中医药大学呼吸疾病中医药防治省部共建协同创新中心,河南 郑州 450046;
3.河南省中医药防治呼吸病重点实验室,河南 郑州 450046;
4.河南中医药大学第一附属医院,河南 郑州 450000摘要:近年来,中医证候演变规律研究领域蓬勃发展,纵向研究作为前瞻性研究的一种,具有完整性、科学性等特点,可动态捕捉证候变化全过程。纵向研究所采集数据具有时间序列性、复杂多态性、相关性和非线性,如何处理和分析纵向研究中采集的大量临床数据是该领域难点。非线性混合效应模型既可处理非线性重复测量数据,又允许随机效应与固定效应进入模型非线性部分,可较好拟合证候随时间变化趋势,且能将影响证候演变的诸多因素作为协变量加入模型,观察对证候变化的影响。本文将纵向研究数据特点与非线性混合效应模型的优势相结合,通过实例分析,探讨该方法应用于证候演变规律研究的可行性,以期为后续研究提供方法学思路。
关键词:非线性混合效应模型;证候演变规律;纵向研究;应用
中图分类号:R2-03;R241 文献标识码:A 文章编号:1005-5304(2023)10-0017-05 DOI:10.19879/j.cnki.1005-5304.202211227 开放科学(资源服务)标识码(OSID): Application of Nonlinear Mixed Effect Model Based on Longitudinal Study Data in the Study on TCM Syndrome Evolution Law
YI Mingyang1,2,3, GUAN Jianxin1,2,3, YAN Lizhen1,2,3, NI Yuanyuan1,2,3, WANG Zhiwan2,3,4
1. Henan University of Chinese Medicine, Zhengzhou 450046, China; 2. Co-construction Collaborative Innovation Center for Chinese Medicine and Respiratory Diseases by Henan & Education Ministry of China, Zhengzhou 450046, China; 3. Henan Province Key Laboratory of TCM for Prevention and Treatment of Respiratory Diseases, Zhengzhou 450046, China; 4. The First Affiliated Hospital of
Henan University of Chinese Medicine, Zhengzhou 450000, China
Abstract: In recent years, the research field of TCM syndrome evolution law has been booming. Longitudinal study, as a kind of prospective study, has the characteristics of completeness and scientific nature, and can dynamically capture the whole process of syndrome change. The data collected in longitudinal studies are characterized by time series, complex polymorphism, correlation and nonlinearity. How to deal with and analyze the large amount of clinical data collected in longitudinal studies is a difficulty in this field. The nonlinear mixed effects model can not only deal with nonlinear repeated measurement data, but also allow random effects and fixed effects to enter the nonlinear part of the model, which can better fit the changing trend of syndromes over time. Moreover, many factors that affect the evolution of syndromes can be added into the model as covariates to observe their influence on the changes of syndromes. This article combined the characteristics of longitudinal study data with the advantages of nonlinear mixed effects model, and explored the feasibility of applying this method to the study of syndrome基金项目:国家重点研发计划(2017YFC1700103);国家自然科学基金面上项目(81973791)通讯作者:王至婉,E-mail:zhiwan_w@163.com
证候是中医理论体系的核心内容,证候演变规律研究是中医证候研究的重要组成部分[1],病证结合深入研究证候演变规律对构建新的辨证论治体系并提高辨证论治水平具有重要意义[2]。纵向研究作为临床试验研
究设计方法之一,具有较强的时间序列性及因果逻辑关系,被广泛应用于证候演变规律研究领域。然而个体化试验设计下产生的大量非线性重复测量数据往往无法得到合理有效的处理[3],基于此,本文提出使用非线性混合效应模型处理证候演变规律纵向研究数据,以期为解决该领域方法学难题提供思路。
1 证候演变规律纵向研究数据特征
1.1 纵向研究特征及优势
纵向研究是一种前瞻性研究,因在前、果在后,易得出基于逻辑的因果判断,在证候演变规律研究中选择疾病发展过程中的关键时点作为观察节点,采用多时点重复测量或队列研究等方式对证候变化进行纵向研究,可描述事物的连续性变化过程,研究结果更具可靠性和科学性,是证候演变规律研究的最佳方法[4]。其优势在于:①可反映样本个体间的差异,观察影响不同个体间差异的因素,如地域、年龄、职业等。②可系统观察人从未发病到发病及好转乃至痊愈的全过程,更加贴近疾病发生发展的真实过程,研究结果可靠性更强。③较横断面研究,纵向研究更有效能,即若达到相同的统计效能,纵向研究所需的样本量往往少于横断面研究,究其原因是纵向研究中同一受试者的不同重复测量值并不完全相关[5]。④在纵向研究中,每个受试者都能与自身对照,一般来说,内部变异要小于个体间的变异,所得到的研究结果会更加敏感[6]。张明雪等[7]通过纵向研究分析冠心病合并高血压患者4个阶段证候变化,0~1期向肝肾阴虚、气火失调证转变,1~2期逐渐转变为痰热扰心、络虚阳升证, 2~3期发展为土虚木亢证及肝阳化风证。李伟珂等[8]将慢性阻塞性肺疾病分为急性加重期、危险窗期和稳定期,纵向研究证候要素演变规律发现,从急性加重期到稳定期总体呈现由实到虚的趋势,痰热逐渐演变为痰湿直至完全消失,气虚贯穿疾病始终,在发展过程中逐渐变为气阴两虚,兼有血瘀。
1.2 纵向研究数据特点
证候演变规律研究中所采集的纵向数据有以下特点:①时间序列性。主要研究随时间变化证候的演变情况,因此临床所采集数据会随时间的推移发生变化。②时间间隔的不平衡性。在临床研究中,各个指标采集时间可能不尽相同,每个指标采集的间隔时间也会不同。③相关性。在同一观测时点观测指标内部存在相关性,不同观测时点获得的观测指标间也存在相关关系。④复杂多态性。临床所采集数据既有分类数据也有连续数据,反应变量类型既有连续型也有离散型。⑤非线性。基于证候本身的复杂性,临床采集数据重要特点即自变量与反应变量呈非线性变化趋势。⑥数据缺失性。纵向研究是基于长时间随访调查的研究方法,在长期随访过程中无法避免数据的缺失。⑦非正态性。纵向研究数据变化的影响因素较多、变量复杂多样,数据难以形成严格意义的正态分布[9]。
1.3 纵向研究数据常用分析方法
目前在证候演变规律研究领域,针对纵向研究的数据处理方法主要有频率分析、转移概率矩阵和非线性混合效应模型等。
1.3.1 频率分析
频率分析是观察某种证型在某个时点或阶段所占比例,通过数量值的变化阐释证候在不同时间的变化规律。郭思佳等[10]使用频率分析方法观察特发性肺纤维化不同临床分期的证素演变规律,发现气虚贯穿疾病全过程,其中临床1期和2期以实证为主,主要证素为痰浊和血瘀,随着疾病进展,痰浊变化不明显,而血瘀、阴虚等逐渐加重,总体呈现由实转虚的趋势。频率分析法操作简单,对数据类型要求不高,在临床研究中应用广泛。但仅使用频率分析法无法深入挖掘临床数据蕴含的丰富信息,较为单一和片面,因此多将频率分析法与转移概率矩阵和非线性混合效应模型等数据挖掘技术结合使用。
1.3.2 转移概率矩阵
转移概率矩阵在20世纪初由俄国数学家马尔可夫提出,用于研究在同一系统中一个因素向另一个因素
n-1转移的概率,在转移中第n次结果只受第 次结果的影响,具有无后效性[11]。在证候演变规律研究中多用于研究证型由当前时点向下一时点转变的概率,可清晰描述各证候随时间变化关系。傅凯丽等[12]使用转移概率矩阵研究发现,后循环梗死患者初期以风痰瘀阻证候为主,在疾病发展中期逐步转变为气虚血瘀、痰浊内阻等证,后期以气血亏虚、肾精不足为主,即初期以实证为主,中期表现为虚实夹杂,后期多虚证。使用该方法需同时满足齐次马尔可夫性假设和观测独
立性假设,同时该方法无法研究症状与证候间的映射关系,在无公认的证候诊断标准前提下,大多数研究中的证候由研究者根据既往诊断标准判定,具有一定主观性,导致证候演变规律研究结果也具有一定偏倚。
1.3.3 非线性混合效应模型
非线性混合效应模型于1977年由Sheiner等[13]提出,是线性混合效应模型到非线性模型的推广。非线性混合效应模型可同时适用于连续型和离散型变量,其变量无须满足正态分布,主要用于处理定量非线性资料,分析非线性增长趋势差异,可很好地解决研究中出现缺失值和不平衡数据等问题[9]。目前该研究方法在证候演变规律研究领域尚未得到推广,主要应用于药代动力学、林业、保险金融业等。
靳晓娟[14]使用非线性混合效应模型研究不同树龄的人工长白落叶松枝条生长属性的分布规律,以树龄和单木为两水平构建非线性混合效应模型,可对枝条基径、长度等进行合理预测,更符合树木的生理生长特性。李春明[15]使用非线性混合效应模型处理具有时间序列相关性的纵向数据具有较高的估计精度,且能够较好地表现连续观测数据间的误差分布。叶楠等[16]对患者使用不同剂量的肾康注射液进行疗效评价,并使用非线性混合效应模型的拟合功能,进行上市后市场监测。王明高等[17]使用非线性混合效应模型处理保险行业中非寿险损失预测和费率厘定问题,解决该行业实际操作中保险损失数据的问题,对该行业的发展具有重要意义。不论是树木生长、药物的疗效评价及保险的损失预测及费率问题,在研究过程中所采集到的数据均为重复测量数据且具有时间的连续性,这与证候演变纵向研究中获得的数据特性相同,目前该方法虽未在证候演变规律研究领域推广使用,但在其他领域内应用较为成熟,具有稳定性,可进一步应用于中医证候研究领域。
非线性混合效应模型在医学领域中的应用主要集中于药代动力学及其他非线性生长曲线研究。在药代动力学研究中,药物在个体体内吸收、分布及排泄的过程中采集到的血药浓度数据与证候演变规律纵向研究中获得的重复测量数据特征相似,都表现为非线性特征。如凌静等[18]使用非线性混合效应模型研究他克莫司在成人肾病综合征中的群体药代学特征,建模中采用可体现个体间变异和残差变异的一级速率条件算法,同时将患者体质、年龄及药物剂量等作为协变量观察是否对个体血药浓度产生影响。田婷婷等[19]应用非线性混合效应模型构建替考拉宁在老年患者中的群体药动学模型,研究结果显示该模型拟合优度好,具有良好的稳定性及预测性。陶玉瑛[20]基于文献研究结果及医院癫痫儿童服用托吡酯后体内血药浓度变化数据构建非线性混合效应模型并对其进行验证发现,该模型具有稳定的预测性能,可根据预测结果制定临床个体化给药方案。阙烨等[21]基于艾滋病的纵向研究数
据构建部分非线性混合效应模型,将log10RNA作为响应变量,CD4细胞数作为协变量,观察不同时间采集的CD4细胞数对log10RNA的影响。以上研究结果均表明非线性混合效应模型在医疗领域具有广泛的应用前景,结合中医证候演变规律研究领域,可解决目前非线性重复测量数据处理难题,可更好地模拟证候信息随时间变化过程,同时也可通过设置协变量了解影响证候演变相关因素。
2 非线性混合效应模型方法学概述
2.1 模型构建
非线性混合效应模型在使用过程中为适应不同需求,可转化为相应的表达式,其基本表达式为: y = f(x , )+e ij ij ij ij = A + B b ij ij ij i
eij ~ N(0, 2)
式中,i表示研究对象个数,j表示重复观察次数, yij是第i个观测对象第j次重复测量的因变量值,xij表示自变量值,eij表示第i个研究对象第j次观察的随机误差
(•)
值,f 为非线性函数关系,ϕij表示该函数关系中的参数向量。β和bi分别为固定效应和随机效应参数,Aij、
为设计矩阵[22]。
Bij
Pinheiro等[23]依据产生随机效应因子的个数将模型区分为单水平和嵌套多水平2种不同类型。证候演变规律研究中产生随机效应的因素较多,因此建议选择嵌套多水平模型,具体模型的构建应根据所收集临床资料要求建立。
2.2 参数估计
该模型的参数估计方法主要有广义最小二乘估计法、一阶线性化算法、条件一阶线性化算法、高斯埃尔米特求积法等[24]。这些算法各有利弊,其中广义
最小二乘估计法精度低,高斯-埃尔米特求积法计算精度高但运算量大且速度较慢,一阶线性化算法和条件一阶线性化算法计算方法简单且精度高,在实际应用中被广泛使用[25]。目前,符利勇等[26]在条件一阶线性
化算法的基础上提出一种改进的随机效应参数计算方法,并利用树高数据模拟分析,发现这种改进的算法可获得更好的拟合效果并可更好地反映个体间的差异,
此算法可在SAS软件中实现。
2.3 初始值选择
非线性混合效应模型是否能够成功运行很大程度上取决于初始值的选择,尤其当拟合模型较为复杂时,随意选择初始值会造成迭代不收敛或得到的参数估计仅为局部最优解而非全局最优解,易影响参数估计的有效性[27]。该模型在开始迭代时,必须赋予所有参数初始值,初期可选择较为简单的模型,使用简单模型的运算结果作为初始值,再通过数值积分或附加高斯积分求出最大似然的直接估计[27]。
3 实例分析
如何使用非线性混合效应模型解决证候演变规律研究中的实际问题是众多研究者较关心的问题,以下通过具体的研究范例分析该方法在实际研究中的应用。
王丽颖[28]使用非线性混合效应模型等多种数据分析方法研究不同药物干预下冠心病心绞痛血瘀证的动态演变规律,探索随时间变化药物对证候演变过程的影响,明确证候改变的拐点,进一步评价中医证候临床疗效。该研究首先使用2种药物开展随机、双盲多中心临床试验,以证候积分量表作为证候评价工具;同时使用潜在类别模型对血瘀证进行药效学解构,寻找证候的“内实”(最能表现某病机的关键内容,即群体在某一病变过程中的共性规律,是选择干预措施的主要依据)及潜在类别;最后使用非线性混合效应模型结合向量相似度分析法探索证候整体及证候“内实”的演变规律,以此作为证候疗效评价的切入点。该研究以每位入组患者为不同的个体,以最能反映该证候的主要症状胸痛、胸闷、心悸、唇色紫黯、舌质紫黯和脉细涩作为组成观察向量(EO),以这些症状的最大积分值作为对照向量(EMAX),计算得到每位患者在不同时间的向量相似度值。将相似度值设为因变量,时间设为自变量(TIME),构建疗效(EFF)随时间变化的非线性混合效应模型:
EFF=EO-EMAX ∗ ∗∗ ∗∗
(TIME GAMM)/(ET50 GAMM+TIME∗∗GAMM)
式中GAMM为时间指数,ET50为药效下降1/2的时间。据用药前的证候相似度值及相关文献支持选择相似度值0.8作为临界点,代入非线性混合效应模型中计算得出2组证候转变时间分别为7.28周和10.72周,说明2种药物对缓解冠心病血瘀证均有效,根据方程拟合结果,A药疗效略优于B药。同时将心绞痛积分、年龄、试验中心和组别等作为协变量加入模型发现,心绞痛积分、试验中心对2组证候变化均有影响。该研究使用非线性混合效应模型研究血瘀证演变规律,既可发现证候转变的具体时间,又能进一步探究影响证候演变的相关因素,表明该模型在证候演变规律研究中具有可行性,后续研究可进一步推广使用。
4 讨论
近年来,随着证候演变规律研究的不断深入,对数据处理的要求不断提高。基于此,将非线性混合效应模型应用于该研究领域,其优势主要有以下2个方面:①证候本身是一个巨大的复杂非线性系统,其各个子系统不能呈现规律性成比例的线性运动[29]。传统的计算方法多要求数据呈现线性规律,然而多时点采集的中医四诊信息难以满足该要求。如针对慢性阻塞性肺疾病患者,不同时点的咳嗽积分难以呈现严格的线性规律,同时针对证候本身而言,在疾病的不同阶段也难以形成单一的线性变化。因此,针对研究数据的非线性特征,非线性混合效应模型可很好地拟合不同时间点的信息资料,满足其非线性要求,更加科学准确地发掘证候动态演变规律。②证候演变规律研究基于复杂的中医四诊信息,多时点的重复测量资料既有单个反应变量重复测量值间的相关性,也有多个反应变量间的相关性。以慢性阻塞性肺疾病为例,急性加重期第1日咳嗽与咳痰积分间具有相关性,第7日的咳嗽积分与第1日也具有相关性,且由于具有不同的相关性,会产生个体间及个体内的随机误差。针对以上情况,非线性混合效应模型既可识别个体间差异也可兼顾个体内差异,同时能计算不同层次的误差估计值。该模型允许固定效应和随机效应同时进入非线性部分,通过计算得到固定和随机效应的估计值及单个反应变量多次重复测量的相关系数和多个反应变量间的相关系数,使数据间的相关性更加细化[23]。
除上述优点外,非线性混合效应模型在证候演变规律研究中的应用还有以下方面值得关注:①临床研究不可避免出现数据缺失,且无法保证各观测时间点间隔完全均衡。非线性混合效应模型不要求每个个体测量时间相同,同时允许缺失值的出现,也不要求测量间隔时间完全相等,可同时估算个体曲线和全部样本曲线的平均值[20]。②证候演变过程极为复杂,易受生存环境、体质、性别、心情等诸多因素的影响。非线性混合效应模型在计算过程中可加入解释变量,如地域、年龄、疾病阶段、轻重程度等,分析这些因素对证候演变过程的影响。③使用非线性混合效应模型可定量把握证候演变的转折点,为临床辨证论治提供较为客观依据。
非线性混合效应模型在证候演变规律研究领域尚处于探索阶段,基于数理统计方面的复杂性,该模型
在具体应用中仍存在亟待解决的问题:①方程模型的构建。在进行模型拟合前可先根据原始数据做出散点图,再依据相关专业知识、研究经验及实测点的分布情况构建符合数据要求的方程模型[30]。②初始值的选择。可参考的解决方法是,同时选择几个初始值代入运算,观察得到结果是否一致,若不一致,则通过选取运算所得图形中的点,计算各参数的近似值,再反向作为初始值带入模型计算拟合,观察该初始值是否为最优初始值[23]。③收敛性评价和模型拟合优度。模型的构建及初始值的选择是否满足收敛条件和模型的拟合优度对非线性分析过程至关重要。
将非线性混合效应模型应用于证候演变规律纵向研究数据处理有利于实现对证候动态变化时间的把握,也可明确影响证候演变的相关因素,对指导临床辨证论治具有重要意义。但该模型的构建较为复杂,在实际应用过程中存在较多方法学难题。在实际应用中除解决上述困难外,还应注重证候诊断标准及术语的规范,可通过建立电子病历解决数据完整性等问题,为后续研究提供坚实基础[31]。
参考文献:
[1] 王至婉,李建生,余学庆,等.COPD急性加重期基础证及特征的临床调
查研究[J].北京中医药大学学报,2010,33(10):703-708.
[2] 崔雨婷,江丽杰,许伟明.中医证候演变规律研究述评[J].中华中医药
杂志,2022,37(3):1245-1250.
[3] 何伟.现代中医证候研究重点领域探析[J].中国中医药信息杂志,
2015,27(7):14-16.
[4] 李四维,刘洋,徐浩.中医证候演变规律研究方法的现状与展望[J].中
国中西医结合杂志,2011,31(6):854-857.
[5] 姚利香.关于纵向数据分析模型在临床统计中的应用研究[D].上海:
华东师范大学,2012.
[6] 孙延辉.临床医学纵向数据的分析方法研究[D].北京:北京工业大学,2016. [7] 张明雪,李京,李涵,等.冠心病合并高血压的中医证候演变规律研究[J].
中医杂志,2016,57(11):953-956.
[8] 李伟珂,王至婉.基于复杂网络方法的慢性阻塞性肺疾病不同分期证候要素演变规律临床调查[J].中国实验方剂学杂志,2022,28(22): 143-148.
[9] 汤宁,宋秋月,易东,等.医学纵向数据建模方法及其统计分析策略[J].
中国卫生统计,2019,36(3):441-444,447.
[10] 郭思佳,封继宏,宋雅琳,等.特发性肺纤维化不同分期中医证素演变
规律初步研究[J].世界中西医结合杂志,2018,13(6):809-812,865. [11] 宫建平.利用转移矩阵方法求解一维散射问题[J].大学物理,2012,
31(7):5-8,33.
[12] 傅凯丽,霍磊.后循环梗死中医证候演变规律研究[J].湖南中医杂志,2021,37(7):110-113,121.
[13] Sheiner L B, Rosenberg B, Marathe V V. Estimation of population characteristics of pharmacokinetic parameters from routine clinical data[J]. J Pharmacokinet Biopharm,1977,5(5): 445-479.
[14] 靳晓娟.长白落叶松枝条属性因子分布规律及模型构建[D].北京:北
京林业大学,2021.
[15] 李春明.基于纵向数据非线性混合模型的杉木林优势木平均高研究[J].
林业科学研究,2011,24(1):68-73.
[16] 叶楠,王永吉,王陵,等.肾康注射液治疗慢性肾功能衰竭疗效评价的
混合效应模型[J].中国新药杂志,2013,22(20):2410-2413.
[17] 王明高,孟生旺.贝叶斯非线性混合效应模型及其应用研究[J].统计
与信息论坛,2016,31(12):10-16.
[18] 凌静,蒋艳,邹素兰,等.肾病综合征患者他克莫司的群体药动学研
究[J].中国现代应用药学,2020,37(24):3019-3024.
[19] 田婷婷,付文倩,周宇,等.老年患者替考拉宁群体药动学模型的建立
及临床应用[J].中国药学杂志,2022,57(2):132-138.
[20] 陶玉瑛.基于群体药代动力学的癫痫儿童托吡酯给药方案研究[D].
沈阳:中国医科大学,2021.
[21] 阙烨,吴正飞,马铮.部分非线性混合效应模型在纵向数据下的估
计[J].淮南师范学院学报,2019,21(2):132-137.
[22] 符利勇,唐守正.非线性混合效应模型统一标准形式及应用[J].中国
科学:数学,2020,50(1):15-30.
[23] Pinheiro J C, Bates D M. Mixed-effects models in S and
S-plus[M]. New York: Spring-Verlag,2000.
[24] 王怀璐.非线性混合效应模型的重复测量的计算方法与应用[D].
锦州:辽宁工业大学,2014.
[25] Laird N M, Ware J H. Random-effects models for
longitudinal data[J]. Biometrics,1982,38(4):963-974.
[26] 符利勇,张会儒,李春明,等.非线性混合效应模型参数估计方法分
析[J].林业科学,2013,49(1):114-119.
[27] 罗天娥.非正态及非线性重复测量资料分析模型及其医学应用[D].
太原:山西医科大学,2007.
[28] 王丽颖.冠心病心绞痛血瘀证的药效学解构与动态演变的多维度诠
释[D].北京:中国中医科学院,2011.
[29] 王连心.中医药治疗糖尿病肾病临床疗效评价的信息处理研究[D].
北京:北京中医药大学,2006.
[30] 蔡晔,孙春萌,沈雁.非线性药物动力学参数的计算方法研究进展[J].
药学研究,2014,33(7):401-405.
[31] 徐玮斐,刘国萍,王忆勤.多元统计学方法在中医证候分类识别中的应用及展望[J].中国中医药信息杂志,2015,22(8):124-128.
(收稿日期:2022-11-07) (修回日期:2022-12-03;编辑:向宇雁)