Análise de dados com medidas dependentes em estudos clínicos e experimentais
Analysis of data with dependent measures in clinical and experimental studies
Hélio Amante Miot
Diversos desenhos de pesquisa analisam o mesmo sujeito (ou unidade experimental) em diferentes situações ou sob condições repetidas (
Didaticamente, há quatro abordagens analíticas diferentes, baseadas no conceito da “mudança” entre as medidas, que direcionam a análise estatística segundo técnicas diferentes e que podem gerar conclusões distintas a partir do mesmo conjunto de dados. São elas (i) a identificação de mudança, (ii) a comparação da mudança absoluta das medidas, (iii) a comparação da mudança relativa das medidas e (iv) a mudança dos valores para um desfecho específico.
Para exemplificar essas abordagens, a
Estatística descritiva | Tratamento A | Tratamento B | Tratamento C |
---|---|---|---|
D0*, § | 15,5 (3,0) | 15,6 (2,8) | 17,1 (2,5) |
D120*, §§ | 3,5 (3,0) | 2,4 (2,0) | 2,5 (1,9) |
Avaliação da mudança | Tratamento A | Tratamento B | Tratamento C |
D0-D120** | 12,0 (11,5-12,5) | 13,1 (12,7-13,6) | 14,6 (13,8-15,4) |
Valor de p† | <0,001 | <0,001 | <0,001 |
Diferença absoluta | Tratamento A | Tratamento B | Tratamento C |
Redução da área* | 12,0 (1,2) | 13,1 (1,1) | 14,6 (1,8) |
Tratamento A vs. B | Tratamento A vs. C | Tratamento B vs. C | |
Diferença entre os tratamentos** | 1,2 (0,4-1,9) | 2,6 (1,7-3,6) | 1,5 (0,6-2,4) |
Valor de p†† | 0,004 | <0,001 | <0,001 |
Diferença relativa | Tratamento A | Tratamento B | Tratamento C |
Percentual de redução* | 79,9 (15,7) | 86,0 (10,7) | 86,0 (9,4) |
Tratamento A vs. B | Tratamento A vs. C | Tratamento B vs. C | |
Diferença dos valores percentuais**, §§§ | 6,2 (-1,9-14,2) | 5,7 (-2,0-13,4) | 0,5 (-6,1-7,1) |
Diferença ajustada pelo D0** | 1,1 (0,4-1,9) | 2,2 (1,3-3,0) | 1,0 (0,3-1,7) |
Valor de p‡ | 0,001 | <0,001 | 0,003 |
Desfecho: cicatrização completa | Tratamento A | Tratamento B | Tratamento C |
n (%) | 6 (24%) | 4 (16%) | 0 (-) |
Tratamento A vs. B | Tratamento A vs. C | Tratamento B vs. C | |
Diferença (%) entre os grupos** | 8,0 (-14,1-30,1) | 24,0 (3,6-44,4) | 16,0 (-0,1-32,4) |
Valor de p‡‡ | 0,477 | 0,015 | 0,057 |
Na primeira abordagem analítica, a verificação de diferença (ou de mudança) no status entre as situações se baseia na hipótese de que a média da diferença entre as medidas resulta um valor diferente de zero. Essa é a condição usualmente empregada em estudos exploratórios, porque não depende propriamente da dimensão da mudança, mas da probabilidade de se identificar alguma diferença entre as medidas dependentes.
Para a comparação frequentista entre pares de medidas quantitativas, são empregados os testes t de Student (para dados emparelhados) ou de Wilcoxon, dependendo da normalidade da distribuição das diferenças entre as medidas
Já a avaliação simultânea de mais de um par de medidas quantitativas do mesmo sujeito pode ser realizada pelo teste de análise de variância (ANOVA) de medidas repetidas ou pelo teste de Friedman, se a normalidade e a esfericidade (teste de Mauchly) dos dados não forem identificadas. Para a análise de múltiplas medidas ordinais e dicotômicas dependentes, devem ser empregados os testes de Friedman e Q de Cochran, respectivamente. Uma vez identificada a diferença em um desses testes de comparações múltiplas, é indicada a análise post hoc para evidenciar quais comparações são responsáveis pela diferença encontrada entre os tempos ou os grupos. Há diferentes procedimentos que visam minimizar o erro decorrente das múltiplas comparações sucessivas (por exemplo, Tukey, Bonferroni, Šidák, Scheffé, Ryan-Einot-Gabriel- Welsh Q [REGWQ], Dunnett, Games-Howell etc.) que seguem diferentes pressupostos teóricos, e tal escolha pode demandar a orientação de um estatístico experiente
No exemplo da
Nesse ínterim, a segunda abordagem analítica compara unicamente a mudança absoluta (por exemplo, subtração de antes e depois) entre os valores dependentes de diferentes grupos, permitindo a sua comparação entre medidas de séries longitudinais com mais de duas observações ou, ainda, a análise de ensaios com mais de um grupo avaliado com medidas dependentes.
Essa segunda estratégia reduz a complexidade da análise, e, já que se busca comparar exclusivamente a mudança absoluta dos valores, podem-se comparar as diferenças das medidas entre os grupos do estudo por testes estatísticos para amostras independentes, como o teste t de Student, o teste de Mann-Whitney ou o teste do qui-quadrado de Pearson, no caso de comparações entre dois grupos diferentes, ou a ANOVA, o teste de Kruskal-Wallis ou o teste do qui-quadrado para mais de dois grupos. Entretanto, no caso de séries longitudinais, com mais de duas avaliações temporais consecutivas em um grupo, os valores de mudança em relação ao status inicial ainda mantêm certa dependência entre si e devem ser avaliados pelas técnicas descritas na primeira abordagem analítica.
No exemplo da
Para lidar com essa contingência, a terceira abordagem analítica se refere à avaliação da mudança relativa das medidas dependentes. Ela utiliza os mesmos testes utilizados na comparação das diferenças absolutas, mas considera a variação relativa dos valores. Quando os dados do exemplo (
De fato, o percentual de mudança individual de um desfecho clínico é maior quando o valor basal é menor. Em tratamentos de obesidade, pacientes com maior massa corporal podem apresentar maior redução absoluta do peso, mas menor redução percentual quando comparados com pacientes de menor status ponderal anterior à intervenção.
Nesse caso, voltando ao exemplo da
A quarta abordagem analítica para medidas dependentes considera um desfecho fixo a ser atingido (por exemplo, normalização da pressão arterial, 50% de perviedade de fluxo, níveis de hemoglobina glicada < 7%, cicatrização completa da úlcera, ausência de claudicação após quatro quadras de caminhada). Do ponto de vista pragmático, os desfechos dicotômicos (chamados “duros”) têm seu significado bastante inteligível e transponível para a prática clínica, sendo frequentemente utilizados como os desfechos primários de ensaios clínicos. Desfechos dicotômicos são analisados por técnicas de comparação de proporções entre grupos, representados pelo percentual de eventos e seu intervalo de confiança de 95%
A análise de desfechos dicotômicos, como parâmetro de mudança na análise de dados com medidas dependentes, apresenta menor poder estatístico, demandando maiores amostras que as técnicas analíticas usadas nas situações anteriores, e depende fundamentalmente da condição prévia das medidas dos sujeitos. No exemplo da
Uma vez que todas as quatro abordagens analíticas são absolutamente corretas e justificáveis, deve-se ter ciência que elas podem levar a conclusões diferentes para o mesmo estudo. Portanto, é prerrogativa do pesquisador a definição dessa abordagem a priori, já que as técnicas de análise, os objetivos e as respostas obtidas são condicionadas pela estratégia utilizada
À medida que a estrutura dos dados do estudo adquire certa complexidade, como várias repetições, comparação de repetições entre grupos, dependência em mais de uma condição, status basal diferente entre grupos, esfericidade inadequada, necessidade de ponderação dos resultados pelo comportamento de outras covariáveis, estruturas de covariância entre as medidas menos usuais ou quando os tempos de seguimento longitudinal não forem fixos para todas as observações, a modelagem da análise deve ser conduzida por equações de estimativas generalizadas (GEE) ou modelos lineares generalizados de efeitos mistos. Essas técnicas podem ser adaptadas para analisar variáveis quantitativas unimodais (com distribuição normal ou assimétrica), variáveis tipo contagem e variáveis qualitativas ordinais, multinominais ou dicotômicas, o que torna a análise mais versátil e melhor ajustada aos dados
Da mesma forma, há desenhos analíticos que demandam o estudo simultâneo de diferentes variáveis do mesmo sujeito, gerando uma estrutura de dependência dentro do indivíduo, como ocorre em escalas de qualidade de vida que avaliam mais de uma dimensão (por exemplo, Venous Insufficiency Epidemiological and Economic Study - Quality of Life/Symptom [VEINES-QoL/Sym], Skindex-17), diferentes conjuntos de sintomas ou diferentes marcadores séricos secretados após um mesmo estímulo
Finalmente, ao passo que desenhos de estudos que envolvam dados com medidas dependentes aumentam o poder estatístico da análise, é necessária uma descrição minuciosa dos objetivos analíticos e as técnicas estatísticas empregadas, uma vez que isso implica diretamente no dimensionamento amostral e no tipo de resposta fornecida pelo estudo.
Abstract
Many different study designs involve the analysis of the same subject (or experimental unit) in different situations or under repeated conditions (Figure 1). This occurs in longitudinal time-dependent assessments (for example, before and after measures, clinical trials, studies of the progress over time of intervention),1,2 when measures of different areas of the same subject are assessed (for example, comparisons between adjacent structures: healthy vs. sick and split body interventions),3,4 or when measures are obtained from the same organism challenged by different stimuli (for example, response to drugs, temperature, or pain).5,6 Variables for which there is a link (whether temporal or organic) between different measures generate data that should be analyzed in a dependent manner (paired or correlated), which minimizes the variability between these measures, maximizing the analytical power, and requiring smaller sample sizes for statistical inferences. However, quantitative analysis of dependent data is sensitive to different analytical assumptions, which demands caution when choosing which statistical techniques to employ and when interpreting their results.7-9 ...
Referências
1 Pereira LA, Luz FB, Carneiro C, Xavier ALR, Kanaan S, Miot HA. Evaluation of vitamin D plasma levels after mild exposure to the sun with photoprotection. An Bras Dermatol. 2019;94(1):56-61.
2 Saliba-Júnior OA, Rollo HA, Saliba O, Sobreira ML. Positive perception and efficacy of compression stockings for prevention of lower limb edema in pregnant women. J Vasc Bras. 2022;21:e20210101. PMid:35399341.
3 Miola AC, Ferreira ER, Lima TRR, Schmitt JV, Abbade LPF, Miot HA. Effectiveness and safety of 0.5% colchicine cream vs. photodynamic therapy with methyl aminolaevulinate in the treatment of actinic keratosis and skin field cancerization of the forearms: a randomized controlled trial. Br J Dermatol. 2018;179(5):1081-7.
4 Espósito ACC, Brianezi G, Souza NP, Miot LDB, Miot HA. Exploratory study of epidermis, basement membrane zone, upper dermis alterations and wnt pathway activation in melasma compared to adjacent and retroauricular skin. Ann Dermatol. 2020;32(2):101-8.
5 Maciel-Guerra H, Penha MA, Jorge MFS, et al. Suppression of wheal and flare in histamine test by the main H1 antihistamines commercialized in Brazil. An Bras Dermatol. 2018;93(2):233-7.
6 Kitahara LBW, Silva VPD, Peres G, Miot HA, Schmitt JV. Efficacy of different concentrations of lidocaine and association of vasoconstrictor in local infiltration anesthesia in adults. An Bras Dermatol. 2021;96(5):623-5.
7 Lord FM. A paradox in the interpretation of group comparisons. Psychol Bull. 1967;68(5):304-5.
8 Wainer H, Messick S. Principals of modern psychological measurement: a festschrift for Frederic M. Lord. Nova York: Routledge; 2012.
9 Senn S. Change from baseline and analysis of covariance revisited. Stat Med. 2006;25(24):4334-44.
10 Miot HA. Assessing normality of data in clinical and experimental trials. J Vasc Bras. 2017;16:88-91.
11 Miot HA. Analysis of ordinal data in clinical and experimental studies. J Vasc Bras. 2020;19:e20200185.
12 Miola AC, Miot HA. P-value and effect-size in clinical and experimental studies. J Vasc Bras. 2021;20:e20210038.
13 Elliott HL. Post hoc analysis: use and dangers in perspective. J Hypertens Suppl. 1996;14(Supl 2):S21-5.
14 Ruxton GD, Beauchamp G. Time for some a priori thinking about post hoc testing. Behav Ecol. 2008;19(3):690-3.
15 Lee S, Lee DK. What is the proper way to apply the multiple comparison test? Korean J Anesthesiol. 2018;71(5):353-60.
16 Norman GR, Streiner DL. Biostatistics: the bare essentials. 4. ed. Shelton: People's Medical Publishing House; 2015.
17 Scotton MF, Miot HA, Abbade LP. Factors that influence healing of chronic venous leg ulcers: a retrospective cohort. An Bras Dermatol. 2014;89(3):414-22.
18 Norman GR. Issues in the use of change scores in randomized trials. J Clin Epidemiol. 1989;42(11):1097-105.
19 Vickers AJ. The use of percentage change from baseline as an outcome in a controlled trial is statistically inefficient: a simulation study. BMC Med Res Methodol. 2001;1(1):6.
20 O'Connell NS, Dai L, Jiang Y, et al. Methods for analysis of pre-post data in clinical research: a comparison of five common methods. J Biom Biostat. 2017;8(1):1-8.
21 Austin PC, Manca A, Zwarenstein M, Juurlink DN, Stanbrook MB. A substantial and confusing variation exists in handling of baseline covariates in randomized controlled trials: a review of trials published in leading medical journals. J Clin Epidemiol. 2010;63(2):142-53.
22 van Breukelen GJ. ANCOVA versus CHANGE from baseline in nonrandomized studies: the difference. Multivariate Behav Res. 2013;48(6):895-922.
23 Miola AC, Miot HA. Comparing categorical variables in clinical and experimental studies. J Vasc Bras. 2022;21:e20210225.
24 Eysenck HJ. Meta-analysis and its problems. BMJ. 1994;309(6957):789-92.
25 El Dib R. How to interpret a meta-analysis? J Vasc Bras. 2022;21:e20220043. PMid:36259053.
26 Twisk J, Proper K. Evaluation of the results of a randomized controlled trial: how to define changes between baseline and follow-up. J Clin Epidemiol. 2004;57(3):223-8.
27 Albert PS. Longitudinal data analysis (repeated measures) in clinical trials. Stat Med. 1999;18(13):1707-32.
28 Bandyopadhyay S, Ganguli B, Chatterjee A. A review of multivariate longitudinal data analysis. Stat Methods Med Res. 2011;20(4):299-330.
29 Fitzmaurice GM, Ravichandran C. A primer in longitudinal data analysis. Circulation. 2008;118(19):2005-10.
30 Twisk JW. Applied longitudinal data analysis for epidemiology: a practical guide. Cambridge: Cambridge University Press; 2013.
31 Araújo IC, Defune E, Abbade LP, et al. Fibrin gel versus papain gel in the healing of chronic venous ulcers: a double-blind randomized controlled trial. Phlebology. 2017;32(7):488-95.
32 Ribeiro-Samora GA, Carvalho MLV, Moura RMF, Pereira DAG. Limitations of VEINES QOL/SYM for discriminating chronic venous insufficiency severity. J Vasc Bras. 2019;19:e20180096.
33 Almeida IL, Figueiredo PHS, Silva WT, et al. Reliability and validity of specific quality of life assessment questionnaires related to chronic venous insufficiency: a systematic review. J Vasc Bras. 2022;21:e20210229.
34 Jorge MFS, Mourao IB, Pollo CF, Sousa TD, Meneguin S, Miot HA. Validation of the Skindex-17 quality of life assessment instrument for a Brazilian population. An Bras Dermatol. 2021;96(1):51-8.
35 Davison ML, Kim S-K, Close C. Factor analytic modeling of within person variation in score profiles. Multivariate Behav Res. 2009;44(5):668-87.
36 Liu Y, Carmer R, Zhang G, et al. Statistical analysis of zebrafish locomotor response. PLoS One. 2015;10(10):e0139521.
37 Morrow GR, Black PM, Dudgeon DJ. Advances in data assessment. Application to the etiology of nausea reported during chemotherapy, concerns about significance testing, and opportunities in clinical trials. Cancer. 1991;67(Supl 3):780-7.
Submetido em:
16/11/2022
Aceito em:
14/03/2023