banner

Notícias

Dec 25, 2023

Avaliação de significância modular e de borda em indivíduos

Scientific Reports volume 13, Número do artigo: 7868 (2023) Citar este artigo

266 Acessos

1 Altmétrica

Detalhes das métricas

As redes individuais específicas, definidas como redes de nós e arestas de conexão específicas para um indivíduo, são ferramentas promissoras para a medicina de precisão. Quando tais redes são biológicas, torna-se possível a interpretação de módulos funcionais em um nível individual. Um problema pouco investigado é a avaliação de relevância ou "significância" de cada rede individual específica. Este artigo propõe novos procedimentos de avaliação de significância de arestas e módulos para redes específicas individuais ponderadas e não ponderadas. Especificamente, propomos uma distância de Cook modular usando um método que envolve modelagem iterativa de uma aresta versus todas as outras dentro de um módulo. Dois procedimentos avaliando mudanças entre usar todos os indivíduos e usar todos os indivíduos, mas deixando um indivíduo de fora (LOO) também são propostos (LOO-ISN, MultiLOO-ISN), contando com arestas derivadas empiricamente. Comparamos nossas propostas com concorrentes, incluindo adaptações dos métodos OPTICS, kNN e Spoutlier, por meio de um extenso estudo de simulação, modelado em cenários da vida real para co-expressão gênica e redes de interação microbiana. Os resultados mostram as vantagens de realizar avaliações de significância modulares versus de ponta para redes individuais específicas. Além disso, a distância de Cook modular está entre os melhores desempenhos em todas as configurações de simulação consideradas. Finalmente, a identificação de indivíduos periféricos em relação às suas redes individuais específicas é significativa para fins de medicina de precisão, conforme confirmado pela análise de rede dos perfis de abundância do microbioma.

Ao analisar a relação entre características biológicas e características complexas, muitas vezes é impossível caracterizar o resultado ou fenótipo com um único gene ou uma única via1, e caracterizações mais avançadas são necessárias. Doenças complexas não têm causa única, mas resultam de um acúmulo de variações diferentes e interativas2. Avanços na biotecnologia, como desenvolvimentos em modalidades de imagem de alta resolução e métodos de sequenciamento de alto rendimento, disponibilizaram dados interdependentes de alta dimensão sobre coleções crescentes de indivíduos. Esses dados precisam ser analisados ​​de forma robusta e estável. A medicina em rede permite ir além das análises univariadas e abranger a complexidade das redes biológicas2,3.

As redes se prestam bem à visualização e análise de múltiplos processos biológicos na medicina. Uma rede é uma coleção de objetos conectados. Os objetos são referidos como nós ou vértices. Eles são geralmente visualizados como pontos. As conexões entre os nós são chamadas de arestas ou links. Estes são desenhados graficamente como linhas entre pontos. Essas redes podem ser anexadas com informações extras, como rótulos de nós ou pesos de arestas. Um módulo é uma sub-rede composta por um subconjunto de nós e arestas selecionados. A modularidade da rede mede a força da divisão de uma rede em módulos. Mais detalhes estão na Tabela S1. Construções teóricas gráficas, como módulos, podem ser mais robustas e eficazes do que variáveis ​​clínicas tradicionais em modelos preditivos ou descritivos4. Eles são frequentemente comparados entre gráficos, onde cada gráfico pode representar uma condição ou estado diferente (fi doente versus saudável). Como veremos mais adiante, as redes também podem ser construídas para cada indivíduo separadamente.

Modelos biológicos baseados em população, que inferem bordas em redes biológicas reunindo amostras ou fixando uma rede única aplicável a todos os indivíduos em um grupo-alvo, têm sido usados ​​para extrair recursos para análises informadas a jusante5 ou para orientar a detecção e interpretação de epistasia usando o genoma -desenhos de estudos de associação ampla6. Do ponto de vista da medicina personalizada, eles também demonstraram ajudar a tirar conclusões específicas do paciente (por exemplo, 7). No entanto, um medicamento de "tamanho único" não é mais aceitável8,9, e extrapolar conclusões de redes derivadas da população pode não ser específico o suficiente para um indivíduo em particular. Além disso, enquanto as interações estatísticas ocorrem em nível populacional, as interações biológicas ocorrem em nível individual10. Assim, considerando que os interactomas biologicamente relevantes podem variar de um indivíduo para outro, a construção de redes individuais específicas com bordas específicas individuais tem recebido interesse crescente.

0.7\) (Fig. 1d). Furthermore, the best methods for each family are shown together to get a glimpse of their performance under different sample size values, Fig. 1e. Cook's distance and mOTS cosine stand out, achieving AUC values greater than 0.8 for all size values N. These methods dominate their corresponding counterparts by more than 0.2 for each setting. No method achieves an acceptable performance value, i.e., AUC\(> 0.7\), for single-edge settings (Fig. 1f), thus highlighting the need for modular assessments. Finally, we notice a slightly positive association between AUC and sample size N./p>2\)), the adapted Cook's distances methods, i.e., Cook's med and Cook's max, achieve the best values of performance. They are closely followed by the mOTS cosine method. By grouping the synthetic data per module's size \(k= \{2,3,5,7,9,11,17 \}\), a positive relationship between the module's size k and performance AUC emerges in (m)OTS cosine (Fig. 2a,b) and Cook's distances methods (Fig. 2d,e). Other methods (Fig. 2c) do not show an association with the module's size k. Crucially, no method achieves a satisfactory performance value in the single-edge analysis setting: when k = 2, every method achieves an AUC value smaller than 0.6. The limited informativeness of an edge alone emerges from those results. Other noteworthy insights originate from comparing Spoutlier's methods (Fig. 2a,b). mOTS euclidean is upper-bounded by 0.7, while mOTS cosine achieves an AUC value greater than 0.9 for large module sizes k. mOTS glob's AUC is positively associated with the module's size k and, coarsely, around 0.05 worse than mOTS cosine. mOTS glob's performance, although suboptimal, hints toward the value of combining both an arithmetical and a geometrical point of view. The scenario is a carbon copy of the single-shot setting: OTS cosine is positively associated with the module's size k, and results are more than 0.2 better than the OTS euclidean counterpart for high values of k./p>2\). (b) the ensemble methods of the Spoutlier family are compared, and mOTS cosine is the best for \(k>2\). (c) p-value yielding methods are compared, and MultiLOO-ISN achieves the best performance for \(k\ge 5\). (d) remaining methods are compared, with Cook's med consistently dominating all others when \(k>2\). at the bottom panel, selected methods are compared together. (e) the comparison includes all settings: cosine-based OTS and Cook's distance methods consistently dominate their counterparts when \(k>2\). No method achieves satisfactory performance under the \(k=2\) settings./p>0.51\) in settings where Mult = 1.1. Under this scenario, the discrepancy between cases and controls is feeble./p>2\). (c) p-value yielding methods are compared, and MultiLOO-ISN achieves the best performance starting for modular settings, i.e., \(k>5\). On (d), the remaining methods are compared, with kNN and Cook's max consistently dominating their’ counterparts. In the bottom panel, selected methods are compared together. On (e), the comparison includes all settings: KNN, mOTS euc, LOO-ISN, Cook's max and Cook's med consistently achieve good performance./p>17\)). Moreover, modules 1–3 consist of more edges, as computed according to27, than individuals 81, and thus all methods based on Cook's distance can not be used. Module 4, consisting of 5 nodes, is adequate to validate our approach, being the closest to the module's dimensions in the simulations./p>2\)) is considered. However, in such a case, we use a multivariate normal distribution for generating the simulation data in step 2), where the dimension of the normal distribution equals the module's size k. Multivariate normal simulations need to mimic the network's structure under the null hypothesis \(H_0\). Hence, we generate N samples, equal to the empirical sample size, with a normal where we set the variance/covariance matrix to the adjacency matrix A, with entries the weighted edge weights \(w_{ij}^{\alpha }\) and the mean vector (\(k \times 1\)) to 0. Hence, the correlation coefficients are estimated on the dataset of analysis, i.e., the edge weights \(w_{ij}^\alpha\) for every edge between two nodes \(v_i\) and \(v_j\) inside the module. We refer the reader to Fig. S5 for a visual representation./p>

COMPARTILHAR