期刊论文详细信息
Quimica nova
TOP -- a software for calculation of topological descriptors to be used in structure - activity relationships
Carneiro, José Walkimar de Mesquita1  Neves, Porfírio Jesus das2  Ndiyae, Papa Matar2  Costa, João Batista Neves da2 
[1] Universidade Federal Fluminense;Universidade Federal Rural do Rio de Janeiro
关键词: topological index;    connectivity index;    QSAR. ;     ;    INTRODUÇÃO Métodos para obtenção de correlações quantitativas entre estrutura molecular e atividade(QSAR) e/ou propriedades (QSPR) baseiam-se em três hipóteses básicas. A primeira é que a estrutura de uma molécula;    quer nos aspectos estéricos quer nos aspectos eletrônicos;    deve conter as informações responsáveis por suas propriedades físicas;    químicas ou biológicas. A segunda hipótese é que estas informações podem ser representadas de forma quantitativa por parâmetros numéricos para a atividade e/ou propriedade. Por fim;    a possível correlação entre a estrutura molecular e a atividade/propriedade que se quer otimizar deve ser expressa em termos de relações matemáticas simples que permitam ao mesmo tempo fazer previsões de atividade/propriedade para sistemas análogos e;    mais importante;    permitam uma interpretação do processo em termos químicos2. A essência dos métodos QSAR é;    portanto;    transformar a estrutura química de um composto em uma série de descritores numéricos que representem as características mais relevantes para uma dada atividade/propriedade e;    adicionalmente;    estabelecer relações quantitativas entre os descritores e a atividade/propriedade que se quer otimizar. A possibilidade de que a atividade e/ou propriedade seja uma função da estrutura molecular é uma hipótese intuitiva e vastamente discutida3. A segunda hipótese acima;    qual seja;    que a estrutura de uma molécula seja representada quantitativamente por descritores é menos intuitiva e também de ampla discussão4. Existe uma variedade de procedimentos para representar estrutura em termos de descritores;    os quais;    em maior ou menor grau;    contêm as propriedades relevantes da estrutura molecular. Dentre as várias metodologias disponíveis para representação de estrutura molecular em termos de parâmetros numéricos;    uma que merece destaque é a que procura representar uma molécula em termos de informações contidas em sua estrutura bidimensional;    essencialmente aquelas relacionadas à conectividade atômica que dão origem à estrutura molecular. Estes parâmetros são conhecidos de uma forma geral como índices topológicos5. Índices topológicos têm encontrado considerável sucesso na previsão de uma grande variedade de propriedades físicas;    químicas ou biológicas5. Propriedades tais como calor de vaporização5;    calor de formação5;    ponto de ebulição6;    7;    refração molar6;    solubilidade7;    densidade8;    coeficiente de partição9;    polaridade;    tempo de retenção em cromatografia10;    11;    etc.;    têm sido correlacionadas com descritores derivados dos índices topológicos. Estes índices também vêm sendo empregados na obtenção de correlação com diferentes atividades biológicas;    podendo-se citar anestésicas12;    13;    14;    narcóticas4;    halucinogênicas15;    inibições enzimáticas5;    16;    bromatológicas17;    analgésicas18;    anticonvulsivantes19;    etc. O cálculo de uma série de descritores topológicos para um conjunto de moléculas é;    do ponto de vista matemático;    consideravelmente simples;    contudo;    pode tornar-se uma tarefa laboriosa e com grande chance de erro se aplicada manualmente a um grande número de moléculas;    principalmente quando estas possuem estrutura complexa. O emprego de metodologias computacionais é portanto recomendável não apenas pela redução no tempo necessário para tratar um determinado número de moléculas;    mas principalmente;    por evitar a chance de erro na obtenção dos descritores. Embora algumas metodologias computacionais para o cálculo de descritores topológicos tenham sido descritas na literatura;    estas não são gerais e nem sempre são de fácil acesso20;    21. O presente trabalho apresenta uma metodologia simples;    de fácil emprego pelo usuário e de aplicação generalizada para cálculo de descritores topológicos;    principalmente aqueles desenvolvidos por Kier e Hall4;    5;    conhecidos como índices de conectividade molecular.  ;    TEORIA DOS ÍNDICES TOPOLÓGICOS Os índices topológicos baseados na conectividade molecular são de três tipos: índices chi de conectividade molecular;    mc;    que caracterizam atributos estruturais da molécula;    índices kappa de forma molecular;    mk;    e os valores de equivalência topológica T;    que caracterizam átomos e grupos no esqueleto molecular e que são usados essencialmente para determinar átomos quimicamente equivalentes dentro de uma molécula4;    5. Outros tipos de índices também merecem destaque;    podendo-se citar;    por exemplo;    os índices eletrotopológicos22. A análise da estrutura molecular do ponto de vista da conectividade começa pela adoção de uma representação apropriada para esta estrutura. Esta representação é baseada no esqueleto molecular;    o qual contém a rede de ligações químicas;    incluindo os átomos e as conexões entre eles. Tal representação é chamada de gráfico molecular. Este por sua vez é constituído de vértices;    representados pelos átomos;    e lados;    representados pelas ligações. A série de átomos e conexões;    no gráfico molecular;    contém informação estrutural a qual deve ser transformada em um índice numérico que pode ser usado para representar a estrutura molecular. Os índices devem contemplar principalmente os elementos que são variáveis com a estrutura. O menor nível de informação estrutural em um gráfico molecular é simplesmente o número de vértices. Obviamente este é um índice com baixíssimo conteúdo de informação. Outros índices com maior grau de informação podem ser abstraídos a partir do gráfico molecular. Índices que representam simplesmente o número de lados (índice de Wiener) ou o número de pares de lados adjacentes (índice de Platt23) em um gráfico molecular são exemplos de índices simples mas que podem fornecer interessantes correlações com uma série de propriedades. O avanço natural é no sentido de desenvolver índices que incluam maior quantidade de informação estrutural. Neste sentido;    Randic introduziu o conceito de grau de vértice;    d;    o qual;    para um dado vértice;    é definido como o número de vértices vizinhos24. Por exemplo;    o grupo metila possui apenas um vizinho;    portanto d = 1;    um grupo metileno tem dois vizinhos;    d = 2;    e daí por diante. Randic também propôs um peso para o lado entre os vértices i e j;    definindo-o por (di.dj)-1/2 . A partir deste ponto pode-se definir um índice de ramificação como a soma dos pesos dos lados;    para todos os lados em um gráfico molecular;    (S(di.dj)-1/2 ). Expressando matematicamente;    mc;    em função do número de lados considerados em cada caso;    em cada ordem;    representa uma característica distinta da estrutura molecular. Para ordens maiores que 2 foram definidos novos índices de conectividade que levam em consideração os tipos de subestruturas consideradas. Desta forma;    pode-se ter sequências do tipo linha(cL);    ramo(cR);    linha/ramo(cLR) ou anel(cA);    dependendo da molécula apresentar ramificações ou ciclos;    como exemplificadas no esquema 1.  ;    Os índices de conectividades;    como definidos acima;    não conseguem distinguir entre diferentes átomos nem entre diferentes hibridizações. Por exemplo;    o p-nitrotolueno (a) e o limoneno (b) apresentam o mesmo gráfico molecular (c) e portanto índices de conectividades iguais (Figura 1). ;    hi = número de átomos de hidrogênios ligados ao átomo i;    eZi = número atômico do átomo i. A relação acima leva a uma definição equivalente à anterior para carbonos saturados;    mas distingue claramente a presença de insaturações ou de heteroátomos (Figura 2). ;    Com base no grau de vértice dv;    calcula-se o índice de conectividade de valência de várias ordens;    mcv;    de forma similar à definida anteriormente;    conforme mostrados nas equações 3;    4 e 5. As relações expressas acima definem o cálculo dos índices de conectividade conforme desenvolvido por Kier e Hall7;    8. No presente trabalho outros índices;    o índice de Wiener e o índice de Schultz26 foram também incluídos. Estes são calculados de forma simples. O índice de Wiener é definido como a soma das menores distâncias entre todos os vértices em um gráfico molecular e é calculado a partir da matriz de distâncias como a soma de todos os elementos ai j /2. O índice de Schultz (Molecular Topological Index-MTI) é definido como:  ;    onde;    ei (i = 1;    2;    ...N) são os elementos da matriz de ordem N n.[A + D] = [e1;    e2 ...eN ];    onde A é a matriz adjacência (N x N);    D é a matriz distância (N x N) e n a matriz grau de vértice (1 x N). n é obtida pela soma das colunas ou linhas da matriz adjacência.  ;    METODOLOGIA A motivação para o presente trabalho foi o desenvolvimento de uma interface computacional capaz de calcular índices de conectividade de todas as ordens e;    o maior espectro possível;    de outros índices topológicos;    a partir de informações elementares e facilmente acessíveis sobre estrutura molecular. Atualmente existem vários pacotes computacionais que geram estruturas moleculares bidimensionais com relativa simplicidade. A partir da estrutura gerada no terminal de um computador;    pode-se obter diferentes tipos de formatos de entrada de gráficos moleculares;    de programas tais como: MOPAC;    PCModel;    alchemy;    gaussian;    etc. Dentre estes formatos;    o que se mostrou mais adequado para o presente trabalho foi o formato sybyl;    gerado pelo PCModel27;    que traz informações sobre número e tipo de átomos;    coordenadas cartesianas e conectividades. O primeiro passo é a leitura de arquivos no formato sybyl (Esquema 2);    gerado por programa de computador que desenha a estrutura molecular32. A partir da leitura armazenam-se as informações relativas aos elementos químicos e suas conectividades (ligações químicas) e compõe-se as matrizes e os vetores computacionais;    estabelecendo-se os procedimentos lógicos de cálculo;    independente do tipo de estrutura;    cíclica ou acíclica. Priorizou-se nesta etapa o desenvolvimento de uma sequência de programa (Figura 3) e os algoritmos necessários para esta implementação;    independentemente da linguagem que fora utilizada (Clipper).  ;    O arquivo de formato sybyl (*.mol) para a molécula do p-nitrotolueno;    tomada como exemplo para demonstrar as várias etapas do código;    é mostrado no Esquema 2 e os dados em negrito são aqueles usados como entrada para construção de uma matriz de conectividade no padrão da matriz Z;    complementada por uma matriz ciclos (linha hachurada);    quando for o caso;    que indica a ligação responsável pelo fechamento de cada anel;    sendo que o tamanho desta matriz é variável conforme o número de anéis na estrutura (Figura 4). ;    A partir destas matrizes são compostas as matrizes distâncias;    adjacências;    ligações adjacentes e grau de vértice.  ;    A matriz adjacências é simétrica e indica os vértices que são conectados ou não (ligações). A matriz grau de vértice é obtida a partir da soma das colunas ou das linhas da matriz adjacências. A matriz distâncias também é uma matriz simétrica contendo a menor distância entre todos os pares de vértices. A matriz ligações adjacentes é obtida com base na matriz adjacências e é composta de 8 colunas;    sendo as duas primeiras para o número dos átomos da ligação e as demais para o número das ligações adjacentes à mesma;    partindo do princípio que cada ligação tem no máximo 6 ligações adjacentes. Exemplos destas matrizes para a molécula do p-nitrotolueno são mostrados na Figura 4. A etapa seguinte no código é a geração de todas as subestruturas de ordem 1 até n;    onde n é o número de linhas da matriz ligações adjacentes. Cada subestrutura de ordem m gera novas subestruturas de ordem m+1;    iniciando com as ligações unitárias;    a partir da matriz ligações adjacentes. Em cada sequência de ordem m são pesquisadas ligações adjacentes para todas as ligações que a compõe;    garantindo assim;    todas as possibilidades de combinações para qualquer tipo de gráfico molecular;    sendo que as combinações com ligações repetidas são eliminadas;    bem como as combinações idênticas (Esquema 3).  ;    Em uma etapa subsequente cada subestrutura é classificada como sendo do tipo linha (cL);    ramo (cR);    linha-ramo (cLR) e anel (cA). Simultaneamente à classificação;    são calculados os índices de conectividade (nc) e de conectividade de valência (ncv) com base nas equações descritas anteriormente. Os índices de Wiener e de Schultz são calculados diretamente das matrizes distâncias e adjacências;    respectivamente;    sendo todos os valores acumulados numa matriz resultados que é gravada em arquivos texto (TXT) (Esquema 4) e também em arquivos tipo tabela de banco de dados (DBF).  ;    RESULTADOS E DISCUSSÃO Os resultados do processamento feito com a estrutura do p-nitrotolueno são mostrados no Esquema 4;    sendo que o seu gráfico molecular apresenta 93 subestruturas linha;    4 subestruturas ramo;    99 subestruturas linha-ramo e 10 subestruturas anel. O tempo de processamento para esta molécula é de aproximadamente 3 segundos quando calculada em um microcomputador pentium de 150 MHz. Um exemplo de arquivo de saída do programa pode ser visto no Esquema 4.  ;    À medida que o número de átomos na cadeia cresce;    o tempo de processamento cresce exponencialmente e isso pode ser verificado com um alcalóide do ergot (Figura 5). ;    O gráfico molecular correspondente possui 26 vértices com 29 lados;    gerando 935.674 subestruturas com ordem de 1 a 29. Para este sistema o tempo de cálculo;    no mesmo computador;    é de aproximadamente 19 horas. A metodologia adotada para a geração de todas as subestruturas mostrou-se eficiente para qualquer tipo de gráfico molecular (spiros;    anéis condensados e isolados;    cubanos;    etc.). A depuração dos resultados foi feita passo a passo;    verificando-se;    manualmente;    as possibilidades de combinações de moléculas menores e;    no caso da estrutura de um alcalóide do ergot;    verificou-se coincidência dos dados com os disponíveis da literatura23 até a ordem 6;    sendo o número de combinações das demais ordens aceito como correto por extensão. Observou-se;    também;    que os valores numéricos obtidos para os índices de conectividade de maior ordem;    podem apresentar uma certa dispersão numérica devido ao valor individual de cada sequência ser muito pequeno;    de tal modo que;    mesmo ocorrendo um grande número de combinações;    numa dada ordem;    o somatório é menor do que 10-4.  ;    AGRADECIMENTOS Ao CNPq pelo auxílio financeiro e concessão de bolsa de iniciação científica e à FAPERJ pela concessão de bolsa de iniciação científica.  ;    REFERÊNCIAS;   
DOI  :  10.1590/S0100-40421998000600007
学科分类:化学(综合)
来源: Sociedade Brasileira de Quimica
PDF
【 授权许可】

CC BY   

【 预 览 】
附件列表
Files Size Format View
RO201902010591203ZK.pdf 73KB PDF download
  文献评价指标  
  下载次数:22次 浏览次数:26次