Información

¿Cuántos residuos puede contener un modelo estructural ab initio confiable?

¿Cuántos residuos puede contener un modelo estructural ab initio confiable?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Una pregunta reciente sobre ab initio que respondí implicaba tocar las limitaciones de ab initio modelado. Una revisión de 2009 indicó que, por lo general, solo se pueden modelar de manera confiable en el orden de 100-110 residuos.

7 años después de ese artículo: acabo de asistir a una presentación previa a la publicación en la que se había modelado una estructura de más de 400 residuos utilizando I-TASSER. El orador afirmó que era confiable y encajaba bien en el contexto biológico, pero aún necesitaba una validación experimental. Desafortunadamente no tenían en silico puntajes de validación a mano, por lo que no sabía qué tan en serio debería tomar el modelo.

En última instancia, mi pregunta es cuántos residuos puede I-TASSER (otros ab initio marcas disponibles!) manejar de manera confiable para un dominio globular típico con la tecnología actual?


Año tras año confiable ab initio las predicciones son cada vez más comunes para proteínas más largas. 400 residuos no es una longitud inviable. Por supuesto, los bucles siguen siendo un desafío mayor que las estructuras secundarias helicoidales y laminares.

En CASP13, el equipo de Google DeepMind utilizó AlphaFold para producir un modelo de buena calidad (T0594) de una proteína de 774 residuos que es una repetición WD40 de RFWD3 (6CVZ). Todas sus entradas CASP13 están aquí.


Abstracto

Presentamos un método jerárquico para predecir los modelos de estructura terciaria de proteínas a partir de la secuencia. Comenzamos con la enumeración completa de conformaciones utilizando un modelo de celosía tetraédrica simple. Luego construimos conformaciones con mayor detalle y en cada paso seleccionamos un subconjunto de conformaciones usando funciones empíricas de energía con una complejidad creciente. Después de la enumeración en la red, seleccionamos un subconjunto de conformaciones de baja energía utilizando una función estadística de energía de contacto residuo-residuo y generamos modelos de todos los átomos utilizando la estructura secundaria predicha. Luego, se utiliza una función combinada de energía a nivel atómico basada en el conocimiento para seleccionar subconjuntos de los modelos de todos los átomos. Las predicciones finales se generan utilizando un procedimiento de geometría de distancia de consenso. Probamos la viabilidad del procedimiento en un conjunto de 12 proteínas pequeñas que cubren una amplia gama de topologías de proteínas. Se realizó una rigurosa prueba doble ciego de nuestro método bajo los auspicios del experimento CASP3, donde hicimos ab initio predicciones de estructura para 12 proteínas utilizando este enfoque. El desempeño de nuestra metodología en CASP3 es razonablemente bueno y completamente consistente con nuestras pruebas iniciales.


Fondo

Existe un interés creciente en el campo de la terapéutica con péptidos durante la última década debido a los numerosos efectos adversos de los fármacos químicos [1, 2]. Los péptidos se están volviendo populares en la industria farmacéutica debido a sus aplicaciones en el diagnóstico, la terapéutica y la administración de fármacos con mejor potencia, alta especificidad, baja toxicidad y disponibilidad natural [3-7]. Muchos fármacos basados ​​en péptidos se están comercializando con éxito y muchos más se encuentran en diferentes fases de ensayos clínicos [8]. Teniendo en cuenta la importancia de los péptidos en el mercado terapéutico, es imperativo conocer la información estructural de un péptido nuevo antes de su posterior diseño para las propiedades terapéuticas deseadas [9, 10]. Está bien establecido que la función de un péptido depende de su estructura, por lo que es importante predecir la estructura terciaria de un péptido a partir de su secuencia de aminoácidos primaria.

En el pasado, se han realizado intentos para la predicción de la estructura terciaria del péptido. En 1999, Ishikawa et al. [11] desarrolló un ab initio método (Geocore) para encontrar las estructuras de tipo nativo dentro de un pequeño conjunto de conformaciones. Sin embargo, fue ideado como un algoritmo de filtrado en lugar de un algoritmo de plegado, explorando un gran espacio conformacional (

miles de millones de conformaciones) y, por lo tanto, limita su uso para péptidos muy pequeños. En 2007, Kaur et al. [12] desarrolló el algoritmo PEPstr para predecir la estructura terciaria de pequeños péptidos bioactivos. Utilizaron β-turn pronosticado y una estructura secundaria regular para construir la estructura terciaria de un péptido. Este enfoque redujo drásticamente el tiempo requerido para construir la estructura y el método proporcionó una buena estructura de inicio al aplicar las restricciones previstas. Nicosia y Stracquadanio (2008) propusieron un algoritmo de búsqueda de patrones generalizados (Gps) [13] que utiliza el algoritmo de búsqueda y sondeo para buscar los mínimos globales. En 2009, Thomas et al. desarrolló el algoritmo PepLook [14] que se basa en la técnica estocástica de Boltzmann. Maupetit y col. desarrolló el algoritmo PEP-FOLD [15, 16] que se basa en el modelo de Markov oculto, un algoritmo codicioso y campos de fuerza de grano grueso. Se realiza una serie de 50 simulaciones codiciosas para cada secuencia de péptidos, generando 50 modelos. Narzisi y col. [17] propuso un algoritmo evolutivo multiobjetivo (I-PAES) para buscar el espacio conformacional basado en la función de energía potencial ECEPP. Gps, PepLook e I-PAES, todos aplican una estrategia de búsqueda conformacional que genera miles de estructuras y, por lo tanto, pueden ser computacionalmente intensivas. Sin embargo, PEP-FOLD evita una búsqueda extensa del espacio conformacional al predecir los alfabetos estructurales, que se ensamblan para proporcionar una estructura inicial seguida de simulaciones. Recientemente, Beaufays et al. [18] extendió el algoritmo PepLook para manejar péptidos lineales y cíclicos con aminoácidos no proteinogénicos. Thevenet y col. [19] actualizó el algoritmo PEP-FOLD para manejar los péptidos cíclicos unidos por enlaces disulfuro. En lugar de utilizar restricciones de distancia, utilizaron un campo de fuerza de grano grueso sOPEP. Shen y col. (2014) desarrollaron PEP-FOLD2 (versión mejorada de PEP-FOLD) [20] y lo compararon con PEP-FOLD y Rosetta en un conjunto de datos que comprende 56 péptidos estructuralmente diversos.

Thomas y col. utilizaron los valores de energía del potencial de fuerza medio (MFP) para comparar las estructuras de los péptidos pronosticados a partir de PepLook, Robetta y PEPstr con los datos experimentales de RMN y concluyeron que los modelos PepLook y PEPstr se parecen mucho a las estructuras de RMN [21]. Hasta donde saben los autores, en la actualidad, solo los métodos PEPstr y PEP-FOLD brindan un servicio en línea gratuito a la comunidad científica mundial específicamente para la predicción de la estructura terciaria de péptidos a partir de su secuencia de aminoácidos. En los últimos años, se han desarrollado una serie de bases de datos para gestionar péptidos de importancia terapéutica que incluyen péptidos de barrera hematoencefálica, antiparasitarios, hemolíticos, antihipertensivos, antiparasitarios, antimicrobianos, de detección de quórum y de barrera hematoencefálica [22– 30]. Recientemente, se desarrolló una meta-base de datos (SATPdb) de péptidos terapéuticos, que se compila a partir de veintidós bases de datos / conjuntos de datos de péptidos y puede ayudar a sus usuarios a extraer péptidos claros con la función deseada [31]. Se ha observado que los péptidos tienen una semivida deficiente en la circulación y las modificaciones aumentan su semivida [8, 32, 33]. Diferentes modificaciones pueden conducir o no a cambios estructurales profundos en el péptido y, por tanto, influir en su función biológica [34, 35]. En el pasado, se han realizado intentos limitados para predecir la estructura de péptidos que contienen aminoácidos modificados o no naturales.

Recientemente, Gfeller et al. desarrolló la base de datos SwissSideChain [36, 37] que contiene una biblioteca de campos de fuerza para 210 residuos no naturales compatibles con el campo de fuerza de Charmm en el paquete de software GROMACS y CHARMM. Brevemente, generaron parámetros de campo de fuerza para cada residuo no natural, ya sea a partir de las cadenas laterales naturales análogas o utilizando el servicio web SwissParam [38]. Además, Khoury et al. desarrolló Forcefield_NCAA (FFNCAA) [39], que es una biblioteca de campo de fuerza de 147 aminoácidos no naturales, compatible con el campo de fuerza ff03 en el paquete de software AMBER. A partir de los conformadores helicoidales y de cadena β iniciales, realizaron la optimización de la geometría restringida de la mecánica cuántica y un mayor ajuste de RESP para obtener los parámetros del campo de fuerza para estos residuos no naturales. Khoury y col. también desarrolló Forcefield_PTM (FFPTM) [40], que es una biblioteca de campo de fuerza de 32 modificaciones postraduccionales que ocurren con frecuencia utilizando el mismo procedimiento descrito anteriormente. También desarrollaron servicios web, FFNCAA y FFPTM, que brindan la posibilidad de incorporar aminoácidos no naturales y PTM, respectivamente, a un archivo PDB de entrada y envía el archivo PDB modificado a los usuarios. Petrov y col. [41] desarrolló los parámetros del campo de fuerza para

250 tipos diferentes de PTM compatibles con los campos de fuerza GROMOS 45a3 y 54a7 en GROMACS. También desarrollaron un servidor web Vienna-PTM [42], que brinda la posibilidad de incorporar cualquier PTM a un archivo PDB y proporcionar el archivo PDB modificado a los usuarios.

En este estudio, hemos intentado incorporar bibliotecas de campos de fuerza especiales para predecir la estructura de péptidos que tienen aminoácidos no naturales y diferentes tipos de PTM. Empleamos un conjunto lógico de pasos que integra software de predicción de estructuras con bibliotecas de campos de fuerza y ​​simulaciones extendidas para predecir las estructuras de péptidos que tienen residuos no naturales y otras modificaciones. Evaluamos el rendimiento de la aplicación PEPstrMOD en diferentes conjuntos de datos que tienen péptidos modificados. Esperamos que PEPstrMOD ayude a la comunidad científica a comprender mejor las estructuras peptídicas modificadas.


Introducción

El ARN de todos los organismos celulares es sintetizado por una compleja máquina molecular, la ARN polimerasa dependiente de ADN (RNAP). En bacterias, el núcleo RNAP catalíticamente competente (composición de subunidades & # x003b12& # x003b2 & # x003b2 '& # x003c9) tiene una masa molecular de & # x0223c400 kDa. Se han identificado relaciones evolutivas para cada una de las subunidades del núcleo bacteriano entre todos los organismos, desde las bacterias hasta el hombre [1] & # x02013 [3]. Estas relaciones son particularmente fuertes entre las dos subunidades más grandes, & # x003b2 'y & # x003b2, que contienen segmentos dispuestos colinealmente de secuencia conservada (Figura 1) [3]. Estos segmentos conservados están separados por regiones espaciadoras relativamente no conservadas en las que pueden producirse grandes espacios o inserciones específicas de linaje [3], [4]. La importancia funcional de estas diferencias específicas de linaje no se comprende bien debido a la falta de información bioquímica y estructural correlacionada. La mayor parte de nuestro conocimiento bioquímico y genético sobre RNAP bacteriano proviene de estudios de Escherichia coli (Eco) RNAP, pero toda nuestra información estructural de alta resolución proviene de Thermus RNAP [5] & # x02013 [8] como Eco RNAP no ha sido susceptible de análisis de cristalografía de rayos X. los Eco y Thermus Las subunidades & # x003b2 y & # x003b2 'albergan grandes inserciones de secuencia (& # x0003e40 aminoácidos) que no están presentes en las otras especies y no se comparten entre especies bacterianas (Figura 1) [3]. Por ejemplo, el Eco La subunidad & # x003b2 'contiene & # x003b2'-insert-6 (o & # x003b2'i6, usando la nomenclatura de inserto específica del linaje de Lane et al. [3]), una inserción de 188 residuos en el medio de la & # x0201 bucle de encendido conservado. & # x0201d Por otro lado, el Thermus La subunidad & # x003b2 'carece de & # x003b2'i6 pero contiene & # x003b2'i2 (283 residuos). Las estructuras de alta resolución de estos dos insertos específicos de linaje revelan que comprenden repeticiones de un pliegue previamente caracterizado, el motivo híbrido de barril sándwich (SBHM) [9], [10]. Del mismo modo, el Eco La subunidad & # x003b2 alberga tres inserciones grandes que faltan en Thermus, & # x003b2i4 (119 residuos), & # x003b2i9 (99 residuos) y & # x003b2i11 (54 residuos), mientras que Thermus & # x003b2 puertos de subunidad & # x003b2i12 (43 residuos).

Las barras verticales representan la secuencia primaria de las subunidades & # x003b2 (superior, cian claro) y & # x003b2 '(inferior, rosa claro) del RNAP bacteriano. Alabama. [3]. Las características estructurales importantes están etiquetadas encima de las barras [19]. Las inserciones específicas de linaje (etiquetadas de acuerdo con la nomenclatura de Lane et al. [3]) se muestran debajo de las barras. La codificación de colores para las subunidades grandes y las inserciones específicas de linaje que se muestran aquí se utilizan a lo largo de este artículo.

En algunos aspectos, la alta resolución Thermus Las estructuras RNAP han servido como buenos modelos para interpretar la literatura funcional obtenida de estudios bioquímicos, biofísicos y genéticos de Eco RNAP [11], [12]. Sin embargo, un modelo molecular completo de Eco El núcleo RNAP no ha estado disponible debido a la ausencia de información estructural de alta resolución en el Eco & # x003b2 insertos específicos de linaje de subunidades. Los estudios estructurales más detallados de Eco Los RNAP provienen del análisis por microscopía crioelectrónica (crio-EM) de cristales helicoidales a una resolución de aproximadamente 15 & # x000c5 [13]. Esta reconstrucción crio-EM de Eco El RNAP central podría interpretarse en detalle ajustando el Taq estructura de rayos X del núcleo RNAP, que revela una gran distorsión de la estructura (apertura del canal del sitio activo en más de 20 & # x000c5) debido a contactos intermoleculares en los cristales helicoidales. Fuerte densidad de electrones para Eco & # x003b2i9 estuvo presente en la reconstrucción crio-EM, pero densidad débil para Eco & # x003b2i4 y Eco & # x003b2'i6 indicó que estos dominios eran flexibles en el contexto de los cristales helicoidales [13]. La mayoría de las reconstrucciones EM previas de diversas formas de Eco RNAP no ha revelado información sobre los insertos específicos de linaje (por ejemplo, ver [14]). Una reconstrucción reciente de EM con tinción negativa con resolución 20 & # x000c5 de un complejo de iniciación de la transcripción dependiente del activador que contiene Eco RNAP [15] permitió el posicionamiento del Eco & # x003b2'i6 estructura cristalina [10], pero la falta de información estructural en el otro Eco Las inserciones específicas de linaje impidieron la interpretación detallada de densidades adicionales presentes en la reconstrucción [15].

En este estudio, utilizamos una combinación de enfoques estructurales para generar un modelo molecular completo de Eco núcleo RNAP. Determinamos dos nuevas estructuras cristalinas de rayos X de alta resolución de Eco Fragmentos de subunidad RNAP & # x003b2 que incluyen Eco & # x003b2i4 y & # x003b2i9 y utilizó un método ab initio para predecir la estructura de los Eco & # x003b2i11 [16]. Las tres estructuras cristalinas de rayos X disponibles de Eco Fragmentos de RNAP (las dos estructuras determinadas aquí y la estructura de Eco & # x003b2'i6 [10]) y la estructura prevista de Eco & # x003b2i11 se incorporaron en un modelo de homología de Eco núcleo RNAP. Finalmente, utilizamos imágenes crio-EM combinadas con análisis de imágenes de una sola partícula para obtener una estructura de baja resolución de la conformación de la solución de Eco núcleo RNAP en el que las densidades correspondientes a las inserciones específicas de linaje podrían identificarse claramente. Ajuste flexible del Eco El modelo de homología RNAP en densidades crio-EM generó un modelo molecular completo de Eco núcleo RNAP y un Eco Complejo de alargamiento ternario RNAP (TEC).


Quimica computacional

5. Conclusiones

La teoría de los orbitales moleculares es una herramienta establecida en el análisis de la estructura electrónica de compuestos químicos. Su enfoque orbital de fragmentos es intuitivo y puede ser muy productivo al analizar funciones de onda complicadas y realizar análisis de descomposición de carga y energía. También se puede utilizar para construir funciones de onda de prueba de sistemas particularmente difíciles, de modo que el procedimiento SCF tenga una manera más fácil de converger al estado electrónico elegido. Si bien algunos enfoques se desarrollaron hace tres o más décadas, su implementación para su uso con paquetes comunes de QM no siempre estuvo disponible en el pasado. En los años más recientes, la situación ha mejorado drásticamente, lo que permite a los químicos inorgánicos interesados ​​en la química computacional emplear las herramientas de la teoría de orbitales moleculares con facilidad.

En este capítulo, describimos algunos éxitos recientes en la implementación de métodos más antiguos y el desarrollo de nuevos en el marco de la teoría de orbitales moleculares. Si bien aún no hemos llegado al momento en que contamos con un conjunto completo de herramientas para el análisis de la descomposición orbital y energética, se ha avanzado significativamente en los últimos 20 años y el análisis de estructuras electrónicas ha dejado de ser un dominio exclusivo para los especialistas en este campo. área de investigación.


Restricciones de interacción inequívoca

Si sus predicciones son muy fiables y desea que se apliquen todas durante el acoplamiento, defínelas como restricciones inequívocas. Estos pueden ser, por ejemplo, restricciones de distancia por pares derivadas de plantillas (tutorial), datos de enlace cruzado de MS (tutorial) o datos de conectividad crio-EM (tutorial).

Restricciones de interacción ambiguas (AIR s)

Sin embargo, como en la vida, en la ciencia también se necesita ser algo crítico con los datos con los que se trabaja. Si no está 100% seguro acerca de la información de interacción y desea tener cuidado al incorporarla en su acoplamiento, use restricciones de interacción ambiguas, únicas para HADDOCK. Aquí, para cada prueba de acoplamiento, una fracción de estas restricciones se eliminará al azar, lo que garantiza un muestreo más amplio que satisface siempre un subconjunto diferente de restricciones predefinidas. Por lo tanto, si algunas de las restricciones son artificiales, estas pueden filtrarse si el complejo que las satisface es desfavorable.

Para los AIR, es importante definir los residuos en la interfaz de cada molécula en función de los datos experimentales que proporcionan información sobre la interfaz de interacción.

En la definición de esos residuos, se distingue entre "activo" y "pasivo" residuos.

los "activo" Los residuos son de vital importancia para la interacción entre las dos moléculas. Y son accesibles a los disolventes. La accesibilidad relativa de la cadena principal o la cadena lateral debe ser típicamente & gt 40%, a veces también se puede usar un límite más bajo, por ejemplo, el servidor HADDOCK usa por defecto el 15%. A lo largo de la simulación, estos residuos activos se restringen para que formen parte de la interfaz, si es posible, de lo contrario incurren en una penalización de puntuación.

los "pasivo" todos los residuos son vecinos superficiales de residuos activos accesibles al disolvente (& lt6,5 Å). Contribuyen a la interacción, pero se consideran de menor importancia. Si tal residuo no pertenece a la interfaz, no hay penalización de puntuación.

En general, un AIRE se define como una distancia intermolecular ambigua entre cualquier átomo de un residuo activo de la molécula A y cualquier átomo de los residuos activos y pasivos de la molécula B (e inversamente para la molécula B).

Las restricciones de distancia ambiguas se describen en la HADDOCK manual y más sobre los parámetros en el run.cns El archivo está escrito aquí.

Otros tipos de restricciones

HADDOCK puede utilizar mucha información experimental. Aquí describimos otros tipos de restricciones soportadas por HADDOCK:


Conclusiones

Actualmente, la biología estructural lucha por mantenerse a la par del rápido crecimiento de la secuenciación del genoma. Solo una fracción de todas las familias de secuencias conocidas está representada en el Protein Data Bank con al menos una estructura de sus miembros. A pesar del gran progreso en la predicción de estructuras utilizando fragmentos de proteínas, campos de fuerza mejorados, simulaciones de dinámica molecular y modelos de homología, las estructuras de las proteínas de membrana siguen siendo ampliamente inaccesibles. Los métodos computacionales como EVfold_membrane son, por lo tanto, la clave para acelerar la determinación de la estructura de las proteínas de la membrana, reduciendo así la brecha cada vez mayor entre la secuencia y la estructura.


¿Cuántos residuos puede contener un modelo estructural ab initio confiable? - biología

Avances en la predicción de la estructura terciaria de las proteínas

Tayebeh Farhadi
Departamento de Biotecnología Farmacéutica, Facultad de Farmacia, Universidad de Ciencias Médicas de Shiraz, Shiraz, Irán

Fecha de publicación web5 de marzo de 2018

Dirección de Correspondencia:
Dr. Tayebeh Farhadi
Departamento de Biotecnología Farmacéutica, Facultad de Farmacia, Universidad de Ciencias Médicas de Shiraz, Shiraz
Iran

Fuente de apoyo: Ninguno, Conflicto de intereses: Ninguno

DOI: 10.4103 / bbrj.bbrj_94_17

Las proteínas están compuestas por cadenas lineales de aminoácidos que forman una estructura tridimensional única en su entorno nativo. Esta estructura nativa favorece que las proteínas realicen su actividad bioquímica. La proteína está formada por algunos niveles de estructura. La estructura primaria de una proteína está especificada por la secuencia de aminoácidos particular. En una secuencia de aminoácidos, los patrones de enlace local se pueden identificar como estructura secundaria. El nivel final que forma una estructura de proteína terciaria se compone de los elementos mencionados y se forma después de que la proteína se pliega a su estado nativo. Para encontrar la estructura nativa de las proteínas, los principios fisicoquímicos, así como para identificar los estados de energía libre más bajos, se consideran las mejores propiedades y para predecir proteínas diana con estructuras desconocidas, los métodos basados ​​en bioinformática han obtenido un éxito considerable. Los métodos de predicción de la estructura de proteínas se han clasificado principalmente en tres tipos: plegamiento ab Initio, modelado comparativo (homología) y enhebrado. Cada método mencionado se puede aplicar para una estructura de proteína, dependiendo de la existencia de estructuras experimentales relacionadas que se depositen en el AP. Una vez que se genera un modelo inicial, se realizan simulaciones de refinamiento para reensamblar la topología global y las estructuras locales de las cadenas de proteínas. Dado que las características importantes de un modelo pueden estar en regiones que son estructuralmente distintas de la plantilla, el refinamiento de un modelo primario es influyente. Se incluye una estrategia confiable, una verificación estereoquímica y el descubrimiento de cómo el modelo se desvía de las disciplinas básicas de estructuras experimentales conocidas.

Palabras clave: Evaluación de modelos, refinamiento de modelos, modelado de proteínas, estructura terciaria de proteínas


Cómo citar este artículo:
Farhadi T. Avances en la predicción de la estructura terciaria de proteínas. Biomed Biotechnol Res J 20182: 20-5

Cómo citar esta URL:
Farhadi T. Avances en la predicción de la estructura terciaria de proteínas. Biomed Biotechnol Res J [serie en línea] 2018 [consultado el 23 de junio de 2021] 2: 20-5. Disponible en: https://www.bmbtrj.org/text.asp?2018/2/1/20/226584

Las proteínas están compuestas por cadenas lineales de aminoácidos que forman una estructura tridimensional (3D) única en su entorno nativo. Esta estructura nativa favorece que las proteínas realicen su actividad bioquímica. [1]

Durante muchos años, un desafío sobre la predicción de la estructura terciaria de las proteínas a partir de su secuencia de aminoácidos ha atraído a investigadores en los diferentes campos de estudio. Existe suficiente evidencia sobre la importancia de la información de la estructura tridimensional en los últimos años y, en consecuencia, el impacto potencial de los avances en la predicción de la estructura de las proteínas es enorme. Por ejemplo, no se pueden obtener pruebas considerables sobre las relaciones estructura-función entre los miembros de una familia de proteínas basándose en un pequeño número de estructuras disponibles de miembros de la familia. Sin embargo, los modelos que se generan a partir de miembros de la familia de proteínas derivados del uso de estructuras determinadas experimentalmente permiten deducir tales relaciones estructura-función. [5], [6] Los modelos también se pueden utilizar como base para analizar la función de proteínas individuales, de la misma manera que se realiza con estructuras resueltas experimentalmente. Sin embargo, a pesar del enorme impacto potencial de la predicción de la estructura de la proteína, el grado de confianza en el que los modelos generados se pueden utilizar en diversas aplicaciones científicas es ambiguo. [7]

Los métodos de predicción de la estructura de proteínas se han clasificado principalmente en tres tipos: plegamiento ab Initio, modelado comparativo (homología) y enhebrado. [8] Cada método mencionado puede aplicarse para una estructura de proteína, dependiendo de la existencia de estructuras experimentales relacionadas que se depositen en el AP.

Ab Initio (también llamado de novo) La clase de modelado se define originalmente como los métodos que se basan en las leyes del primer principio de la química y la física que declaran que el estado nativo de una proteína se sitúa en el mínimo de energía libre global. [11], [12] Por lo tanto, el procedimiento Ab Initio intenta plegar una proteína dada de la secuencia de consulta empleando diferentes campos de fuerza y ​​amplios algoritmos de búsqueda conformacional. Sin embargo, se ha demostrado un éxito limitado mediante la aplicación de tales técnicas basadas en principios fisicoquímicos. Los métodos más apropiados en esta clase todavía utilizan la información evolutiva y basada en el conocimiento para recopilar fragmentos estructurales cortos y restricciones espaciales para ayudar al proceso de ensamblaje estructural. [13], [14] Esta clase ahora se denomina & # 8220modelado libre & # 8221 en los experimentos CASP porque muchas de las técnicas no confían perfectamente en los primeros principios. [15]

En el modelado comparativo (CM), la estructura de la proteína se predice comparando la secuencia de una proteína de consulta (también denominada objetivo) con una proteína asociada evolutivamente con una estructura conocida (también denominada plantilla) en el PDB. [8] Por lo tanto, una necesidad para el método CM es la existencia de una proteína homóloga en la base de datos PDB. [16] Los modelos de CM tienen habitualmente un fuerte sesgo y están más cerca de la estructura de la plantilla en lugar de la estructura nativa de la proteína objetivo. En este contexto, los métodos de CM producen modelos copiando las estructuras alineadas de las plantillas o satisfaciendo las restricciones de contacto / distancia de las plantillas. [17] Se considera un límite esencial del enfoque. En consecuencia, una de las preguntas importantes para CM (y para otros enfoques basados ​​en plantillas) es cómo refinar los modelos generados más cerca de la estructura nativa que las plantillas utilizadas.

El enhebrado (también llamado reconocimiento de pliegues) es una estrategia bioinformática que busca en la biblioteca de PDB para encontrar plantillas de proteínas que tengan un pliegue o motivo estructural similar a la proteína de consulta. Es comparable a CM en el sentido de que ambas estrategias intentan generar un modelo estructural aplicando las estructuras resueltas experimentalmente como plantilla. [8] Está demostrado que muchas proteínas con baja identidad de secuencia pueden tener pliegues similares. Por lo tanto, el procedimiento de subprocesamiento se centra en detectar las alineaciones objetivo-plantilla independientemente de la relación evolutiva.

Cuando la identidad de la secuencia es baja, el reconocimiento de las alineaciones exactas de la plantilla objetivo es un problema de importancia crítica. Por lo tanto, el diseño de la función de puntuación de alineación exacta es importante para la eficacia de los métodos. Las puntuaciones de alineación empleadas con frecuencia contienen coincidencia de secuencia-perfil estructural, [18] coincidencia de estructura secundaria, perfil de secuencia y alineaciones de perfil # 8211, [19] y contactos de residuo y residuo [20] con las mejores alineaciones de puntuación comúnmente descubiertas por el modelado de Hidden Markov [21] o simulación dinámica. [22] En los últimos años, los enfoques de funciones de puntuación compuestas que contienen múltiples propiedades estructurales, como ángulos de torsión y accesibilidad a los disolventes, pueden producir ventajas adicionales en las identificaciones de las plantillas de proteínas. [23]

En el campo de la predicción de la estructura de proteínas, una tendencia común que limita entre los tipos convencionales de enfoques de modelado se ha vuelto borrosa. Muchas técnicas de Ab Initio aplican restricciones espaciales o fragmentos estructurales que se identifican mediante el método de enhebrado. [24] Además, tanto las técnicas de modelado comparativo como las de subprocesamiento dependen de múltiples alineamientos de secuencia. Sin embargo, en el campo de la predicción de la estructura de proteínas, ninguna técnica puede superar a otras para todos los objetivos de proteínas, por lo que se han introducido enfoques de meta-servidor como la segunda tendencia. [25] Un enfoque común de meta-servidor es generar una serie de modelos mediante múltiples programas que son desarrollados por diferentes laboratorios, y luego seleccionar los modelos finales de los de mejor clasificación. [26] A pesar de la disponibilidad de diferentes enfoques que pueden probarse en las selecciones de modelos y plantillas de proteínas, la estrategia de selección de modelos más eficaz parece ser la selección por consenso. Por definición, la selección por consenso es el enfoque de selección de modelos más eficiente y selecciona los modelos que se construyen con mayor frecuencia mediante varios métodos y, en general, el más cercano al nativo. [27]

Otro enfoque eficiente de metaservidor para clasificar, seleccionar y reconstruir modelos de proteínas se basa en información de múltiples plantillas. Para dirigir las simulaciones de ensamblaje estructural basadas en la física, este enfoque puede aprovechar las restricciones espaciales y los fragmentos estructurales que se obtienen de las numerosas plantillas. Por lo tanto, el enfoque mencionado puede generar modelos que tienen una calidad refinada en comparación con los modelos basados ​​en la información de las plantillas individuales. Teniendo en cuenta los resultados de referencia de toda la comunidad de los experimentos CASP recientes, este enfoque representa el método más eficaz y exitoso. [28]

Además, en diferentes estudios, la predicción de los posibles efectos de las variaciones de la secuencia de aminoácidos dentro de las ubicaciones espaciales de residuos funcionalmente importantes (como los sitios activos / de unión y los sitios de mutaciones asociadas a enfermedades) se informa como un tema importante. [8], [30] Dicha predicción se puede hacer utilizando el modelado estructural.

Una vez que se genera un modelo inicial, se realizan simulaciones de refinamiento para reensamblar la topología global y las estructuras locales de las cadenas de proteínas. Dado que las características importantes de un modelo pueden estar en regiones que son estructuralmente distintas de la plantilla, el refinamiento de un modelo primario es influyente. Las regiones mencionadas están incluidas cadenas laterales que son diferentes en la plantilla y su objetivo y bucles que se encuentran entre los elementos de la estructura secundaria y pueden tener una conformación bastante distinta en el objetivo y la plantilla. [31] Los procedimientos de modelado de cadena lateral y bucle se basan en esta suposición de que los elementos de la estructura secundaria de una proteína objetivo son similares a los de la estructura de la plantilla. [32]

Para el cálculo de las conformaciones de la cadena lateral, los enfoques utilizados con más frecuencia emplean la relación detectada entre las conformaciones de la cadena principal y la cadena lateral y utilizan de forma rutinaria una & # 8220rotamer library & # 8221 producida a partir de una base de datos de estructuras conocidas. [33] Los enfoques varían en la forma en que se muestrean los rotámeros. La función energética se aprovecha para evaluar las conformaciones individuales. Actualmente, es probable que prediga las conformaciones de las cadenas laterales enterradas con una precisión cercana a la experimental. [33]

Los métodos de modelado de bucle generalmente generan un modelo inicial del bucle en conformación & # 39 & # 39 & # 39open & # 39 & # 39 en el que un extremo del bucle no está vinculado a su residuo posterior. Luego, los programas cierran el ciclo aplicando diferentes algoritmos. [34], [35] El procedimiento se repite varias veces empleando diversas conformaciones iniciales. A continuación, se comprueban las conformaciones obtenidas mediante varias funciones energéticas. En general, se sugiere que una combinación de muestreo minucioso y un cálculo de energía conformacional puede generar resultados muy precisos. [36], [37]

Varias conformaciones estructurales (también llamadas señuelos estructurales) resultarán de las simulaciones de ensamblaje estructural. Entre todas las conformaciones alternativas probables que están más cerca de la estructura nativa, se debe seleccionar el modelo terciario de alta calidad con pliegues precisos. Se incluye una estrategia confiable, una verificación estereoquímica y el descubrimiento de cómo el modelo se desvía de las disciplinas básicas de estructuras experimentales conocidas. [8]

Para tratar un gran número de conformaciones archivadas, se suele emplear un método jerárquico para modelar la valoración. Para clasificar todos los modelos originales, el método utiliza funciones de puntuación simplificadas y fáciles de evaluar. Con esta estrategia, se puede seleccionar un subconjunto para una evaluación más detallada computacionalmente. Una función de puntuación que se utiliza habitualmente es Verify3D. [41], [42] Verify3D evalúa los segmentos del modelo basándose en qué tan bien el ambiente de los residuos en esos segmentos se correlaciona con sus propensiones detectadas a estar en ese ambiente. [43]

Hay varias alternativas de funciones de puntuación basadas en estadísticas. [47], [48] Se pueden emplear estimaciones detalladas de la estabilidad conformacional de todos los átomos utilizando campos de fuerza de la mecánica molecular del tipo aplicado en las simulaciones de dinámica molecular. [49]

Estos enfoques han registrado éxitos impresionantes en su capacidad para plegar fragmentos de proteínas a partir de conformaciones desplegadas, [50], [51] sus aplicaciones al problema & # 8220decoy & # 8221 y su capacidad para elegir la estructura de rayos X determinada experimentalmente entre un gran número de conformaciones variantes de la misma cadena polipeptídica. [52]

Al predecir una conformación nativa a partir de un conjunto de señuelos, existen desafíos importantes que incluyen el muestreo y la evaluación de suficientes conformaciones. Este no es un desafío nuevo y no será fácil de resolver. [49] De hecho, los investigadores creen que los enfoques de dinámica molecular se pueden emplear para lograr este objetivo. Dichos métodos pueden plegar fragmentos de proteínas de estados desordenados y dar un modelo inexacto que está relativamente cerca de la estructura nativa. Luego, el modelo se refina a una conformación cercana a la conformación nativa. [53] Sin embargo, este objetivo aún no se ha logrado. Otra solución necesita una combinación de métodos de alineación mejorados, encontrar plantillas estructurales para cada región problemática de una estructura y usar las funciones de puntuación y los procedimientos de muestreo mejorados. [1], [52]


Resultados y discusión

QMEAN: funciones de puntuación compuesta para la evaluación de modelos individuales

Recientemente describimos la función de puntuación compuesta QMEAN que consiste en una combinación lineal de cinco términos que incluyen 3 potenciales estadísticos [33]. Se ha demostrado que la combinación de información ampliamente ortogonal mejora la selección del modelo. La función de puntuación compuesta QMEAN incluye un potencial de ángulo de torsión sobre tres aminoácidos consecutivos para el análisis de la geometría local de un modelo, un potencial de solvatación que describe el estado de enterramiento de los residuos y un potencial de interacción dependiente de la distancia basado en átomos de Cβ para la evaluación. interacciones de largo alcance. También se incluyen dos términos que describen la concordancia de la estructura secundaria predicha y calculada y la accesibilidad al disolvente. En este trabajo, la función de puntuación compuesta QMEAN se ha ampliado mediante un término de potencial de interacción dependiente de la distancia de todos los átomos para capturar más detalles estructurales. En la Tabla 1 se puede encontrar una breve descripción de todas las versiones de QMEAN y los términos utilizados en su cálculo.

La primera sección de la Tabla 2 muestra el rendimiento promedio de destino de diferentes versiones de QMEAN en el conjunto de datos CASP7 que consta de todos los modelos de servidor enviados para 98 destinos. Las otras secciones muestran el desempeño de varias implementaciones de QMEANclust y selfQMEAN que, a diferencia de QMEAN, tienen en cuenta la información de consenso. Los factores de ponderación para las diferentes funciones de puntuación compuesta se optimizan en el conjunto de entrenamiento CASP6.

Para cada versión de QMEAN, también se da el desempeño de una implementación alternativa que penaliza los modelos incompletos al multiplicar la puntuación por la fracción de residuos modelados. Teniendo en cuenta la cobertura de los modelos con respecto a la secuencia objetivo mejora considerablemente la correlación con la puntuación GDT_TS [46] al penalizar los modelos incompletos con una buena estereoquímica por lo demás. Este aumento del rendimiento en la estimación de la calidad relativa del modelo se puede atribuir al hecho de que la puntuación GDT_TS, utilizada tradicionalmente en la evaluación de CASP, depende por definición de la completitud del modelo. La Tabla 2 subraya que se puede obtener un gran aumento en el rendimiento al incluir la estructura secundaria predicha y los términos del acuerdo de accesibilidad al solvente como se mostró anteriormente (QMEAN3 frente a QMEAN5 y QMEAN4 frente a QMEAN6). La integración de un término de todos los átomos (QMEAN5 frente a QMEAN6 en la Tabla 2) mejora aún más la correlación entre la calidad predicha del modelo y su similitud con la estructura nativa. Más importante aún, el término de todos los átomos aumenta la capacidad de la función de puntuación para seleccionar buenos modelos. Esto se refleja en la puntuación total GDT_TS significativamente más alta (valor p = 0,03 en una prueba t pareada) de los mejores modelos seleccionados por QMEAN6 de 56,70 en comparación con 55,32 para QMEAN5.

A modo de comparación, el rendimiento de los mejores métodos de la categoría de evaluación de la calidad de CASP7 se muestra en la Tabla 3 junto con el GDT_TS máximo del servidor de mejor rendimiento. es decir. una función de puntuación que siempre selecciona los modelos del servidor Zhang [43, 47]. Para obtener una descripción de los otros métodos, visite el sitio web de CASP7 http://predictioncenter.org/casp7/. Los valores de GDT_TS, así como los datos de los otros métodos, se basan en los datos de evaluación de la calidad de CASP7 y los datos de TASSER-QA han sido amablemente proporcionados por los autores [35].

En la Figura 1 se muestra un análisis estadístico de los resultados anteriores. A partir de que las funciones de puntuación pueden devolver una puntuación para un solo modelo, QMEAN6 muestra el mejor coeficiente de correlación (tanto de Pearson como de Spearman) sobre todos los métodos que participan en CASP7 (Tabla 3, primera sección). La diferencia es estadísticamente significativa al nivel de confianza del 95% según una prueba t pareada. QMEAN también muestra el mejor desempeño en la selección de buenos modelos para cada objetivo, como se refleja en los valores totales más altos de GDT_TS seguidos por ABIpro y Circle-QA, pero en este caso la diferencia no es estadísticamente significativa.Las funciones de puntuación que tienen en cuenta la información de densidad estructural como selfQMEAN y QMEANclust producen coeficientes de correlación considerablemente más altos y puntuaciones totales de GDT_TS (ver más abajo).

Análisis de la significación estadística basado en una prueba t pareada unilateral (nivel de confianza del 95%). Verde: el método indicado en la horizontal funciona significativamente mejor. Rojo: el método indicado en la horizontal funciona significativamente peor. a) Coeficiente de correlación de Pearson, b) Coeficiente de correlación de rango de Spearman, c) Valores de GDT_TS de los modelos seleccionados por una función de puntuación.

Se puede lograr una mejora adicional mediante el uso de versiones QMEAN más especializadas para diferentes situaciones de modelado, como QMEAN con término de todos los átomos para objetivos basados ​​en plantillas y sin los objetivos de modelado gratuitos. Los primeros resultados sugieren que el efecto general es solo marginal y que la versión QMEAN que incluye el término de todos los átomos conduce a un mejor rendimiento en todo el rango de dificultad. El uso de una función de puntuación para todas las situaciones de modelado no es ideal, como destacaron recientemente los colaboradores de Kihara [48]. Demostraron que para una función de puntuación de subprocesamiento que consta de dos términos, diferentes combinaciones de factores de ponderación son óptimas para diferentes familias de proteínas. Por lo tanto, el entrenamiento de factores de ponderación específicamente para proteínas de tamaño similar y composición de aminoácidos o estructura secundaria puede mejorar el rendimiento, especialmente en la predicción de valores absolutos de la calidad del modelo [49]. La optimización de los factores de ponderación en funciones de puntuación compuestas basadas en una combinación lineal de términos se complica por el hecho de que los diferentes términos dependen del tamaño de la proteína que influye en la capacidad de la función de puntuación combinada para predecir la calidad absoluta.

QMEANclust: incluida la densidad estructural del conjunto del modelo

En esta sección describimos un nuevo método, denominado QMEANclust, que combina la función de puntuación QMEAN con información de densidad estructural derivada del conjunto de modelos. En la implementación sencilla de métodos basados ​​en información de densidad estructural, la puntuación para un modelo dado se calcula como su distancia promedio (o mediana) a todos los demás modelos del conjunto. Se utilizan diferentes medidas de similitud para construir la matriz de distancias: p.ej. MaxSub [50] en 3Djury [11], LGscore [51] en Pcons [12] y TMscore [52] en el método de consenso descrito en MODfold [53]. En este trabajo, se utiliza la puntuación GDT_TS [46], una medida de similitud bien establecida en la evaluación CASP. En todas las implementaciones mencionadas anteriormente, los modelos individuales se ponderan por igual en el cálculo de la puntuación final, sin importar qué tan bueno o malo sea un modelo. En 3Djury, solo se consideran en el cálculo los pares de modelos por encima de una cierta distancia de corte.

Los métodos de agrupamiento tienden a fallar cuando los modelos superiores están lejos del grupo estructural más prominente o cuando no hay redundancia estructural presente en el conjunto que se pueda capturar. Especialmente para objetivos de modelado difíciles y sin plantillas, los mejores modelos no suelen ser las conformaciones más frecuentes en el conjunto (al menos no en los conjuntos de señuelos CASP). Para hacer frente a las limitaciones de los enfoques actuales de agrupamiento, investigamos dos estrategias para la combinación de la función de puntuación compuesta QMEAN y la información de densidad estructural del conjunto. En el primer enfoque, QMEAN se utiliza para seleccionar un subconjunto de modelos de mayor calidad contra los cuales se realizan los cálculos de distancia posteriores. La puntuación final para un modelo dado se define como la distancia media de este modelo a todos los modelos en el subconjunto (estrategia denotada como mediana en la Tabla 2). También se investiga una implementación basada en la media en lugar de la mediana GDT_TS. En el segundo enfoque, los modelos se ponderan de acuerdo con su puntuación QMEAN (denotado media ponderada) Para derivar la matriz de distancias, la distancia de un modelo dado a modelos más confiables (es decir. a los modelos que tienen mejores puntuaciones QMEAN) se pondera más fuerte, lo que a su vez reduce la influencia de los modelos aleatorios en el cálculo.

Se han investigado diferentes estrategias y puntos de corte para la selección de modelos. En la Tabla 2 se puede encontrar un punto de referencia de varias implementaciones alternativas en el conjunto de prueba CASP7. En comparación con el desempeño de QMEAN, se obtienen coeficientes de correlación considerablemente más altos para todas las versiones de QMEANclust (r = 0.752 vs. r = 0.892).

Si se utiliza todo el conjunto de modelos en la derivación de la matriz de distancia (sin preselección), la media ponderada funciona de manera comparable o mejor que tomar la media o la mediana en términos de correlación entre la calidad del modelo predicha y observada y la capacidad de identificar buenos modelos. Si solo se utiliza un subconjunto de modelos de alta calidad en el cálculo de la matriz de distancia, una puntuación basada en la mediana de la distancia produjo los mejores resultados y se utiliza en la versión final. Se han investigado tres enfoques diferentes para seleccionar un subconjunto de modelos basados ​​en QMEAN: (1) selección basada en las puntuaciones Z que se calculan restando de cada modelo la puntuación media de QMEAN del conjunto y dividiéndola por su desviación estándar , (2) selección de un cierto porcentaje de modelos de alto rango, así como (3) una estrategia en la que solo se utilizan modelos con una puntuación QMEAN similar al modelo de alto rango para hacer frente a predicciones cualitativamente sobresalientes.

Una combinación de la preselección de modelos basados ​​en QMEAN y la ponderación de las distancias de acuerdo con QMEAN en los cálculos de agrupamiento subsiguientes no es útil como se muestra para la selección basada en puntajes Z. Los puntajes Z se han calculado basándose en el puntaje QMEAN del modelo y solo los modelos por encima de un umbral de puntaje Z dado se utilizan para el proceso de agrupamiento. La Tabla 2 muestra que, al aumentar el umbral de puntuación Z (es decir. se utilizan menos modelos del conjunto en los cálculos de distancia), la capacidad del media ponderada estrategia para seleccionar buenos modelos disminuye gradualmente, mientras que el rendimiento de la mediana la estrategia aumenta (hasta Z-score & gt 0). El uso de la mediana en lugar de la media reduce la influencia de valores atípicos en conjuntos de datos más pequeños. Para las otras dos estrategias de selección, solo mediana se muestra, es decir. la puntuación final QMEANclust de un modelo es la distancia media de este modelo a todos los demás modelos en el subconjunto seleccionado por la estrategia dada.

La selección de modelos basada en puntajes Z tiene varias desventajas: el número de modelos seleccionados usando un punto de corte de puntaje Z dado depende en gran medida de la dificultad del modelado. Para un objetivo de modelado sencillo basado en plantillas, los modelos del conjunto tienden a ser muy similares y no hay modelos con puntuaciones Z altas (p.ej. para algunos objetivos no hay modelos con una puntuación Z superior a 1). Por otro lado, para los objetivos de modelado gratuitos, a veces hay predicciones sobresalientes en comparación con la mayor parte de los modelos más o menos aleatorios. Capturar estas predicciones en el paso de selección es la única forma de sortear las limitaciones inherentes de los métodos basados ​​en consenso. Además, es posible que se necesiten diferentes límites de selección para los objetivos de modelado basados ​​en plantillas (TBM) y los objetivos de modelado libre (FM), ya que los primeros contienen mucha más redundancia estructural que se puede capturar mediante métodos de agrupación y se pueden utilizar potencialmente más objetivos en el cálculo. de la matriz de distancias.

En la cuarta sección de la Tabla 2, se muestran los resultados de una estrategia de selección basada en un porcentaje fijo de modelos de máxima puntuación. Se logra un GDT_TS total de 57,97 utilizando los mejores modelos del 20% para los objetivos de TBM y el 10% superior para los objetivos de FM. La discriminación entre los objetivos TBM y FM se realiza en función de la puntuación QMEAN media mediante la asignación de objetivos con una puntuación QMEAN promediada por el modelo superior a 0,4 a la categoría de modelado basado en plantillas. Este límite se ha obtenido empíricamente comparando las distribuciones de puntuación de los objetivos de FM y TBM (datos no mostrados). El mejor rendimiento del enfoque, que utiliza una selección de modelo más tolerante para los objetivos de TBM, puede atribuirse al hecho de que el conjunto de modelos de objetivos de TBM contiene información de consenso más útil. En el caso de los objetivos de FM, QMEAN a menudo puede identificar algunos de los mejores modelos que se utilizan posteriormente en el cálculo del consenso.

Alternativamente, se ha investigado una estrategia de selección simple con el objetivo de capturar predicciones sobresalientes (quinta sección de la Tabla 2). Solo los modelos con una puntuación QMEAN similar en comparación con el modelo de puntuación más alta se consideran para el cálculo de la distancia. Una selección de modelos dentro de 0.05 unidades QMEAN del máximo para blancos TBM y 0.1 unidades para blancos FM da como resultado un GDT_TS total de 58.11. Dado que los modelos de TBM son estructuralmente más homogéneos, se seleccionan más modelos en los objetivos de TBM que en los objetivos de FM utilizando estos umbrales. Para la posterior comparación con otros métodos, se utilizan las mejores versiones de QMEAN, QMEANclust y selfQMEAN (ver más abajo). Los valores correspondientes están subrayados en la Tabla 2.

En CASP7, ninguno de los programas de evaluación de la calidad (métodos de agrupación y no agrupación) pudo seleccionar mejores modelos del conjunto de modelos de servidor que el servidor Zhang [54] presentado para cada objetivo [35, 41, 44]. La mejor implementación de QMEANclust muestra un mejor rendimiento en la selección de modelos que TASSER-QA [35] y una función de puntuación ingenua que simplemente toma los modelos de servidor de Zhang (GDT_TS total de 58,11 frente a 57,35). La diferencia es estadísticamente significativa al nivel de confianza del 95% según una prueba t pareada. La Figura 1 subraya que QMEANclust y la función de puntuación de modelo único QMEAN muestran un rendimiento de selección estadísticamente mejor (p = 1,9 * 10 -5 yp = 0,009, respectivamente) que Pcons, el método basado en conglomerados con mejor rendimiento en CASP7. En términos de correlación entre la calidad del modelo predicha y el grado de natividad, QMEANclust tiene coeficientes de correlación de Pearson significativamente más altos (0,892 frente a 0,828 de TASSER-QA) y de Spearman (0,841 frente a 0,785) que TASSER-QA y cualquier otra función de puntuación probada.

Aunque la capacidad de QMEANclust para elegir el mejor modelo es mejor que un predictor ingenuo que simplemente elige modelos de Zhang, todavía se puede mejorar potencialmente. Los factores de ponderación para la función de puntuación QMEAN utilizada para la priorización del modelo se han optimizado para la regresión y no para seleccionar el mejor modelo. Qui et al. [34] describió recientemente un enfoque en el que se ha optimizado una función de puntuación compuesta para la selección de modelos utilizando máquinas de vectores de soporte. La mayoría de las funciones de puntuación actuales ignoran un parámetro trivial para la estimación de la calidad del modelo: la presencia y cercanía de una plantilla estructural que se puede utilizar para construir el modelo [55]. Zhou y Skolnick [35] describieron recientemente una función de puntuación en la que la medida en que un modelo está cubierto por fragmentos de plantillas identificadas mediante subprocesos se utiliza como medida de calidad. QMEAN podría beneficiarse de un término que represente información ortogonal a la implementación actual.

SelfQMEAN: uso de términos estadísticos potenciales derivados del conjunto de modelos

La idea de utilizar el conjunto de modelos para un objetivo dado como base para derivar términos potenciales estadísticos específicos del objetivo se ha investigado previamente [14]. En su trabajo, Wang et al. generó una implementación dependiente del señuelo del potencial de interacción RAPDF [56] derivando las frecuencias de distancia de los modelos en el conjunto de señuelos y ponderando cada recuento de acuerdo con la puntuación RAPDF del modelo. Este potencial estadístico dependiente del señuelo funcionó mejor que la función de puntuación RAPDF original, pero no tan bueno como una puntuación de densidad simple basada en el RMSD promedio de un modelo para todos los demás. Aquí seguimos una estrategia similar con la diferencia de que se utiliza una función de puntuación combinada que utiliza múltiples potenciales estadísticos y que se utiliza una función de puntuación de densidad mejorada (QMEANclust) para ponderar los modelos que contribuyen a la puntuación selfQMEAN (ver Métodos). Como puede verse en la Tabla 2, mientras que selfQMEAN genera coeficientes de correlación considerablemente más altos que QMEAN, la capacidad para seleccionar buenos modelos no mejora. La función de puntuación dependiente del señuelo no funciona mejor que QMEANclust, que se basa únicamente en información de densidad estructural. La creación de una función de puntuación compuesta basada en potenciales específicos del objetivo es problemática ya que los factores de ponderación dependen en gran medida de la dificultad del modelado: conjuntos que contienen muchos modelos muy similares, p.ej. en modelos basados ​​en plantillas de alta precisión, dan como resultado energías absolutas mucho más bajas en términos de potencial estadístico que conjuntos de modelos diversos. Intentamos eludir el problema simplemente sumando las puntuaciones Z de energía de cada término. Estos resultados sugieren que el nivel de detalle capturado por las funciones de puntuación específicas del objetivo disminuye en comparación con la derivación directa de diferencias estructurales basadas en métodos de consenso. La información de densidad estructural parece capturarse con mayor precisión cuando se deriva directamente de las matrices de distancia sin hacer el desvío utilizando potenciales estadísticos específicos del conjunto del modelo. Estos métodos tampoco son capaces de superar las limitaciones de los métodos puramente basados ​​en consenso que están determinados por el grupo estructural más dominado.

Comparación de QMEANclust con el método de consenso tipo 3Djury

En esta sección abordamos la cuestión de si QMEANclust y su estrategia de seleccionar un subconjunto de modelos de alta calidad para el cálculo de la densidad estructural es realmente superior a los métodos de consenso puro y si el nuevo método es capaz de identificar buenos modelos incluso si están lejos. lejos del grupo estructural más dominante. Para la comparación utilizamos una implementación de jurado 3D como [11] basada en GDT_TS (es decir. la puntuación de un modelo es simplemente su significar GDT_TS a todos los demás modelos de un objetivo determinado). Como puede verse en la Tabla 2, este enfoque logra un GDT_TS total de 57,16 en comparación con 58,11 de QMEANclust. Una inspección más cercana de las diferencias de rendimiento en los 98 objetivos CASP7 revela que QMEANclust en muchos casos puede eludir las limitaciones inherentes del jurado 3D. La tabla en el lado izquierdo de la Figura 2 enumera todos los objetivos donde la selección del modelo basada en QMEANclust es al menos 0.05 unidades GDT_TS mejor (17 objetivos) o peor (6 objetivos) que el basado en el jurado 3D. Los resultados de tres objetivos se muestran con más detalle en la Figura 2. Se muestran dos ejemplos (T0358, T0338) en los que la preselección de modelos basados ​​en QMEAN (área discontinua en las parcelas en la primera columna) resultó en una mejor selección del modelo por QMEANclust en comparación con el jurado 3D. Los resultados son especialmente pronunciados en el caso del objetivo T0308. Los modelos de este objetivo parecen basarse en dos categorías de plantillas y la mayoría de los grupos parece haber utilizado la menos apropiada. El área discontinua que contiene todos los modelos dentro de una puntuación QMEAN de 0.05 unidades del modelo mejor clasificado captura la gran mayoría de los modelos del grupo de mayor calidad y solo una fracción del grupo estructural dominante. El paso de preselección da como resultado una clasificación QMEANclust que no está dominada por los modelos del segundo grupo en contraposición a la clasificación del jurado en 3D. Los coeficientes de correlación son 0.923 para QMEAN, 0.931 para el enfoque tipo jurado 3D y 0.997 para QMEANclust.

Comparación de QMEAN, un enfoque tipo jurado 3d y QMEANclust en 3 objetivos CASP7 seleccionados. La tabla muestra la diferencia GDT_TS entre el mejor modelo seleccionado por QMEANclust y el enfoque del jurado 3D. Las correlaciones entre la puntuación prevista y el GDT_TS de tres objetivos se muestran para QMEAN, 3D-jury y QMEANclust (de izquierda a derecha). Las áreas punteadas marcan los modelos seleccionados por QMEAN como base para QMEANclust. La flecha a la derecha de cada gráfico indica el mejor modelo seleccionado.

Targets T0354 representa un ejemplo en el que QMEANclust no pudo mejorar sobre un enfoque basado puramente en clústeres. Esto se puede atribuir a las inconsistencias en la clasificación QMEAN en la que un conjunto de modelos similares pero muy deficientes se clasificaron demasiado alto. Para este objetivo, QMEAN habría obtenido la mejor selección de modelo (como indica la flecha de la derecha).

Equipo de prueba MOULDER: rendimiento en una situación de modelado realista

Como la función de puntuación QMEAN se ha optimizado en los modelos CASP6 y se ha probado en los modelos CASP7, se podría plantear el argumento de que tiende a estar sobreentrenado para esta situación especial y también para la puntuación GDT_TS que se utiliza allí. Por lo tanto, analizamos el rendimiento de QMEAN en el conjunto de pruebas de MOULDER, que representa una situación de modelado más realista. El equipo de prueba de MOULDER consta de 20 objetivos diferentes, cada uno con 300 modelos alternativos generados por MODELLER [57].

La Tabla 4 muestra una comparación entre QMEAN y sus componentes y varias funciones de puntuación bien establecidas recientemente evaluadas por Eramian. et al. [32]. La diferencia de RMSD (en Ångstrom) entre el mejor modelo del conjunto y el seleccionado por la función de puntuación se obtiene como promedio sobre todos los objetivos. Como en el artículo original, para cada objetivo, los cálculos se repiten 2000 veces con un subconjunto aleatorio (25%) de modelos para aumentar la robustez de las estadísticas. Se puede encontrar una descripción de los términos que no se explican aquí en el artículo de Eramian et al. Investigaron un total de 40 términos y construyeron una función de puntuación compuesta que combinaba los 10 términos de mejor rendimiento utilizando máquinas de vectores de soporte. (SVM_SCORE). La Tabla 4 destaca la fuerza de QMEAN (especialmente QMEAN6, incluido el término de todos los átomos) en la selección del modelo. Aunque no se ha utilizado ningún algoritmo de aprendizaje automático para combinar los términos, QMEAN funciona mejor que el enfoque SVM. Esto puede atribuirse, al menos en parte, al potencial de interacción dependiente de la distancia de todos los átomos específico de la estructura secundaria. El uso de una versión específica de estructura secundaria en comparación con la implementación estándar conduce a resultados consistentemente mejores en el conjunto de prueba CASP6 y CASP7, así como en el conjunto MOULDER (datos no mostrados). En el conjunto de datos de MOULDER, el término de todos los átomos de QMEAN funciona mejor que las funciones de puntuación DFIRE y DOPE bien establecidas, así como la puntuación ROSETTA. El término potencial de ángulo de torsión implementado en QMEAN muestra un desempeño muy pobre en este equipo de prueba. La distribución del ángulo de torsión en las estructuras del señuelo es posiblemente demasiado similar para ser útil para la discriminación de modelos basada en el potencial de ángulo de torsión de grano muy grueso sobre tres residuos. Pero se ha demostrado que este término es muy útil en otros conjuntos de pruebas y especialmente en la tarea de reconocer la estructura nativa [33].

El rendimiento de QMEANclust en el equipo de prueba de MOULDER depende en gran medida de la composición y la calidad del juego de señuelos, como se desprende de los datos de la Tabla 5. Los datos se ordenan aumentando la mediana de RMSD de los 20 juegos de señuelos y no se ha vuelto a muestrear. aplicado de manera que se utilice el conjunto completo de 300 modelos por objetivo. El rendimiento de QMEANclust disminuye al aumentar la diversidad del conjunto de señuelos, lo que también se refleja en el número de modelos casi nativos del conjunto. QMEANclust muestra un rendimiento de selección de modelo considerablemente peor en comparación con QMEAN en los conjuntos de señuelos en la parte inferior de la tabla. En los 8 conjuntos de señuelos con menos de 50 modelos casi nativos (es decir. modelos por debajo de 5 Å), la diferencia es estadísticamente significativa en una prueba t pareada (valor de p 0,05). Estos conjuntos de modelos no parecen contener información útil sobre la densidad estructural que pudiera capturarse, ya que solo unos pocos modelos tienen un RMSD por debajo de 5 Å. En todo el conjunto de pruebas de MOULDER, la función de puntuación QMEAN alcanza un ΔRMSD promedio de 0,57 Å en comparación con 1,15 Å de QMEANclust. En general, la función de puntuación de modelo único QMEAN selecciona para 4 objetivos el mejor modelo disponible en el conjunto y para 17 objetivos un modelo que se desvía menos de 1 Å. Por otro lado, QMEANclust funciona igualmente bien en conjuntos de señuelos poblados con una alta fracción de modelos casi nativos. El ΔRMSD promedio sobre los 12 objetivos que contienen al menos 50 modelos casi nativos de QMEAN es de 0,58 Å en comparación con 0,46 Å para el método de consenso QMEANclust. La diferencia de rendimiento no es estadísticamente significativa (valor de p de 0,55 en una prueba t pareada). Aunque los resultados se han obtenido en un pequeño conjunto de pruebas de solo 20 objetivos, subrayan el hecho de que el desempeño de las funciones de puntuación de consenso depende en gran medida de la composición del conjunto de modelos que se analizará.

QMEANlocal: estimación de la calidad local

La información de densidad estructural no solo se puede utilizar a nivel mundial comparando modelos completos, sino también a nivel de residuos mediante el análisis de la diversidad estructural local entre los modelos [44]. Es muy poco probable que una región modelada completamente diferente en un modelo en comparación con la mayoría de los demás sea correcta. La Tabla 6 muestra una comparación de los enfoques de agrupamiento y no agrupamiento con respecto a la estimación de la calidad local en el conjunto de pruebas CASP7.

Las predicciones por residuo basadas en QMEAN, QMEANclust y selfQMEAN se comparan con la función de puntuación ProQres publicada recientemente (método sin consenso). En ProQres se utiliza una red neuronal para combinar varios descriptores locales [17]. Recientemente, Fasnacht et al. [39] publicó una función de puntuación compuesta local basada en diferentes términos combinados por máquinas de vectores de soporte que dan como resultado un rendimiento ligeramente mejor. Se ha demostrado que el enfoque SVM, así como ProQres, superan las funciones de puntuación clásicas como Verify3D [21] y ProsaII [58]. Por lo tanto, no es necesaria una comparación directa con estos métodos y un punto de referencia riguroso con otros métodos locales de estimación de la calidad está más allá del alcance de este trabajo. Más bien, las diferencias generales de rendimiento de los métodos de no agrupación, agrupación y "autoagrupación" deben destacarse y discutirse aquí.

La función de puntuación compuesta QMEANlocal descrita aquí consiste en una combinación lineal de 8 descriptores estructurales. Las puntuaciones locales se calculan sobre una ventana deslizante de 9 residuos que dio como resultado el mejor rendimiento en comparación con los tamaños de ventana alternativos (datos no mostrados). En analogía con la versión global QMEAN, 4 términos potenciales estadísticos se combinan con 2 términos que describen el acuerdo local entre la estructura secundaria predicha y medida y la accesibilidad al disolvente. Además, se utilizan dos descriptores triviales: la accesibilidad promedio del solvente y la fracción de residuos en el segmento sin estructura secundaria definida. Los factores de ponderación se han optimizado en los modelos enviados a CASP6 con la distancia Cα como función objetivo (consulte Métodos para obtener más detalles).

QMEANlocal estima la calidad local utilizando solo el modelo, mientras que los dos enfoques siguientes consideran el conjunto de modelos. Investigamos dos enfoques diferentes para la estimación de la calidad local basándose en la información de densidad estructural contenida en el conjunto de modelos (QMEANclust_local, selfQMEANlocal).

En el enfoque de consenso local, se analizan las desviaciones de Cα entre las posiciones equivalentes en los modelos después de una superposición dependiente de la secuencia con el programa TMscore [52] para obtener una puntuación de calidad. De manera análoga a la puntuación global QMEANclust, se utiliza un subconjunto de todos los modelos en el cálculo de la distancia y se recupera la distancia media, o se calcula una distancia media ponderada de acuerdo con la puntuación de calidad del modelo global. De esta manera, los segmentos de modelos más confiables tienen una mayor influencia en la puntuación local prevista. La clasificación del modelo basada en QMEANclust se utiliza para la selección y ponderación del modelo. También se ha investigado una ponderación según QMEAN, pero dio como resultado un peor rendimiento (datos no mostrados). Los términos de potencial estadístico en selfQMEANlocal se entrenan en los mejores modelos de clasificación del conjunto. Los términos restantes son idénticos a los de QMEANlocal y los factores de ponderación se obtienen utilizando el conjunto de datos CASP6.

La Tabla 6 muestra la evaluación de las funciones de puntuación local utilizando una variedad de medidas de calidad que cubren diferentes aspectos del desempeño. La precisión local de un modelo se describe como la distancia Cα entre los residuos equivalentes después de la superposición del modelo y su estructura nativa con TMscore. Para cada uno de los 98 destinos CASP7, se agrupan todos los residuos de todos los modelos de servidor. Los coeficientes de correlación de Pearson promediados por el objetivo de las funciones de puntuación de consenso local son considerablemente más altos que para los otros métodos que casi no muestran correlación lineal. No obstante, la función de puntuación del modelo único QMEANlocal muestra una fuerte tendencia a discriminar entre las posiciones en los modelos que se desvían con respecto a la estructura nativa de las posiciones no desviadas, como se refleja en el alto promedio del área bajo la curva en el análisis ROC. Se han realizado dos tipos de análisis ROC, uno basado en todos los residuos de todos los modelos por objetivo (área media bajo la curva denotada como ROCpromedio en la Tabla 6) y el otro con todos los modelos de todos los objetivos agrupados (indicados como ROCtodos). Las curvas ROC del último enfoque (sobre los 98 objetivos) se muestran en la Figura 3. El mejor desempeño en la estimación de la calidad del modelo local se logra mediante el método de agrupamiento QMEANclust_local. Las dos estrategias para calcular el consenso estructural local basado en la mediana o la distancia media ponderada de Cα entre los modelos dan como resultado curvas bastante similares. Los potenciales estadísticos específicos de destino utilizados en selfQMEANlocal funcionan considerablemente mejor que la implementación estándar de QMEANlocal, pero no alcanzan el poder de discriminación de los métodos de consenso. En analogía con la implementación global de selfQMEAN, el uso de potenciales estadísticos específicos del objetivo en la versión local no conduce a un rendimiento mejorado en comparación con la agrupación en clústeres solo. Sobre todas las medidas de calidad, QMEANlocal muestra un rendimiento considerablemente mejor que ProQres.

Curvas de características del operador del receptor (ROC) para las diferentes versiones locales de QMEAN y ProQres. Se ha utilizado un límite de distancia Cα de 2,5 Å. Se han probado dos enfoques alternativos de QMEANclust que combinan las distancias Cα locales utilizando la mediana o la media ponderada.

Las dos últimas columnas de la Tabla 6 muestran un análisis de los residuos de 10% de puntuación más baja y más alta por objetivo de acuerdo con la puntuación de calidad correspondiente. QMEANlocal muestra el mejor rendimiento en el reconocimiento de regiones confiables, como se refleja en la mejor distancia media de Cα de los residuos de 10% de puntuación más baja. Como es el caso de posiblemente cualquier otra función de puntuación que analice modelos individuales (es decir. basado en términos de potencial estadístico), QMEANlocal no es capaz de distinguir regiones con una desviación alta y muy alta de las nativas. Si el conjunto del modelo contiene redundancia estructural que puede ser capturada por métodos basados ​​en consenso, la versión local de QMEANclust es muy efectiva para identificar regiones en modelos que se desvían del consenso estructural y regiones que son potencialmente correctas. Para el modelado basado en plantillas, se observaron coeficientes de correlación entre la desviación local pronosticada y calculada de la nativa de hasta 0,95 sobre los residuos del conjunto de modelos de algunos objetivos CASP7. Para el análisis de modelos individuales o en el caso de que el conjunto no contenga información de densidad útil, se pueden utilizar funciones de puntuación compuesta como QMEANlocal. Dependiendo de la situación del modelado, se puede utilizar uno u otro enfoque para identificar regiones incorrectas en el modelo que pueden someterse a un remuestreo conformacional local en un protocolo de refinamiento del modelo.

Todas las medidas de calidad descritas hasta ahora se basan en el conjunto completo de residuos de todos los modelos por objetivo (o sobre todos los objetivos para ROCtodos) y describa la concordancia general de la calidad del modelo local predicha y medida. No analizan explícitamente si un método es capaz de estimar la confiabilidad de diferentes regiones. dentro de un modelo. Por lo tanto, también analizamos para cada modelo el grado de correspondencia entre la desviación local predicha y observada utilizando el coeficiente de correlación de rango tau de Kendall. La Tabla 4 informa la tau de Kendall promediada sobre todos los modelos por objetivo. El rendimiento de selfQMEANlocal se encuentra entre los métodos de agrupación y no agrupación.

Un análisis de la curva ROC de los términos que contribuyen a QMEANlocal sugiere que el rendimiento se basa en gran medida en argumentos triviales como la accesibilidad a los disolventes y la composición de la estructura secundaria (datos no mostrados). Se utilizan dos términos análogos tanto en ProQres como en el enfoque SVM de Fasnacht et al. Por lo tanto, las diferencias de rendimiento pueden explicarse en parte por la mejora de los términos potenciales estadísticos. La versión QMEANlocal presentada en este trabajo es solo un punto de partida y se necesita un enfoque más elaborado para combinar los términos p.ej. SVM o redes neuronales. Sin embargo, la combinación lineal de términos utilizados en QMEANlocal funciona considerablemente mejor que ProQres basado en redes neuronales.


¿Cuántos residuos puede contener un modelo estructural ab initio confiable? - biología

a Biología Estructural, Instituto de Biología Molecular de Barcelona, ​​Baldiri Reixac 15, Barcelona, ​​08028, España, y B Biología Estructural, ICREA en IBMB-CSIC, Baldiri Reixac 13-15, Barcelona, ​​08028, España
* Correo electrónico de correspondencia: [email protected]

Ab initio La fase de las estructuras macromoleculares, a partir de las intensidades nativas solo sin información de fase experimental o conocimiento estructural particular previo, ha sido objeto de una larga búsqueda, limitada por dos barreras principales: el tamaño de la estructura y la resolución de los datos. Enfoques actuales para ampliar el alcance de ab initio las fases incluyen el uso de la función de Patterson, la modificación de la densidad y la extrapolación de datos. El enfoque de los autores se basa en la combinación de la localización de fragmentos de modelo como polialanina y # 945 -helices con el programa PHASER y modificación de densidad con el programa SHELXE . Dadas las dificultades para discriminar pequeñas subestructuras correctas, muchos grupos putativos de fragmentos deben probarse en paralelo, por lo que los cálculos se realizan en una cuadrícula o supercomputadora. El método lleva el nombre del pintor italiano Arcimboldo, que solía componer retratos a partir de frutas y verduras. Con ARCIMBOLDO , la mayoría de las colecciones de fragmentos siguen siendo una "naturaleza muerta", pero algunas son lo suficientemente correctas para que la modificación de la densidad y el rastreo de la cadena principal revelen el verdadero retrato de la proteína. Más allá de las hélices & # 945, se pueden explotar otros fragmentos de una manera análoga: bibliotecas de hélices con cadenas laterales modeladas, hebras & # 946, fragmentos predecibles como pliegues de unión al ADN o fragmentos seleccionados de homólogos distantes hasta bibliotecas de pequeñas pliegues locales que se utilizan para reforzar la estructura terciaria inespecífica restaurando así la ab initio naturaleza del método. Usando estos métodos, se han resuelto una serie de macromoléculas desconocidas con algunos miles de átomos y resoluciones alrededor de 2 & # 8197 & # 197. En la versión de 2014, se simplificó el uso del programa. El software media el uso de computación masiva para automatizar el acceso a la red requerido en casos difíciles, pero también puede ejecutarse en una sola estación de trabajo multinúcleo (http://chango.ibmb.csic.es/ARCIMBOLDO_LITE) para resolver casos sencillos.

1. Introducción

Han pasado cien años desde que Max von Laue fuera galardonado con el Premio Nobel de Física por su descubrimiento de la difracción de rayos X por cristales (Friedrich et al. , 1912 von Laue, 1912). Desde ese descubrimiento, la cristalografía se ha convertido en una herramienta esencial de investigación en todas las ciencias, ya que proporciona información sobre la estructura molecular hasta el nivel atómico con un grado de detalle y precisión que no supera ninguna otra técnica estructural. La difracción de rayos X fue utilizada por primera vez por los Bragg para determinar la estructura tridimensional de los cristales (Bragg & # 38 Bragg, 1913). En un experimento de difracción, solo se registran las intensidades de los haces de rayos X difractados, mientras que sus fases no. Sin embargo, se requieren fases para calcular un mapa de densidad de electrones a partir del cual se puede derivar un modelo atómico. Proporcionar las fases faltantes ha sido una búsqueda desde el comienzo de la cristalografía y la fase todavía constituye un cuello de botella en muchos estudios cristalográficos. En el campo de la cristalografía macromolecular, las fases iniciales generalmente se derivan experimentalmente de una subestructura de átomos de referencia, intrínsecos a la estructura o incorporados, y los datos recolectados en una o más longitudes de onda particulares (Hendrickson, 1991), o de la ubicación en el asimétrico unidad de un modelo relacionado con la estructura objetivo (Rossmann, 1972). En cristalografía química, para estructuras compuestas por menos de 200 átomos independientes, los métodos directos (Hauptman & # 38 Karle, 1953 Karle & # 38 Hauptman, 1956) generalmente pueden proporcionar un modelo inicial exclusivamente a partir de las intensidades experimentales medidas en un cristal nativo. . A diferencia de la cristalografía macromolecular, no se necesitan conocimientos estereoquímicos previos o datos experimentales adicionales de cristales modificados o longitudes de onda seleccionadas. Por tanto, los métodos directos se denominan ab initio métodos. Resuelven el problema de las fases aprovechando las relaciones probabilísticas y la posibilidad de evaluar muchos conjuntos de fases iniciales mediante cifras fiables de mérito. La extensión de los métodos directos a estructuras más grandes de alrededor de 1000 átomos independientes se logró mediante la introducción de la Batir y hornear algoritmo (Miller et al. , 1993) implementados en los programas SnB (Molinero et al. , 1994) y SHELXD (Nosotros & # 243n & # 38 Sheldrick, 1999). La Fig.1 muestra un esquema del Batir y hornear algoritmo (Sheldrick et al. , 2011). A partir de una hipótesis inicial, generalmente un conjunto de átomos generados aleatoriamente, las fases se calculan y modifican de acuerdo con relaciones de métodos directos. Las fases modificadas se utilizan para calcular un mapa de densidad de electrones y se selecciona un nuevo conjunto de átomos de los máximos en este mapa. En casos favorables, la iteración de este proceso conduce a una solución de estructura, que puede ser identificada por una figura confiable de mérito llamada coeficiente de correlación (CC) (Fujinaga & # 38 Read, 1987). Cabe señalar que todos los pasos del procedimiento descrito imponen la atomicidad como una restricción: el conjunto de fases inicial se calcula a partir de un modelo atómico (aleatorio), la fórmula de la tangente y la función mínima se derivan de la atomicidad y los mapas calculados se interpretan seleccionando átomos a partir del cual calcular un nuevo conjunto de fases. Por lo tanto, no es sorprendente que tales métodos estuvieran limitados por el requisito de datos de resolución atómica. La Tabla 1 resume las estructuras previamente desconocidas con más de 300 átomos independientes que fueron resueltos ab initio utilizando SHELXD . Sorprendentemente, la tabla presenta una gran cantidad de macromoléculas no estándar, como antibióticos o péptidos grandes ricos en disulfuro para los que los métodos proteicos clásicos no proporcionaron una alternativa adecuada, ya que ni los modelos adecuados ni las formas fáciles de derivatización eran una opción. Por ejemplo, la estructura del antibiótico vancomicina se había esperado durante mucho tiempo, ya que su cristalización se había descrito muchos años antes de que se lograra una solución de forma independiente con SHELXD (Sch & # 228fer et al. , 1996) y SnB (Recostarse et al. , 1997 ).

tabla 1
Algunas estructuras previamente desconocidas resueltas usando SHELXD


Figura 1
Reciclaje de doble espacio Batir y hornear algoritmo para ab initio fase a resolución atómica.

Las estructuras macromoleculares que difractan a resolución atómica (1.2 & # 8197 & # 197 o más allá) son más bien una excepción [menos del 2.5% de las entradas en el PDB (Bernstein et al. , 1977 Berman et al. , 2000)]. Un general ab initio El método de fases también debería poder abordar casos de resolución más baja. Aún así, se pueden extraer una serie de experiencias útiles de los casos de resolución atómica y exportar a la aplicación de menor resolución. Algunas de las estructuras resueltas ab initio con SHELXD requirió la ubicación de un pequeño fragmento de geometría conocida para generar la hipótesis inicial, en lugar de depender de una colección de átomos totalmente aleatorios. Por ejemplo, la cicloamilosa CA26, en el triclínico PAG 1 formulario (Gessler et al. , 1999) o en el ortorrómbico PAG 2 1 2 1 2 1 forma (Nimz et al. , 2004), que se muestra en las Figs. 2 ( a ) y 2( B ) respectivamente, solo podría resolverse optimizando localmente el posicionamiento aleatorio de un fragmento de diglucosa para sembrar el Batir y hornear procedimiento. De manera similar, la estructura de hiru & # 173stasin (Us & # 243n et al. , 1999), que se muestra en la Fig.2 ( C ), podría resolverse no solo a partir de los datos originales 1.2 & # 8197 & # 197, sino incluso a partir de un conjunto de datos 1.4 & # 8197 & # 197 localizando inicialmente la subestructura formada por los diez átomos de azufre en sus cinco puentes disulfuro en la etapa donde el algoritmo trabaja con los datos normalizados más fuertes y extiende esta subestructura a través de la interpretación de mapas iterativos contra todos los datos. Los puntos de referencia en las estructuras de prueba mostraron que una gran cantidad de ciclos podría conducir a una solución incluso desconectando la parte de métodos directos del algoritmo, es decir, sin modificación en la etapa del espacio recíproco (Sheldrick et al. , 2011). De hecho, el reciclaje simple de la etapa de interpretación del mapa, mediante la selección de átomos y omitiendo aleatoriamente un tercio de ellos, pudo resolver la estructura de prueba de 317 átomos de la gramicidina A (Langs, 1989).


Figura 2
Estructuras de la cicloamilosa CA26 (ciclomaltohexaicosaosa) en grupos espaciales ( a ) PAG 1 y ( B ) PAG 2 1 2 1 2 1 . Estas estructuras se resolvieron a partir de un fragmento de diglucosa optimizado localmente y colocado al azar. Diferentes ubicaciones de inicio llevaron a la misma solución final. ( C ) Estructura de hirustasina, resuelta ubicando primero la subestructura hecha de los diez átomos de azufre en los cinco puentes disulfuro y expandiendo desde ese punto a toda la estructura.

En los métodos de reciclaje de espacio dual, no todos los intentos de eliminar una estructura determinada dan como resultado una solución. SHELXD persigue muchas hipótesis iniciales y mantiene el mejor resultado hasta ahora, para casos particularmente difíciles, se pueden requerir muchos ensayos para producir una solución exitosa, por ejemplo, se necesitaron 25 & # 8197000 conjuntos iniciales de átomos para lograr una solución de poliA ARN (Safaee et al. , 2013). El enfoque multisolución requiere una forma eficaz de identificar las soluciones exitosas o las que son susceptibles de mejora, ya que no es posible examinar todos los mapas de densidad electrónica o modelos atómicos resultantes. El coeficiente de correlación (CC) calculado en todos los datos es confiable cuando se dispone de datos de resolución atómica, pero a una resolución más baja, todas las colecciones aleatorias de un número suficientemente grande de átomos no restringidos muestran valores de CC igualmente altos.También se encontró que la resolución atómica y la integridad de los datos eran esenciales para la transición gradual del programa. SnB (Xu et al. , 2000). La extrapolación para incluir los datos no medidos fue introducida por Giacovazzo (Caliandro et al. , 2005 a ) para mejorar los datos experimentales cuando estas condiciones no se cumplieron y su uso se incorporó a la ab initio caso de fase (Caliandro et al. , 2005 B ). La presencia de átomos más pesados ​​que el azufre, en forma de metales inherentes o contraiones, también es beneficiosa y conduce a la resolución de estructuras más grandes, como un citocromo c3 con 2208 átomos, incluidos ocho átomos de Fe (Frazao et al. , 1999). Esta ventaja se ha aprovechado en ab initio gradual mediante el uso sofisticado de la función Patterson (Caliandro et al. , 2008 ).

Aproximadamente la mitad (48%) de las estructuras cristalinas depositadas en el PDB difractan a 2 & # 8197 & # 197 o mejor. Por lo tanto, un ab initio El método de escalonamiento efectivo hasta tal resolución sería de interés general. El enfoque subyacente al ARCIMBOLDO El método se estructura en torno a las siguientes ideas. Para romper la dependencia de la resolución atómica, debería ser fundamental sustituir la aplicación de la atomicidad por la del conocimiento estereoquímico de unidades más grandes. En la práctica, las fases deberían estar limitadas por fragmentos, en lugar de átomos. Además, en lugar de seleccionar un átomo para interpretar un mapa, la modificación de la densidad produciría una mejora eficaz a una resolución más baja. Giacovazzo et al . han desarrollado ampliamente este aspecto en su algoritmo VLD (Burla et al. , 2011, 2012). Comenzar la fase de una subestructura pequeña pero muy precisa en el contexto de BELLOTA se informó que era notablemente eficaz (Yao et al. , 2005, 2006) y nuestras propias pruebas corroboraron este hallazgo, tan solo el 10% de los átomos de la cadena principal es suficiente para resolver una estructura en 2 & # 8197 & # 197. Una vez más, la interpretación automática de los mapas modificados en forma de seguimiento de la cadena principal de péptidos restringe el paso hacia la solución correcta y, al mismo tiempo, proporciona una cifra confiable de mérito. Mientras que el CC para una colección sin restricciones de átomos también puede ser alto para una subestructura incorrecta, una traza incorrecta se puede discriminar claramente de una correcta con estereoquímica sensible a resoluciones de hasta 2.0 & # 8197 & # 197. Hasta este punto, cuando el autotracing identifica una solución, es posible que no sea posible discriminar soluciones parcialmente correctas de incorrectas. Esto impone la necesidad de calcular muchas hipótesis diferentes y desarrollarlas hasta una etapa en la que se pueda identificar el éxito, lo que implica una gran demanda de tiempo de CPU. El proceso es fácil de paralelizar y la distribución de tareas en una gran red o supercomputadora ha sido un elemento esencial para este método.

El presente trabajo se ocupa de los enfoques de las estructuras de fases. ab initio sustituyendo la necesidad de resolución atómica por conocimiento estereoquímico a través de fragmentos de estructura secundaria y pliegues locales.

2. ARCIMBOLDO

Sobre la base de la experiencia de reciclaje de espacio dual de resolución atómica, la idea central de nuestro enfoque para superar la barrera de resolución y ampliar el alcance de ab initio el paso a las resoluciones hasta 2 & # 8197 & # 197 fue sustituir las limitaciones de atomicidad por la imposición de una estructura secundaria. En lugar de comenzar la fase a partir de una colección de átomos, los fragmentos del modelo de estructura secundaria se colocarían aleatoriamente y su posición inicial se optimizaría localmente o se ubicaría alternativamente con el programa. PHASER (McCoy et al. , 2007). En lugar de mejorar las fases mediante la fórmula de la tangente e interpretar como átomos los máximos en los mapas de densidad de electrones producidos, los mapas se mejorarían mediante técnicas de modificación de densidad y los mapas mejorados se interpretarían en términos de la cadena principal con el programa. SHELXE (Sheldrick, 2002). El autotracing de la cadena principal proporcionaría a su vez una cifra confiable de mérito en la resolución propuesta (Sheldrick, 2010). El CC que caracteriza el rastro es claramente más alto para los rastros correctos que para los incorrectos (Thorn & # 38 Sheldrick, 2013). La figura 3 muestra un esquema de este enfoque. Nombramos el método en honor al pintor del siglo XVI Arcimboldo, quien ensambló retratos a partir de objetos como frutas y verduras. Nuestra hipótesis de partida ensambla estructuras parciales a partir de fragmentos de estructura secundaria y, si es lo suficientemente correcta, la modificación de la densidad logra revelar el retrato de nuestra proteína, expandiéndose a una estructura casi completa. Como la mayoría de nuestras pruebas siguen siendo una "naturaleza muerta", el método requiere una gran cantidad de cálculos. Afortunadamente, los cálculos pueden dividirse fácilmente en pequeñas tareas y distribuirse en una cuadrícula de computadoras o una supercomputadora.


figura 3
ARCIMBOLDO algoritmo para ab initio fase con fragmentos de modelo a una resolución de hasta 2 & # 8197 & # 197.

2.1. & # 945 -Helices como fragmentos ideales

El fragmento ideal obvio del que partir era el compuesto por los átomos de la cadena principal de una hélice & # 945 regular. Se han utilizado para realizar una fase en una búsqueda multidimensional estocástica, lo que representa menos del 13% del número total de átomos por fragmento (Glykos & # 38 Kokkinidis, 2003). & # 945 - Los helices son casi ubicuos ya que el 80% de las estructuras depositadas en el AP contienen al menos uno de más de 12 residuos. También son constantes en su geometría, de modo que una hélice de 14 & # 821116 residuos encajará en la cadena principal de casi cualquier hélice en cualquier estructura con un valor eficaz. por debajo de 0.3 & # 8197 & # 197. Más bien rígidas, las hélices a menudo tendrán bajos B valores en relación con el resto de la estructura. Finalmente, no lo anticipamos pero probablemente obtengamos un beneficio adicional por su periodicidad, lo que da lugar a rasgos característicos en la función de Patterson (Caliandro et al. , 2012). La primera estructura desconocida resuelta por ARCIMBOLDO , fue el del PRD2, que contiene 220 aminoácidos en la unidad asimétrica y difracta a una resolución de 1.95 & # 8197 & # 197 (Rodr & # 237guez et al. , 2009). Se llegó a una solución en el caso de tres de las 1467 estructuras parciales que combinaban tres hélices de cadena principal de 14 alaninas. Desde entonces, como se puede ver en la Tabla 2, se han resuelto al menos 18 nuevas estructuras a partir de hélices. Desde la primera implementación de "fuerza bruta" que generó un gran número de estructuras parciales e intentó expandir tantas de ellas como fuera posible para una configuración dada de recursos informáticos, el examen de los resultados intermedios ha permitido un control más racional del proceso. La Fig.4 ilustra las etapas en la solución de miosina Vb en 2.07 & # 8197 & # 197 (Nascimento et al. , 2013). Figura 4 ( a ) muestra el SHELXE mapa de densidad de electrones resultante después de la colocación de una sola hélice, modificación de densidad y autotracing. Además de la hélice colocada correctamente que se muestra, el mapa aún muy ruidoso, caracterizado por un error de fase medio (MPE) de 73 & # 176, muestra la densidad de electrones alrededor de algunos lugares donde deberían estar las hélices faltantes. Figura 4 ( B ), después de la colocación de una segunda hélice, muestra un mapa más correcto con un MPE de 68 & # 176, donde las características correctas en la estructura comienzan a emerger pero no se desarrollan en una estructura completa. Figura 4 ( C ), después de la colocación de una tercera hélice produce un mapa inicial de 63 & # 176 MPE cuyo reciclaje, que se muestra en la Fig.4 ( D ), conduce a la construcción de más de dos tercios de la cadena principal y un mapa final de 42 & # 176 MPE, donde la densidad de electrones para algunas de las cadenas laterales también se hace evidente.

Tabla 2
Estructuras previamente desconocidas resueltas usando ARCIMBOLDO y BORGES

Consulte el texto para obtener información sobre las estructuras marcadas con *.


Figura 4
Evolución escalonada en la solución de miosina Vb (PDB ID 4j5m). Los cuatro paneles muestran el Dm F oF C mapas contorneados en 1 & # 963 calculados después de la colocación de hélices sucesivas de 22 alaninas y en la etapa final. Los errores de fase media inicial, CC para la subestructura inicial y el número de residuos trazados se citan para cada panel. ( a ) Después de la colocación de una hélice de 22 aminoácidos, el CC inicial es 7.21% y el wMPE es 73.4 & # 176, 64 residuos ( B ) después de la colocación de dos hélices de 22 aminoácidos, CC inicial es 10.0% y wMPE es 68.0 & # 176, 76 residuos ( C ) después de la colocación de tres hélices de 22 aminoácidos, CC inicial es 12,7% y wMPE es 62,7 & # 176, 127 residuos ( D ) solución final, CC inicial es 26,6% y wMPE es 53,4 & # 176, se trazaron 241 residuos y wMPE final es 42 & # 176. La figura fue preparada con PyMOL .
2.1.1. Rotación de hélices

Dada una proteína totalmente helicoidal, es interesante examinar si todas las hélices están representadas o no en las soluciones parciales, cómo las soluciones independientes están en la primera etapa de una PHASER búsqueda de rotación (Storoni et al. , 2004) y cómo se desarrollan a medida que avanza la búsqueda de fragmentos adicionales. Consideremos algunos casos representativos, que se muestran en la figura 5. Para la proteína PRD2 (PDB ID 3gwh) descrita anteriormente, que contiene 220 aminoácidos que implican diez tramos helicoidales de longitudes que varían de 10 a 20 aminoácidos, se encuentran disponibles datos de difracción de 1,95 & # 8197 & # 197. Una búsqueda de rotación de resolución completa produce 42 soluciones dentro del 75% del valor de ganancia de probabilidad de registro superior (LLG). Pueden agruparse dentro de una tolerancia de 15 & # 176 en seis rotaciones independientes, teniendo en cuenta la simetría del grupo espacial. Cuatro de los seis grupos corresponden a hélices en la estructura, los dos restantes tienen errores como el mapeo de la rotación que representa una hélice más pequeña que el fragmento de búsqueda o grandes desviaciones de la rotación geométricamente más cercana correspondiente a una hélice en la estructura verdadera. Figura 5 ( a ) muestra la estructura PRD2, que representa las cuatro rotaciones correctamente identificadas superpuestas en sus correspondientes ubicaciones correctas. En esta estructura, 41 tramos superpuestos son compatibles con un modelo de hélice de 14 aminoácidos de longitud, con un valor eficaz. que van desde 0,29 a 0,36 & # 8197 & # 197. Cálculo de los valores LLG con el modo MR_GYRE en PHASER nos permite clasificar aquellas hélices que tienen las mejores puntuaciones de función de rotación y, por lo tanto, podrían ubicarse. Los resultados se han codificado con los colores del arco iris, el azul representa los valores LLG más altos y el rojo los más bajos. Como puede verse en la Fig.5 ( a ), tres de las posibles hélices en la estructura presentan valores LLG de rotación mucho más bajos, siendo su ubicación altamente improbable ya que sus valores LLG caen fuera del límite del 75%.


Figura 5
Estructuras de ( a ) PRD2 (ID PDB 3gwh), ( B ) Lv -ranaspúmina (4k82) y ( C ) eIF5 (2iu1) en representación de dibujos animados. Las hélices de 14 aminoácidos o más se codifican con un esquema de arco iris para representar el valor LLG de la función de rotación que caracteriza cada una de las posibles hélices que se pueden ajustar. El azul indica un valor LLG alto y el rojo uno bajo. Las hélices cuya rotación se encontró en una búsqueda a resolución completa (umbral, 75% de la parte superior) se representan como palos magenta. La figura fue preparada con Focha y PyMOL .

La proteína eIF5 (Bieniossek et al. , 2006) (PDB ID 2iu1), que se muestra en la Fig.5 ( B ), contiene 179 aminoácidos en 11 tramos helicoidales de longitudes que varían de siete a 21 aminoácidos y para los cuales se encuentran disponibles datos de difracción hasta 1.7 & # 8197 & # 197. Una búsqueda de rotación a resolución completa produce 25 picos dentro del 75% del valor LLG superior, que se puede agrupar en cuatro grupos, dos de ellos coinciden con hélices verdaderas con un valor eficaz. por debajo de 0.3 & # 8197 & # 197.

Para Lv -ranaspumina (Hissa et al. , 2014) (PDB ID 4k82) en 1.7 & # 8197 & # 197, los 26 picos de rotación corresponden a la misma hélice correcta en la estructura final, un segundo grupo muestra un r.m.s.d. de 1,26 & # 8197 & # 197 a la hélice real más cercana.

En resumen, no todas las hélices de una estructura están igualmente representadas en una búsqueda de rotación, incluso reduciendo el paso de muestreo. Hélices largas con menor B especialmente los valores parecen estar localizados con más éxito.

2.1.2. Traducción de helices

Una búsqueda de traducción (McCoy et al. , 2005) requiere rotaciones altamente precisas para tener éxito, pero a veces es inesperadamente capaz de acomodar errores como el desplazamiento de una hélice por uno o más residuos que caen fuera de la hélice colocada correctamente o una desviación local alta siempre que el núcleo del modelo colocado es muy precisa. En los tres casos descritos, la traslación correcta se localiza para la mitad de las hélices donde se reconoció una rotación correcta, en particular aquellos casos donde la rotación fue más precisa.

2.1.3. Helices con cadenas laterales

Cualquier modelo en formato PDB se puede especificar como un fragmento de búsqueda. Nuestra primera implementación (Rodr & # 237guez et al. , 2012) contemplaron evaluar bibliotecas de modelos alternativos frente a la función de rotación y proceder con la mejor puntuación en términos de rotación LLG o Z puntaje. Las pruebas demostraron que era posible seleccionar la hélice con cadenas laterales ajustadas a los conformadores más cercanos para ayudar a la fase mediante el uso de modelos más completos. El uso de bibliotecas se ha trasladado en la implementación actual al tratamiento más sofisticado en el ARCIMBOLDO_BORGES modo explicado a continuación. Helices con cadenas laterales como fragmentos se utilizaron con éxito en la primera solución de una estructura de espiral en espiral de atrogina muscular (Franke et al. , 2014), pero la versión actual también tiene éxito a partir de fragmentos de polialanina.

2.2. & # 946 -Hilos

La geometría de las hebras & # 946 es inherentemente más variada, como se puede apreciar de un vistazo a una trama típica de Ramachandran (Ramachandran et al. , 1963). Todos los aminoácidos en las hélices & # 945 se encuentran dentro de un rango muy estrecho de & # 966, & # 968 ángulos alrededor de la región & # 872263.8 & # 176, & # 872241.1 & # 176 preferida. Hasta el 40% de todos los aminoácidos se encuentran en esta región más poblada, cubriendo solo el 2% de la parcela de Ramachandran. La región de la hoja & # 946 está claramente subdividida en dos regiones distintas y las desviaciones estándar alrededor de los dos máximos son tan altas como 20 & # 176 para los aminoácidos no prolina y no glicina (Hovm & # 246ller et al. , 2002 ).

La estructura de la proteína dimérica de inmunidad a la colicina CMI (Us & # 243n et al. , 2012) de Escherichia coli contiene 115 aminoácidos en la unidad asimétrica y su pliegue muestra una hoja de cuatro hebras antiparalelas y tres hélices, la más larga comprende 26 residuos. Datos de difracción en el grupo espacial C 222 1 están disponibles en una resolución de 1.8 & # 8197 & # 197. Esta pequeña proteína se utilizó como prueba para intentar resolverla a partir de un modelo helicoidal o de una cadena equivalente. La búsqueda de una hélice de polialanina modelo de nueve aminoácidos de longitud resuelve la estructura, mientras que debe tenerse en cuenta que las hélices de búsqueda típicas suelen ser más largas. Por el contrario, ni siquiera la hebra más larga de la estructura que abarca nueve residuos (de 97 a 105) podría usarse con éxito, incluso incluyendo cadenas laterales en su verdadera conformación. Un modelo tan perfecto es imposible de predecir y, por lo tanto, las cadenas de modelos aisladas tienen un uso limitado. A pesar de la mayor variabilidad en la conformación de la hebra, su asociación en un pliegue de hoja tiende a ser más constante, ya que involucra enlaces de hidrógeno de la cadena principal en lugar de los contactos mediados por la cadena lateral que unen hélices vecinas. La estructura se puede resolver a partir de un modelo perfecto de doble hebra, lo que indica que los pequeños pliegues locales deberían proporcionar un mejor modelo de búsqueda para hojas que depender de hebras aisladas.

2.3. Fragmentos de unión al ADN

Se pueden predecir pequeños pliegues locales con suficiente precisión para proporcionar modelos adecuados. Claramente, tal enfoque implica el uso de conocimiento estructural previo particular a la macromolécula a ser escalonada y no puede ser considerado un ab initio método, a menos que la hélice de ADN sea suficiente como un fragmento de búsqueda en un papel análogo al de la hélice & # 945. Los elementos de la estructura secundaria de ARN se han utilizado como múltiples fragmentos de búsqueda en un método eficaz, que combina el reemplazo molecular (MR), la inspección manual de mapas, el refinamiento, la modificación de densidad y los mapas de omisión compuestos (Robertson & # 38 Scott, 2008 Robertson et al. , 2010). Para habilitar la solución de estructura con ARCIMBOLDO , hemos sugerido aprovechar los patrones específicos de las proteínas de unión al ADN para generar bases de datos de motivos estructurales conservados (Pr & # 246pper et al. , 2014). Las bibliotecas precalculadas pueden descargarse de nuestro sitio web (http://chango.ibmb.csic.es/dna) o calcularse sobre la marcha para parecerse estructuralmente a una plantilla PDB de entrada.

3. DESFIBRADORA

De manera análoga, si se conoce un homólogo remoto pero la RM falla, ocurre con frecuencia que parte de la estructura objetivo se asemejará al modelo de búsqueda en su pliegue. Existen métodos sofisticados para predecir a partir de estadísticas de secuencia y estructura cómo recortar y modificar dicha plantilla para producir modelos de búsqueda de RM. Escultor (Litera & # 243czi & # 38 Read, 2011), mrtailor (Gruene, 2013), SCEDS (McCoy et al. , 2013) o Ensambler (Litera & # 243czi et al. , 2013). Un enfoque potencial sería extraer todo tipo de posibles pequeños fragmentos del modelo del homólogo distante y usarlos como modelos de búsqueda dentro de ARCIMBOLDO . El número de hipótesis estructurales razonables se vuelve muy grande y, por lo tanto, el algoritmo en ARCIMBOLDO_SHREDDER fue diseñado para seleccionar los mejores modelos de búsqueda mediante la optimización frente a los datos de difracción experimentales, en lugar de las expectativas basadas en conocimientos previos. La evaluación de cada residuo en la plantilla se lleva a cabo mediante el análisis de la función Shred-LLG, combinando los resultados LLG de varias funciones de rotación (Storoni et al. , 2004) calculado sobre modelos triturados sistemáticamente (Sammito et al. , 2014). Algunos modelos resultantes de omitir todos los tramos menos adecuados, como lo indican los valores de la función Shred-LLG, se utilizan como ARCIMBOLDO buscar fragmentos.

4. BORGES

En ausencia de conocimiento específico, esperaríamos que cualquier estructura desconocida contenga pliegues locales ya vistos en la AP, pero ¿cómo recuperaríamos y explotaríamos esta información? Nuestro programa BORGES fue desarrollado para identificar, recuperar y explotar estructuras terciarias inespecíficas a través de bibliotecas de fragmentos (Sammito et al. , 2013). La base de datos PDB contiene una gran cantidad de información y para cualquier estructura desconocida, dados fragmentos suficientemente pequeños, como la cadena principal de dos hélices o tres hebras en una disposición particular, modelos similares con una precisión que bordea 0.5 & # 8197 & # 197 r.m.s.d. es probable que ocurran en algunas de las entradas depositadas. En analogía con la infinita 'Biblioteca de Babel' de Borges que contenía libros con todas las combinaciones aleatorias de letras y, por lo tanto, incluía cualquier libro posible, los modelos parciales requeridos para la fase de una estructura a través de la búsqueda de fragmentos y la modificación de densidad ya deberían haber sido descritos dentro de otras estructuras depositadas. en el PDB. A diferencia de la "biblioteca de Borges", el PDB no es aleatorio y contiene en todo tipo de contextos estructurales solo unidades estructurales significativas. Además, nuestro método de fases requiere oraciones pequeñas en lugar de volúmenes completos, es decir, necesita encontrar y usar una pequeña fracción de una cadena principal perfecta y no una descripción completa de la estructura. Esto constituye un enfoque alternativo a los métodos altamente exitosos que combinan ab initio modelado de una estructura casi completa que se utilizará para el reemplazo molecular, como RosettaMR (DiMaio et al. , 2011 ), AMPLIO (Bibby et al. , 2012) o la implementación del grupo Zhang (Shrestha et al. , 2011 ).

Explotación de pliegues locales inespecíficos en un ab initio enfoque, en lugar de fragmentos de estructura secundaria, aumenta significativamente las dimensiones del problema de búsqueda. La precisión requerida está por debajo de 0.6 & # 8197 & # 197 r.m.s.d. y en ausencia de una hipótesis sobre el pliegue, se pueden derivar algunas indicaciones débiles de la función de Patterson y la predicción de la estructura secundaria, pero finalmente se deben probar las bibliotecas de los pliegues locales más frecuentes. La puntuación de bibliotecas reducidas o hipótesis alternativas, como tres hebras antiparalelas / paralelas / paralelas & # 8211 antiparalelas del mismo número de aminoácidos se realiza para establecer un orden. Si no se proporciona una indicación clara, se intenta primero el caso más frecuente (antiparalelo en este caso). Es esencial para el método proporcionar grados internos de libertad a los modelos de la biblioteca, refinándolos contra los datos experimentales en dos de las etapas. La Fig.6 muestra un esquema del ARCIMBOLDO_BORGES método (http://chango.ibmb.csic.es/BORGES). Para acelerar la extracción del modelo, se calcula previamente una base de datos que anota las estructuras PDB a través de vectores que describen la geometría de la cadena principal y las características estructurales útiles. Los modelos extraídos de esta base de datos para que coincidan con una descripción geométrica dentro de una tolerancia dada primero se agrupan geométricamente y luego se agrupan nuevamente a través de los resultados de una función de rotación. En el proceso de fases, los modelos reciben grados internos de libertad y se refinan contra la función de rotación, antes de continuar con la búsqueda de traslación, el filtrado de paquetes y el refinamiento de grupos rígidos. Nuevamente, el recorte del modelo para optimizar el coeficiente de correlación se utiliza para calificar hipótesis antes de la modificación de la densidad y el autotracing. En paralelo, se persigue el reciclaje de las etapas de rotación y traslación de fragmentos a partir de un modelo refinado, con el fin de corregir posibles soluciones pseudotraducidas (Caliandro et al. , 2007). El método descrito tiene éxito en la resolución de la estructura de CMI descrita en & # 1672.2, a partir de una lámina & # 946 de tres hebras antiparalelas que comprende la cadena principal de 13 aminoácidos. La solución de una sola hebra perfecta no fue posible. Del mismo modo, incluso todas las estructuras de prueba se pueden resolver de esta manera. La Tabla 2 contiene tres estructuras previamente desconocidas que se resolvieron con BORGES .


Figura 6
ARCIMBOLDO_BORGES implementación. El esquema resume los pasos del procedimiento. PHASER Las operaciones se imprimen en azul y SHELXE unos sobre un fondo azul. BORGES Las operaciones están impresas en rojo. A partir de una plantilla de modelo, se crea una biblioteca de pliegues equivalentes y se agrupa geométricamente. Para cada grupo, se calcula una búsqueda de rotación en 2 & # 8197 & # 197. Los modelos se desmontan y optimizan localmente en PAG 1 con PHASER . Los picos están agrupados geométricamente, dentro de una tolerancia de 15 & # 176. La ubicación de los fragmentos y la modificación de la densidad y el autotracing se persigue para cada modelo.

5. Implementación

El enfoque multisolución subyacente a este método requiere una computación masiva, especialmente en casos difíciles. No poder identificar soluciones parciales correctas en las primeras etapas impone la necesidad de adelantar todos los ensayos a la siguiente etapa e intentar desarrollarlos en una solución completa. Para completar los cálculos en un período de tiempo práctico, el proceso se divide en muchas tareas independientes y se distribuye en un grupo de computadoras o una supercomputadora. Nuestra primera implementación simplemente envió todos los cálculos a una cuadrícula. Cóndor (Tannenbaum et al. , 2002) fue elegido porque es ideal para administrar un grupo heterogéneo y permite personalizar de manera flexible el uso de los recursos, al tiempo que proporciona un control robusto, asegurando que cada trabajo se reasigne si uno de los nodos de cálculo abandona el grupo o se desaloja un trabajo. antes de su finalización. Desafortunadamente, este software intermedio sofisticado y potente requiere una experiencia informática y una dedicación más específicas para su instalación y mantenimiento de lo que normalmente se puede asignar en un laboratorio cristalográfico. Por lo tanto, a pesar de que Condor es popular en otras comunidades, su uso no está muy extendido en el campo de la cristalografía macromolecular. En el transcurso del último año, el programa ha sido totalmente reescrito ya que la experiencia con la primera implementación permitió el diseño de un algoritmo mejorado. Además, se ha beneficiado de los recientes avances en PHASER (Oeffner et al. , 2013 Leer et al. , 2013), lo que permite una discriminación mucho mayor de soluciones parciales potencialmente correctas. La nueva versión ha simplificado el requisito de middleware y eliminado el requisito original de Condor a favor de una opción más amplia de middleware, un acceso automático más fácil a los grupos de computadoras y, finalmente, incluso una versión diseñada para ejecutarse en una sola máquina.

5.1. Implementación centralizada en una estación de trabajo con acceso a una piscina

La dependencia del middleware constituyó un obstáculo en el uso de nuestro método. Para reducirlo, separamos el uso integrado de Condor en un modo de operación más simple y flexible, como se ilustra en la Fig.7. La implementación completa, diseñada para trabajar con grandes bibliotecas de modelos estructurales extraídos de toda la PDB, se basa en una base de datos en la que la estación de trabajo carga o recupera la información de la biblioteca. Todos los procesos centrales de una ejecución se llevan a cabo en una única estación de trabajo, donde todos los archivos relevantes estarán visibles, por lo que el usuario retiene el control durante todo el proceso. El programa dirige automáticamente los cálculos pesados ​​a un grupo local o remoto donde se ha configurado el acceso. De esta forma, el acceso a una red o supercomputadora solo necesita ser configurado en el momento de la instalación. Todo lo que el usuario necesita es que se le haya otorgado un nombre de usuario y contraseña o clave de acceso. La asignación de espacio y recursos en el grupo informático se explotará según la configuración del administrador del sistema o se puede administrar más en el ARCIMBOLDO instalación para dar cuenta de varios usuarios que se ejecutan bajo una sola cuenta en un grupo local o remoto. Actualmente, además de Condor, se admiten SGE / Opengrid (Gentzsch, 2001), Torque y MOAB. De esta forma, el ARCIMBOLDO el usuario no necesita estar involucrado o incluso percibir la supercomputación que está ocurriendo. Los archivos de entrada, los archivos de salida, la interpretación y los diagnósticos están todos visibles y actualizados en la estación de trabajo local. Una página HTML centraliza la visualización de resultados y enlaces al mejor mapa y rastrea si la estructura parece haberse resuelto. El programa depende de datos adecuados en formatos mtz y hkl, así como de versiones particulares de PHASER (actualmente 2.5.6) y SHELXE (más reciente). Una verificación inicial de estos requisitos puede bloquear una ejecución si se percibe que está condenada al fracaso. Por ejemplo, ARCIMBOLDO no se ejecutará si la resolución de los datos es inferior a 2,5 & # 8197 & # 197.


Figura 7
ARCIMBOLDO & # 8211BORGES implementación. El trabajo se controla desde una única estación de trabajo, donde la salida y los resultados intermedios son accesibles. Para BORGES , se debe acceder a una biblioteca local o remota, que puede ser compartida por varios usuarios. El acceso a los recursos informáticos se configura proporcionando un nombre de usuario y una clave de acceso al sistema a explotar. El programa descarga automáticamente cálculos pesados ​​a grupos de redes locales o externas o a una supercomputadora.

5.2. Implementación de una sola máquina: ARCIMBOLDO_LITE

Incluso la necesidad de acceder a un grupo de computadoras e instalar el middleware requerido es percibida como una tarea lenta y poco amigable para el usuario por muchos cristalógrafos. El análisis de casos anteriores exitosos, así como los casos de prueba, nos permitió proponer un procedimiento mínimo que reduciría significativamente la computación y, en consecuencia, podría ejecutarse en una sola máquina multinúcleo. El flujo de ARCIMBOLDO_LITE se muestra en la Fig.8. El fragmento de búsqueda suele ser una hélice de modelo de longitud seleccionada que se proporciona internamente, aunque se puede especificar cualquier otro modelo a través de un archivo PDB. Todos PHASER Los cálculos se realizan primero y un número limitado de SHELXE Las expansiones se intentarán con la mejor puntuación, no necesariamente en subestructuras ubicadas más grandes. El procedimiento se dimensiona de acuerdo con el número de núcleos físicos, por lo tanto, una ejecución en una máquina con más núcleos no se ejecutará simplemente más rápido, sino que intentará desarrollar más estructuras parciales en una solución. ARCIMBOLDO_LITE se distribuye como un único binario para Linux o MacOS y se puede descargar desde http://chango.ibmb.csic.es/ARCIMBOLDO. La ejecución requiere un único archivo de instrucciones que contenga una entrada mínima, ya que se proporcionan valores predeterminados adecuados para la mayoría de los parámetros. El usuario debe especificar la ruta a la última PHASER y SHELXE versiones, el nombre de los archivos de datos de difracción en SHELX (Sheldrick, 2008) hkl y PCCh 4 (Winn et al. , 2011) formatos mtz, la composición unitaria asimétrica de la estructura objetivo, así como la longitud de la hélice y el número de copias a ubicar.


Figura 8
ARCIMBOLDO_LITE fluir. De los fragmentos dados, todos PHASER Las operaciones se calculan primero y solo se amplían tantas soluciones parciales de mejor puntuación como núcleos disponibles mediante la modificación de la densidad y el autotracing.
5.2.1. Estructuras de prueba resueltas con ARCIMBOLDO_LITE

La estructura de S100A4 en complejo con péptido de miosina IIA no muscular (PDB ID 4eto) se usó para ejecutar puntos de referencia para ARCIMBOLDO_LITE en varias distribuciones y hardware de Linux. los PAG 2 1 La estructura para la que están disponibles los datos de 1.54 & # 8197 & # 197 contiene 202 residuos en la unidad asimétrica. La estructura se resolvió buscando cuatro hélices de 14 alanines cada una, tomando de una a dos horas en máquinas con instalaciones Debian, Ubuntu o SUSE Linux, con i7 o cuatro a ocho núcleos Xeon, un mínimo de 2 & # 8197GB RAM por núcleo. También se ha probado una versión de MacOS que se ejecuta en la distribución Mavericks con resultados equivalentes.

Algunos de los casos de ARCIMBOLDO La solución de estructura también se ha reproducido con esta versión de stand & # 173 solo. Están marcados en la Tabla 2 con un asterisco. Esto comprende, en particular, 4e1p, 3gwh, 4k82, 4m3l, 4bjs (Shi et al. , 2013), y dos estructuras aún inéditas. Además, dos estructuras previamente desconocidas se han introducido por primera vez con esta implementación.

Recientemente, una estructura previamente desconocida con 130 residuos y datos de difracción a 1.5 & # 8197 & # 197 se ha resuelto usando ARCIMBOLDO_LITE por el grupo dirigido por la profesora Carine Tisn & # 233 en la Universidad Descartes de París.

6. Outlook

Ab initio La explotación progresiva de pequeños fragmentos para reforzar la estructura secundaria y terciaria ha permitido la solución de casos que comprenden varios cientos de aminoácidos en la unidad asimétrica, con resoluciones de hasta 2.1 & # 8197 & # 197, que estaban fuera del alcance de los métodos anteriores en términos de límites de resolución. y tamaño. Una veintena de estructuras previamente desconocidas resueltas por ARCIMBOLDO y BORGES en sus diversos modos se muestra en la Tabla 2. La incorporación de diversas fuentes de conocimientos previos en este marco permite una mayor relajación de algunos de los límites. El uso de refinamiento dentro de los procedimientos descritos y el permitir a los modelos grados de libertad adicionales aumenta el radio de convergencia del método. Considerar todos los resultados parciales de manera conjunta, en lugar de como ensayos aislados, aumenta la eficiencia y se puede aprovechar en implementaciones más económicas, apropiadas para una sola máquina multinúcleo.

Notas al pie

& # 8225 Estos autores contribuyeron igualmente.

Agradecimientos

Este trabajo ha contado con las ayudas BFU2012-35367 e IDC-20101173 (Ministerio de Economía y Competitividad de España) y la Generalitat de Catalunya (2009SGR-1036). Agradecemos a Randy Read, Airlie McCoy y George M. Sheldrick por la útil discusión y las correcciones.

Referencias

Berman, H. M., Westbrook, J., Feng, Z., Gilliland, G., Bhat, T. N., Weissig, H., Shindyalov, I. N. & # 38 Bourne, P. E. (2000). Ácidos nucleicos Res. 28 , 235 & # 8211242. Web of Science CrossRef PubMed CAS Google Scholar
Bernstein, F. C., Koetzle, T. F., Williams, G. J. B., Meyer, E. F. Jr, Brice, M. D., Rodgers, J. R., Kennard, O., Shimanouchi, T. & # 38 Tasumi, M. (1977). J. Mol. Biol. 112 , 535 y # 8211542. CrossRef CAS PubMed Web of Science Google Académico
Bibby, J., Keegan, R. M., Mayans, O., Winn, M. D. & # 38 Rigden, D. J. (2012). Acta Cryst. D 68 , 1622 & # 82111631. Web of Science CrossRef IUCr Journals Google Académico
Bieniossek, C., Schu & # 252tz, P., Bumann, M., Limacher, A., Us & # 243n, I. & # 38 Baumann, U. (2006). J. Mol. Biol. 360 , 457 & # 8211465. CrossRef PubMed CAS Google Académico
Bragg, W. H. y nº 38 Bragg, W. L. (1913). Naturaleza , 91 , 557. CrossRef Google Scholar
Litera & # 243czi, G., Echols, N., McCoy, A. J., Oeffner, R. D., Adams, P. D. & # 38 Read, R. J. (2013). Acta Cryst. D 69 , 2276 y # 82112286. Web of Science CrossRef IUCr Journals Google Académico
Litera & # 243czi, G. & # 38 Read, R. J. (2011). Acta Cryst. D 67 , 303 & # 8211312. Web of Science CrossRef IUCr Journals Google Académico
Burla, M. C., Carrozzini, B., Cascarano, G. L., Giacovazzo, C. & # 38 Polidori, G. (2011). J. Appl. Cryst. 44 , 1143 & # 82111151. Web of Science CrossRef CAS IUCr Journals Google Académico
Burla, M. C., Carrozzini, B., Cascarano, G. L., Giacovazzo, C. & # 38 Polidori, G. (2012). J. Appl. Cryst. 45 , 1287 y # 82111294. Web of Science CrossRef CAS IUCr Journals Google Académico
Caliandro, R., Carrozzini, B., Cascarano, G. L., De Caro, L., Giacovazzo, C., Mazzone, A. & # 38 Siliqi, D. (2008). J. Appl. Cryst. 41 , 548 & # 8211553. Web of Science CrossRef CAS IUCr Journals Google Académico
Caliandro, R., Carrozzini, B., Cascarano, G. L., De Caro, L., Giacovazzo, C. & # 38 Siliqi, D. (2005 a ). Acta Cryst. D 61 , 1080 y # 82111087. Web of Science CrossRef CAS IUCr Journals Google Académico
Caliandro, R., Carrozzini, B., Cascarano, G. L., De Caro, L., Giacovazzo, C. & # 38 Siliqi, D. (2005 B ). Acta Cryst. D 61 , 556 & # 8211565. Web of Science CrossRef CAS IUCr Journals Google Académico
Caliandro, R., Carrozzini, B., Cascarano, G. L., De Caro, L., Giacovazzo, C. & # 38 Siliqi, D. (2007). J. Appl. Cryst. 40 , 883 y # 8211890. Web of Science CrossRef CAS IUCr Journals Google Académico
Caliandro, R., Dibenedetto, D., Cascarano, G. L., Mazzone, A. & # 38 Nico, G. (2012). Acta Cryst. D 68 , 1 & # 821112. CrossRef IUCr Journals Google Académico
DiMaio, F., Terwilliger, TC, Read, RJ, Wlodawer, A., Oberdorfer, G., Wagner, U., Valkov, E., Alon, A., Fass, D., Axelrod, HL, Das, D ., Vorobiev, SM, Iwa & # 239, H., Pokkuluri, PR & # 38 Baker, D. (2011). Naturaleza , 473 , 540 y # 8211543. CrossRef CAS PubMed Google Académico
Franke, B., Gasch, A., Rodríguez, D., Chami, M., Khan, MM, Rudolf, R., Bibby, J., Hanashima, A., Bogomolovas, J., von Castelmur, E., Rigden, DJ, Uson, I., Labeit, S. & # 38 Mayans, O. (2014). Abra Biol. 4 , 130172. Web of Science CrossRef PubMed Google Scholar
Frazao, C., Sieker, L., Sheldrick, G. M., Lamzin, V., LeGall, J. & # 38 Carrondo, M. A. (1999). J. Biol. Inorg. Chem. 4 , 162 & # 8211165. PubMed CAS Google Académico
Friedrich, W., Knipping, P. y # 38 Laue, M. (1912). Sitzungsber. K. Bayer. Akad. Wiss. págs. 303 y # 8211322. Google Académico
Fujinaga, M. & # 38 Read, R. J. (1987). J. Appl. Cryst. 20 , 517 y # 8211521. CrossRef Web of Science IUCr Journals Google Académico
Gentzsch, W. (2001). Proc. Primer Simposio Internacional IEEE / ACM sobre Cluster Computing y Grid, 2001 , págs. 35 y # 821136. CrossRef Google Académico
Gessler, K., Us & # 243n, I., Takaha, T., Krauss, N., Smith, S. M., Okada, S., Sheldrick, G. M. & # 38 Saenger, W. (1999). Proc. Natl Acad. Sci. Estados Unidos , 96 , 4246 & # 82114251. Web of Science CSD CrossRef PubMed CAS Google Scholar
Glykos, N. M. y # 38 Kokkinidis, M. (2003). Acta Cryst. D 59 , 709 y # 8211718. Web of Science CrossRef CAS IUCr Journals Google Académico
Gruene, T. (2013). Acta Cryst. D 69 , 1861 & # 82111863. Web of Science CrossRef CAS IUCr Journals Google Académico
Hauptman, H. y # 38 Karle, J. (1953). Monografía ACA No. 3 . Ohio: Servicio de libros policristalinos. Google Académico
Hendrickson, W. A. ​​(1991). Ciencias , 254 , 51 & # 821158. CrossRef PubMed CAS Web of Science Google Académico
Hissa, D. C., Bezerra, G. A., Birner-Gruenberger, R., Silva, L. P., Us & # 243n, I., Gruber, K. & # 38 Melo, V. M. M. (2014). Quimioquímica , 15 , 393 & # 8211398. PubMed Google Académico
Hovm y # 246ller, S., Zhou, T. y # 38 Ohlson, T. (2002). Acta Cryst. D 58 , 768 y # 8211776. Web of Science CrossRef IUCr Journals Google Académico
Karle, J. y # 38 Hauptman, H. (1956). Acta Cryst. 9 , 635 y # 8211651. CrossRef CAS IUCr Journals Web of Science Google Académico
Langs, D. A. (1989). Biopolímeros , 28 , 259 y # 8211266. CrossRef CAS PubMed Web of Science Google Académico
Laue, M. von (1912). Sitzungsber. K. Bayer. Akad. Wiss. págs. 363 y # 8211373. Google Académico
Loll, P. J., Bevivino, A. E., Korty, B. D. & # 38 Axelsen, P. H. (1997). Mermelada. Chem. Soc. 119 , 1516 & # 82111522. CSD CrossRef CAS Web of Science Google Académico
McCoy, A. J., Grosse-Kunstleve, R. W., Adams, P. D., Winn, M. D., Storoni, L. C. & # 38 Read, R. J. (2007). J. Appl. Cryst. 40 , 658 & # 8211674. Web of Science CrossRef CAS IUCr Journals Google Académico
McCoy, A. J., Grosse-Kunstleve, R. W., Storoni, L. C. & # 38 Read, R. J. (2005). Acta Cryst. D 61 , 458 & # 8211464. Web of Science CrossRef CAS IUCr Journals Google Académico
McCoy, A. J., Nicholls, R. A. & # 38 Schneider, T. R. (2013). Acta Cryst. D 69 , 2216 y # 82112225. Web of Science CrossRef CAS IUCr Journals Google Académico
Miller, R., DeTitta, G. T., Jones, R., Langs, D. A., Weeks, C. M. & # 38 Hauptman, H. A. (1993). Ciencias , 259 , 1430 & # 82111433. CSD CrossRef CAS PubMed Web of Science Google Académico
Miller, R., Gallo, S. M., Khalak, H. G. & # 38 Weeks, C. M. (1994). J. Appl. Cryst. 27 , 613 & # 8211621. CrossRef CAS Web of Science IUCr Journals Google Académico
Nascimento, AFZ, Trindade, DM, Tonoli, CCC, de Giuseppe, PO, Assis, LHP, Honorato, RV, de Oliveira, PSL, Mahajan, P., Burgess-Brown, NA, von Delft, F., Larson, RE & # 38 Murakami, MTJ (2013). J. Biol. Chem. 288 , 34131 & # 821134145. CrossRef CAS PubMed Google Académico
Nimz, O., Gessler, K., Us & # 243n, I., Sheldrick, G. M. & # 38 Saenger, W. (2004). Carbohidr. Res. 339 , 1427 y # 82111437. CrossRef PubMed CAS Google Académico
Oeffner, R. D., Bunkocz, G., McCoy, A. J. & # 38 Read, R. J. (2013). Acta Cryst. D 69 , 2209 y # 82112215. CrossRef IUCr Journals Google Académico
Pr & # 246pper, K., Meindl, K., Sammito, M., Dittrich, B., Sheldrick, G. M., Pohl, E. & # 38 Us & # 243n, I. (2014). Acta Cryst. D 70 , 1743 & # 82111757. Web of Science CrossRef IUCr Journals Google Académico
Ramachandran, G. N., Ramakrishnan, C. & # 38 Sasisekharan, V. (1963). J. Mol. Biol. 7 , 95 & # 821199. CrossRef PubMed CAS Web of Science Google Académico
Leer, R. J., Adams, P. D. y # 38 McCoy, A. J. (2013). Acta Cryst. D 69 , 176 & # 8211183. Web of Science CrossRef CAS IUCr Journals Google Académico
Robertson, M. P., Chi, Y.-I. & # 38 Scott, W. G. (2010). Métodos , 52 , 168 & # 8211172. Web of Science CrossRef CAS PubMed Google Scholar
Robertson, M. P. y # 38 Scott, W. G. (2008). Acta Cryst. D 64 , 738 & # 8211744. Web of Science CrossRef CAS IUCr Journals Google Académico
Rodr & # 237guez, D. D., Grosse, C., Himmel, S., Gonz & # 225lez, C., de Ilarduya, I. M., Becker, S., Sheldrick, G. M. & # 38 Us & # 243n, I. (2009). Nat. Metanfetamina 6 , 651 & # 8211653. Google Académico
Rodr & # 237guez, D., Sammito, M., Meindl, K., de Ilarduya, I. M., Potratz, M., Sheldrick, G. M. & # 38 Us & # 243n, I. (2012). Acta Cryst. D 68 , 336 & # 8211343. Web of Science CrossRef IUCr Journals Google Académico
Rossmann, M. G. (1972). El método de reemplazo molecular . Nueva York: Gordon y Breach. Google Académico
Sammito, M., Mill & # 225n, C., Rodr & # 237guez, DD, de Ilarduya, IM, Meindl, K., De Marino, I., Petrillo, G., Buey, RM, de Pereda, JM, Zeth, K., Sheldrick, GM & # 38 Us & # 243n, I. (2013). Nat. Meth. 10 , 1099 & # 82111101. CrossRef CAS Google Académico
Sammito, M., Meindl, K., de Ilarduya, I. M., Mill & # 225n, C., Artola-Recolons, C., Hermoso J. A. & # 38 Us & # 243n, I. (2014). FEBS J , 281 , 4029 & # 82114045. Google Académico
Safaee, N., Noronha, A. M., Rodionov, D., Kozlov, G., Wilds, C. J., Sheldrick, G. M. & # 38 Gehring, K. (2013). Angew. Chem. En t. Ed. 52 , 10370 & # 821110373. CrossRef CAS Google Académico
Sch & # 228fer, M., Schneider, T. R. & # 38 Sheldrick, G. M. (1996). Estructura , 4 , 1509 & # 82111515. CrossRef CAS PubMed Web of Science Google Académico
Sheldrick, G. M. (2002). Z. Kristallogr. 217 , 644 & # 8211650. Web of Science CrossRef CAS Google Scholar
Sheldrick, G. M. (2008). Acta Cryst. A 64 , 112 & # 8211122. Web of Science CrossRef CAS IUCr Journals Google Académico
Sheldrick, G. M. (2010). Acta Cryst. D 66 , 479 & # 8211485. Web of Science CrossRef CAS IUCr Journals Google Académico
Sheldrick, G. M., Gilmore, C. J., Hauptman, H. A., Weeks, C. M., Miller, R. & # 38 Us & # 243n, I. (2011). Tablas internacionales de cristalografía , editado por E. Arnold, D. M. Himmel & # 38 M. G. Rossmann, págs. 413 & # 8211429. Chichester: Wiley. Google Académico
Shi, T., Bunker, RD, Mattarocci, S., Ribeyre, C., Faty, M., Gut, H., Scrima, A., Rass, U., Rubin, SM, Shore, D. & # 38 Thom y 228, NH (2013). Celda , 153 , 1340 & # 82111353. CrossRef CAS PubMed Google Académico
Shrestha, R., Berenger, F. y # 38 Zhang, K. Y. J. (2011). Acta Cryst. D 67 , 804 y # 8211812. Web of Science CrossRef IUCr Journals Google Académico
Storoni, L. C., McCoy, A. J. & # 38 Read, R. J. (2004). Acta Cryst. D 60 , 432 & # 8211438. Web of Science CrossRef CAS IUCr Journals Google Académico
Tannenbaum, T., Wright, D., Miller, K. & # 38 Livny, M. (2002). Computación en clúster de Beowulf con Linux , editado por T. Sterling. La prensa del MIT. Google Académico
Thorn, A. y # 38 Sheldrick, G. M. (2013). Acta Cryst. D 69 , 2251 y # 82112256. Web of Science CrossRef IUCr Journals Google Académico
Nosotros & # 243n, I., Patzer, S. I., Rodr & # 237guez, D. D., Braun, V. & # 38 Zeth, K. (2012). J. Struct. Biol. 178 , 45 & # 821153. Web of Science PubMed Google Académico
Nosotros & # 243n, I. & # 38 Sheldrick, G. M. (1999). Curr. Opin. Struct. Biol. 9 , 643 & # 8211648. Web of Science CrossRef PubMed CAS Google Scholar
Us & # 243n, I., Sheldrick, G. M., Fortelle, E. de L., Bricogne, G., Marco, S. D., Priestle, J. P., Gr & # 252tter, M. G. & # 38 Mittl, P. R. E. (1999). Estructura , 7 , 55 y # 821163. PubMed Google Académico
Winn, M. D. et al. (2011). Acta Cryst. D 67 , 235 & # 8211242. Web of Science CrossRef CAS IUCr Journals Google Académico
Xu, H., Hauptman, H. A., Weeks, C. M. y nº 38 Miller, R. (2000). Acta Cryst. D 56 , 238 y # 8211240. Web of Science CrossRef CAS IUCr Journals Google Académico
Yao, J. X., Dodson, E. J., Wilson, K. S. & # 38 Woolfson, M. M. (2006). Acta Cryst. D 62 , 901 & # 8211908. Web of Science CrossRef CAS IUCr Journals Google Académico
Yao, J., Woolfson, M. M., Wilson, K. S. & # 38 Dodson, E. J. (2005). Acta Cryst. D 61 , 1465 y # 82111475. Web of Science CrossRef CAS IUCr Journals Google Académico

Este es un artículo de acceso abierto distribuido bajo los términos de la Licencia Creative Commons Attribution (CC-BY), que permite el uso, distribución y reproducción sin restricciones en cualquier medio, siempre que se citen los autores originales y la fuente.


Ver el vídeo: Desarrollo de un modelo matemático: Selección de componentes y procesos.. UPV (Mayo 2022).