Información

¿Dónde puedo encontrar conjuntos de datos de mutaciones para el cáncer?

¿Dónde puedo encontrar conjuntos de datos de mutaciones para el cáncer?



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Mi laboratorio ha estado usando datos de TCGA (mutaciones somáticas y datos clínicos) para desarrollar paneles de genes y de mutaciones que esperamos ver en ciertas poblaciones de cáncer. Nos gustaría validar nuestros paneles comprobando cómo se mantienen frente a otros conjuntos de datos sobre el cáncer.

Sé que un recurso que podemos utilizar es el Consorcio Internacional del Genoma del Cáncer, pero me pregunto si los miembros de este foro pueden sugerir algunos otros lugares donde podemos obtener datos de mutaciones clínicas y somáticas para cohortes de pacientes con cáncer.


El cBioPortal es una fuente centralizada extraordinariamente útil de conjuntos de datos sobre el cáncer. A la fecha, contiene datos de 105 estudios de genómica del cáncer. Muchos de estos son estudios TCGA, pero la lista también incluye muchos otros. Además, la interfaz humana con los datos se encuentra entre las mejores que he visto.


Como estoy seguro de que sabe, no hay completo base de datos centralizada para mutaciones de genes del cáncer. La base de datos más completa es la TGCA, como ya lo mencionaste. Eso no significa que no haya otros datos.

A amplio La opción que podría adaptarse a sus necesidades es consultar OMIM alojado por NCBI. Puedes buscar "cáncer"o algo más específico y luego seleccione la pestaña dbSNP y devolverá una lista de ubicaciones de genes de mutaciones que coinciden con la consulta.

Para una mayor específico buscar, CÓSMICO alojado por SANGER permite la descarga de los "genes del cáncer" en formato fasta, y se encuentran disponibles varias otras descargas con otra información. Se selecciona manualmente, lo que siempre es una ventaja, sin embargo, esto significa que está limitado a unos pocos genes. También hay BIC. Esto se centra específicamente en genes relacionados con el cáncer de mama y está alojado por NHGRI. Nuevamente, se requiere una cuenta para la descarga y se limita a los genes que afectan los cánceres de mama.


KRAS: mutación del cáncer

Utilice datos genómicos reales para encontrar mutaciones en un gen asociado con los cánceres de páncreas, pulmón y colorrectal.

Esta actividad le permite observar más de cerca los cambios que ocurren en la secuencia del ADN durante el cáncer. Buscará mutaciones dentro del KRAS gen y descubra cómo estas mutaciones alteran la proteína resultante producida. Al modelar la proteína en un programa 3D, verá cómo se ve afectada la proteína y por qué conduce al desarrollo de tumores.

Todos los cánceres son el resultado de cambios o mutaciones en la secuencia de ADN de nuestro genoma. Estas mutaciones hacen que las células se dividan de forma incontrolada. Esto puede ser cortando la actividad de los genes que normalmente detienen la división celular o activando permanentemente los genes que promueven la división celular. El resultado es una masa de células en crecimiento, llamada tumor. Mutaciones en el KRAS gen están presentes en muchos cánceres, incluido el cáncer de páncreas.

La actividad va acompañada de una presentación en PowerPoint para presentarle la biología del cáncer, qué es y cómo se desarrolla. También le informará sobre cómo la investigación genómica está ayudando a mejorar nuestra comprensión de la enfermedad y desarrollar nuevos tratamientos.


Las empresas que rastrean las mutaciones en las células cancerosas pueden proporcionar una clave para desbloquear mejores terapias

Los inversores y empresarios están comenzando a introducir en el mercado nuevas herramientas de diagnóstico que prometen mejores resultados para los pacientes con cáncer mediante la identificación de mutaciones en las células cancerosas que pueden crear terapias más dirigidas.

A principios de este mes, la investigación utilizando tecnología desarrollada por la startup Mission Bio ayudó a identificar mutaciones celulares en células cancerosas de leucemia mieloide aguda que podrían ser indicadores de una posible recaída o recurrencia del cáncer después de la terapia.

En el estudio, que se presentó en la conferencia reciente de la Sociedad Estadounidense de Hematología y # 8217, un equipo del instituto de investigación del cáncer MD Anderson en Texas, incluido el Dr. Koichi Takahashi, secuenció más de 500,000 células en 70 pacientes utilizando Mission Bio & # 8217s & # 8220Tapestri & # 8221 plataforma.

“Estos resultados demuestran el poder de analizar la heterogeneidad para el estudio y tratamiento de pacientes con cáncer”, dijo el Dr. Takahashi, en un comunicado. "La capacidad de Tapestri para identificar con precisión los subclones del cáncer a lo largo del tratamiento y la progresión de la enfermedad nos acerca a cumplir la promesa de la medicina de precisión".

Cada vez más, los investigadores están llegando a la conclusión de que las mutaciones genéticas de las células cancerosas individuales pueden conducir a la persistencia de una enfermedad residual mínima y resistencia a la terapia. Otros centros de cáncer líderes en universidades, incluida la Universidad de California, San Francisco, la Universidad de Pennsylvania y la Universidad de Stanford, también han publicado artículos sobre la viabilidad del enfoque Mission Bio & # 8217s.

Esa investigación puede ayudar a explicar por qué Mission Bio pudo obtener $ 30 millones en nuevos fondos de una gran cantidad de inversores, incluidos Agilent Technologies, Cota Capital, LabCorp, LAM Capital y Mayfield.

La compañía dijo que usará el dinero en efectivo para aumentar el trabajo que está haciendo en la investigación del cáncer de sangre mientras expande su negocio al análisis de aplicaciones CRISPR y mutaciones potenciales que pueden ocurrir mediante el uso de esa tecnología de edición de genes.

“El cáncer matará a 10 millones de personas solo este año. Podemos vencer al cáncer con terapias dinámicas más efectivas, pero primero debemos comprender con precisión su biología, comenzando con la composición genética variable de todas y cada una de las células cancerosas ”, explicó Charlie Silver, director ejecutivo de Mission Bio. “La enfermedad residual mínima es una de las principales causas de la recaída del cáncer si se pasa por alto incluso una célula que podría poner en riesgo una vida. Con la plataforma Tapestri, podemos rastrear cada célula, cada mutación, para guiar mejor los tratamientos y salvar la vida de los pacientes ".

Ese seguimiento de mutaciones también es lo que atrajo a Agilent a medida que la compañía da sus pasos iniciales para monitorear las consecuencias intencionales y no intencionales del uso de la tecnología CRISPR para editar genes.

"Las capacidades únicas de control de calidad de la plataforma Tapestri están fortaleciendo nuestros programas CRISPR de I + D", comentó Darlene Solomon, vicepresidenta sénior y directora de tecnología de Agilent Technologies. "El compromiso de Agilent con la innovación y la medicina de precisión se combina bien con la plataforma Tapestri de Mission Bio, ya que tiene el potencial de mejorar los resultados de los pacientes en la lucha contra el cáncer & # 8212 y ese es el punto de referencia más significativo de todos".

Mission Bio no es la única empresa que avanza en lo que respecta a tratamientos contra el cáncer y nuevas tecnologías de monitorización específicas.

Cambridge Cancer Genomics es otra empresa de nueva creación que trabaja para llevar nuevas tecnologías al análisis de muestras de sangre que pueden identificar mejor el cáncer y dirigirse a terapias personalizadas para la enfermedad.

La empresa ha recaudado 4,5 millones de dólares para construir lo que denomina uno de los conjuntos de datos de cáncer longitudinal más grandes del mundo.

Al igual que Mission Bio, CCG espera que sus datos puedan ayudar a mapear las formas en que las células cancerosas evolucionan en respuesta a los tratamientos y sugerir nuevas terapias a los médicos.

Los inversores que financian el lanzamiento de la empresa y # 8217 incluyen AME Cloud Ventures, Refactor Capital, Romulus Capital e Y Combinator. El capital adicional provino del primer socio de la compañía, el Centro Integral de Sangre y Cáncer en Bakersfield, California, que no solo invirtió dinero en efectivo, sino que proporcionó 4.000 muestras clínicas para que CCG las analizara y desarrollara su solución de monitoreo y predicción.

Ambas compañías están tratando de abordar el enfoque de & # 8220-talla única-para-todos & # 8221 para la terapia del cáncer que existe para la mayoría de los pacientes en todo el mundo.

El tratamiento del cáncer de primera línea falla en dos tercios de todos los pacientes y la comprensión de que los tratamientos no funcionan puede tardar hasta seis meses en reconocerse. Al igual que Mission Bio, CCG también está trabajando para identificar si un paciente está en riesgo de recaída, algo que la compañía afirma que puede hacer 7 meses antes que las prácticas estándar.

& # 8220 Cuando profundizas en los cambios en el ADN detrás del cáncer, rápidamente descubres que no hay dos tumores iguales. Para aplicar las terapias contra el cáncer con más éxito en cualquier tumor, necesitamos una comprensión más profunda de qué es exactamente lo que salió mal en cada caso a nivel molecular & # 8221, dice el Dr. Harry Clifford, cofundador y director de tecnología de Cambridge Cancer. Genómica. & # 8220 Esto comienza con herramientas efectivas para capturar esa información. Los enfoques que estamos desarrollando en CCG tendrán aplicaciones generalizadas, desde la identificación de objetivos para el desarrollo de nuevas terapias hasta la decisión de qué enfoque personalizado es el mejor para un paciente determinado. & # 8221

Eso se hace eco del pensamiento de empresas como Mission Bio y, como Mission Bio, CCG ha publicado resultados de pruebas recientes de su tecnología.

La compañía aplicó su tecnología predictiva al resultado de diferentes terapias en más de 2500 pacientes con cáncer de mama y utilizó su tecnología de aprendizaje automático para identificar el mismo tipo de variantes que Mission Bio está tratando de identificar en un intento de comprender cuándo y cómo pueden ocurrir las recaídas. .

1) Entrelazamiento de genomas personales y de referencia para la detección de variantes de enfermedades por aprendizaje automático

Resumen: Las diferencias en nuestro ADN son la base de muchos aspectos de la salud humana, desde enfermedades genéticas raras hasta el cáncer. En este artículo, creamos una nueva clase de software para detectar variantes de ADN. Basada en los mismos principios detrás del reconocimiento facial, nuestra técnica puede identificar variantes de cáncer con una precisión incomparable. Esperamos que el lanzamiento de este software para uso no comercial conduzca a una terapia dirigida más exitosa y una medicina oncológica personalizada.


Identificación de mutaciones del cáncer con parsimonia

Este estudio utiliza un algoritmo desarrollado por primera vez en nuestro grupo para modelar el metabolismo a partir de datos ambiguos. A menudo conocemos la región de una molécula que se metaboliza, pero no el átomo específico. Un truco inteligente que utiliza el algoritmo EM nos permite entrenar una red neuronal, incluso sin conocer los objetivos correctos.

Un problema análogo surge en la genómica del cáncer. Sabemos tanto por estudios experimentales como por la teoría neutral de la evolución, 1 que solo unas pocas mutaciones causan cáncer (los impulsores), pero la mayoría son neutrales sin un papel funcional (los pasajeros). Esto nos deja con una pregunta fundamentalmente importante:

Cuando secuenciamos un nuevo genoma de cáncer & # 8217s, ¿cómo determinamos qué mutaciones son las impulsoras?

Los métodos anteriores utilizaban datos de entrenamiento en los que las mutaciones se etiquetaban como conductores o pasajeros. Sin embargo, estos métodos son tan buenos como sus datos de entrenamiento. En nuestro nuevo enfoque, funciona mejor que todos los métodos anteriores, aunque ignora a los conductores y pasajeros conocidos durante el entrenamiento. Un método no supervisado (ParsSNP), guiado por la parsimonia, funciona mejor que los enfoques guiados por nuestro conocimiento actual de los conductores.

ParsSNP parte de una suposición de & # 8220parsimonia & # 8221, arraigada en la teoría neutral de la evolución, asumimos que las mutaciones impulsoras son raras y distribuidas equitativamente entre los pacientes. sabiendo de antemano cuáles son cuáles.

Este es el primer panel de la Figura 1 del artículo, que muestra un poco sobre cómo funciona el algoritmo. El algoritmo parte de datos de un gran número de pacientes con cáncer. Cada tumor de paciente incluye una gran cantidad de mutaciones, que se agrupan por paciente y se describen mediante características matemáticas. A continuación, usamos una versión modificada del algoritmo EM para entrenar simultáneamente una red neuronal para reconocer conductores y etiquetar las mutaciones como conductores o pasajeros. El algoritmo garantiza que solo haya unas pocas mutaciones impulsoras y que se distribuyan de manera equitativa entre los pacientes. Por último, tenemos una red neuronal capaz de identificar las mutaciones de los conductores mejor que cualquier otro método, incluidos los que utilizaban conductores y pasajeros conocidos para entrenar.

No es sorprendente que el modelo se base directamente en la teoría de la evolución para hacer sus predicciones. Varias características evolutivas (incluida, por ejemplo, la relación Ks / Ka) se utilizan para determinar qué mutaciones son impulsoras. Entonces, la teoría de la evolución ayuda a resolver un problema científico clave en el cáncer de dos maneras: inspirando un nuevo algoritmo computacional y la manera correcta de describir matemáticamente las mutaciones.

Esperamos que este estudio abra formas completamente nuevas de estudiar datos genómicos porque no requiere datos de entrenamiento etiquetados.

Runjun Kumar (en la foto de arriba), estudiante de doctorado de MD en el grupo del Dr. Ron Bose & # 8217 aquí en WUSTL. Runjun hizo una gran cantidad de trabajo para recopilar los datos requeridos, entrenar los modelos y probarlos con otros métodos.


Clasificación de los sitios primarios del cáncer mediante el aprendizaje automático y las mutaciones somáticas

Una clasificación precisa del cáncer humano, incluido su sitio primario, es importante para una mejor comprensión del cáncer y el desarrollo de estrategias terapéuticas eficaces. Los grandes datos disponibles de mutaciones somáticas nos brindan una gran oportunidad para investigar la clasificación del cáncer mediante el aprendizaje automático. Aquí, exploramos los patrones de 1,760,846 mutaciones somáticas identificadas de 230,255 pacientes con cáncer junto con información de función genética utilizando una máquina de vectores de soporte. Específicamente, realizamos un experimento de clasificación multiclase sobre los 17 sitios tumorales utilizando el símbolo del gen, la mutación somática, el cromosoma y la vía funcional del gen como predictores para 6.751 sujetos. El rendimiento de la línea de base utilizando solo características genéticas tiene una precisión de 0,57. Se mejoró a 0,62 al agregar la información de mutación y cromosoma. Entre los sitios de tumores primarios predecibles, la predicción de cinco sitios primarios (intestino grueso, hígado, piel, páncreas y pulmón) podría lograr el rendimiento con más de 0,70 pulg. F-la medida. El modelo del intestino grueso ocupó el primer lugar con 0,87 en F-la medida. Los resultados demuestran que la información de la mutación somática es útil para la predicción de sitios de tumores primarios con modelos de aprendizaje automático. Hasta donde sabemos, este estudio es la primera investigación de la clasificación de sitios primarios utilizando aprendizaje automático y datos de mutación somática.

1. Introducción

El cáncer es una enfermedad compleja, impulsada por la combinación de factores genéticos, ambientales y de estilo de vida. Entre estos factores, la combinación de múltiples genes que impulsan el desarrollo del cáncer varía considerablemente entre los tipos de cáncer y los pacientes [1]. Durante la última década, se han realizado investigaciones de mutaciones tanto a gran escala como en loci específicos con el fin de aumentar nuestro conocimiento de la heterogeneidad molecular en esta compleja enfermedad. En particular, varios proyectos de genoma del cáncer a gran escala y basados ​​en red han generado datos multidimensionales y de todo el genoma. Estos proyectos incluyen el Atlas del Genoma del Cáncer (TCGA) [2], el Proyecto del Genoma del Cáncer del Wellcome Trust Sanger Institute [3] y el Consorcio Internacional del Genoma del Cáncer (ICGC) [4]. Estos proyectos han avanzado drásticamente la investigación del cáncer, especialmente en su genética y genómica [5]. Se ha lanzado a la comunidad un panorama de mutaciones somáticas del cáncer, que se centra principalmente en los patrones de cambio de nucleótidos (por ejemplo, C- & gtT) y firmas de mutaciones en los genomas del cáncer [6]. Entre estos logros, algunos se han traducido en diagnóstico molecular, mejor pronóstico y nuevas terapias dirigidas. Por ejemplo, las mutaciones de la línea germinal en BRCA1 y BRCA2 confieren un alto riesgo de cáncer de mama y de ovario [7]. Su genotipificación se utiliza para determinar la susceptibilidad al cáncer de mama y de ovario [8-10]. Para controlar el tratamiento, el aumento del nivel de expresión del marcador tumoral circulante, el receptor 2 del factor de crecimiento epidérmico humano (HER2), se utiliza para determinar el tratamiento de un anticuerpo monoclonal trastuzumab en el cáncer de mama [11-13]. Sin embargo, el cáncer es muy heterogéneo y la clasificación del cáncer es un primer paso fundamental en la investigación adicional de la patología del cáncer y el desarrollo de tratamientos eficaces.

Para la clasificación del cáncer, el método fundamental se basa principalmente en la célula de origen o sus tipos histológicos [14]. Durante las dos últimas décadas, se ha presentado el perfil molecular para la clasificación de tipos y subtipos de cáncer, así como para la evaluación de la heterogeneidad de las muestras de cáncer [15]. Por ejemplo, en el cáncer de mama, estudios recientes que se basan principalmente en datos de expresión génica basados ​​en microarrays y agrupaciones jerárquicas no sesgadas han identificado varios subtipos moleculares: similar a basal, ErbB2 +, similar a mama normal, subtipo luminal A y subtipo luminal B [16, 17]. Se encontró que la elaboración de perfiles de expresión génica adicional era eficaz para identificar subtipos aún más específicos en el tipo de cáncer de mama triple negativo [18]. A medida que se dispone de una gran cantidad de datos genómicos, transcriptómicos y proteómicos en las células cancerosas y los pacientes, recientemente se propuso un modelo integrado de clasificación del cáncer para capturar los atributos conocidos del cáncer mediante la integración de la morfología, las células madre del cáncer, la proteómica y la genómica [19]. . Sin embargo, al igual que otros esquemas de integración de datos, presenta un gran desafío desarrollar un método eficaz y completo para la clasificación del cáncer.

Recientemente, se han aplicado enfoques de secuenciación de próxima generación a estudios de cáncer, incluida la secuenciación del genoma completo, la secuenciación del exoma completo, la secuenciación de genes dirigidos, la secuenciación del transcriptoma completo, la secuenciación de microARN en todo el genoma y la epigenómica, proporcionando la resolución más alta (resolución de pares de bases) de información genética y genómica en cáncer. Estos conjuntos de datos nos brindan una oportunidad sin precedentes en la investigación sistemática e integrada de los mecanismos moleculares del cáncer. Por ejemplo, Vogelstein et al. analizaron sistemáticamente los paisajes de mutaciones en 96 tipos de cáncer informados en 127 publicaciones, lo que proporcionó conocimientos profundos sobre la arquitectura genómica del cáncer [20]. Entre estos conjuntos de datos, los datos de mutaciones somáticas en los genomas del cáncer se han acumulado de manera espectacular, lo que hace posible descubrir nuevos genes y mutaciones del cáncer [21-23], dibujar paisajes mutacionales entre múltiples cánceres [6, 24] y explorar los mecanismos moleculares de tumorigénesis [25]. En este estudio, planteamos la hipótesis de que las características de la enorme cantidad de mutaciones somáticas podrían actuar como contribuyentes efectivos para la clasificación del sitio del cáncer. Además, otro objetivo del estudio es buscar las asociaciones entre los sitios del cáncer y las características de la mutación a mayor escala mediante el aprendizaje automático.

En este estudio, propusimos un nuevo marco de clasificación de sitios de cáncer mediante la investigación de mutaciones somáticas mediante enfoques de aprendizaje automático. La información de la mutación somática incluye (1) información del paciente, (2) genes asociados a la mutación y (3) cromosomas asociados a la mutación. Extrajimos este tipo de información de la base de datos COSMIC (Catálogo de mutaciones somáticas en el cáncer) [26]. Además, integramos la función de genes asociados a mutaciones utilizando rutas de genes de la base de datos KEGG (Enciclopedia de genes y genomas de Kyoto) [27]. Nuestra evaluación mostró que la combinación de la mutación somática, el gen asociado a la mutación y las características cromosómicas asociadas a la mutación lograron el mejor desempeño de la clasificación del sitio del cáncer.

2. Métodos y materiales

2.1. Descripción general del diseño del estudio

El objetivo principal de este estudio es probar si las características de la mutación somática y la información relacionada con la mutación son útiles o tienen el poder de predecir el sitio primario del cáncer, ya que se han informado, recopilado y analizado sistemáticamente más de un millón de mutaciones somáticas en los genomas del cáncer. . Para abordar esta importante pregunta, aprovechamos los datos de COSMIC, que es la base de datos basada en anotaciones más completa para las mutaciones somáticas de numerosos pacientes con información sobre el tipo de cáncer. La Figura 1 ilustra el diseño del estudio.


Cómo las mutaciones en el ADN celular pueden provocar cáncer

A veces, el desarrollo del cáncer no se trata solo de que una célula tenga mutaciones en su ADN, sino de cuándo y cómo esas mutaciones cambian el comportamiento de la célula.

Peter Lewis, PhD, miembro del UW Carbone Cancer Center, estudia cómo estos cambios de comportamiento pueden llevar a que las células se conviertan en cáncer, y cómo los médicos e investigadores pueden aprovechar estos cambios para atacar los cánceres de manera más eficaz.

En un aspecto de su investigación, Lewis se centra en cómo se activan y desactivan los genes durante el desarrollo embrionario, y cómo la mala regulación de esos genes puede conducir a algunos cánceres infantiles.

"En la mayoría de los cánceres de adultos, los tumores probablemente surgen de la acumulación de mutaciones en genes promotores y supresores de tumores durante muchos años, y en el contexto correcto, esas mutaciones pueden conducir a cánceres", dijo Lewis. "Pero, por supuesto, los niños no tienen décadas para acumular mutaciones, entonces, ¿cómo desarrollan los niños los tumores temprano?"

Lewis y su grupo de investigación en el Instituto de Descubrimiento de Wisconsin estudian cómo las mutaciones en las proteínas histonas que organizan el ADN conducen al desarrollo del cáncer. Por ejemplo, en un tipo de cáncer cerebral pediátrico, el 85 por ciento de todos los tumores tienen una mutación de histona en común. Lewis y sus colegas han demostrado que, si está presente en el momento adecuado del desarrollo, esta mutación de histonas impide la regulación genética adecuada y hace que las células madre permanezcan "atascadas" en forma de células madre, lo que promueve la formación de cáncer. Sin embargo, si introducen la mutación en otras células, el cáncer no se forma.

"La mayoría de nosotros superamos esta ventana y nos desarrollamos normalmente, pero los niños que padecen estos cánceres parecen adquirir la mutación de histonas en estos tipos de células específicos y en la ventana de desarrollo correcta", dijo Lewis. “Y hay otros tipos de mutaciones que solo funcionan en otros tipos específicos de cáncer. No sabemos por qué algunas células son exquisitamente sensibles a las mutaciones en momentos específicos, pero sabemos que no es un problema único ".
El trabajo de Lewis tiene implicaciones no solo en los cánceres cerebrales pediátricos, sino también en otros cánceres infantiles, en la comparación de los cánceres de adultos con los pediátricos y en una mejor comprensión del desarrollo humano temprano.

En algunos de esos otros cánceres a los que se refirió Lewis, surgen diferentes tipos de mutaciones, no en las histonas en sí mismas, sino en las proteínas que las depositan en el ADN. Aún así, el resultado final es similar: los genes se activan o desactivan en el momento equivocado. En algunos casos, los genes del cáncer se activan y, por lo tanto, estas mutaciones están vinculadas a formas agresivas de tumores neuroendocrinos, neuroblastomas y leucemias, por nombrar algunos. En otros casos, sin embargo, se activa un conjunto diferente de genes que no están necesariamente relacionados con la formación del cáncer.

“El ocho por ciento de nuestro genoma son virus inactivos que se insertan en nuestro ADN. Están inactivos debido a los mecanismos de silenciamiento basados ​​en histonas ", dijo Lewis. "Pero si las histonas no están ahí para silenciar los virus, entonces suceden cosas extravagantes".

Esas cosas "extravagantes" pueden conducir a la expresión de ARN viral y proteínas, que pueden servir como señales para desencadenar mecanismos de vigilancia inmunológica. A su vez, estos mecanismos le indican al sistema inmunológico del cuerpo que algo anda mal y la célula necesita ser eliminada. Lewis y sus colegas, incluido el oncólogo médico de UW Carbone Josh Lang, MD, creen que los médicos pueden aprovechar esta respuesta inmune durante el tratamiento.

"Estamos analizando cómo podemos desreprimir selectivamente estos virus para poder generar una respuesta inmune ilícita como un impulso a la inmunoterapia contra el cáncer", dijo Lewis. "No estamos trabajando directamente en la parte de inmunoterapia en este momento, pero estamos trabajando para comprender los mecanismos que silencian el ADN viral en tumores que podrían ser súper sensibles a las perturbaciones en las vías de silenciamiento".


DISCUSIÓN

DriverDB aprovecha al máximo la enorme cantidad de datos de exome-seq publicados en los últimos años al integrar el análisis de genes impulsores de numerosos métodos, así como al proporcionar visualizaciones de información de mutación de acuerdo con diferentes aspectos. Como se describe en la sección "Introducción", se han desarrollado diferentes algoritmos bioinformáticos para identificar genes impulsores basados ​​en varios supuestos y características, cada uno de los cuales proporciona diferentes puntos de vista con respecto a los genes impulsores. DriverDB integra los resultados del análisis de métodos individuales / múltiples y proporciona tres niveles de interpretación biológica: Oncología genética, Vía e Interacción proteína / genética. Estos resultados de visualización ayudarán a los usuarios a darse cuenta rápidamente de las relaciones entre los genes impulsores. En la figura complementaria S1 se muestra un ejemplo representativo de genes impulsores identificados en GBM. Se identificaron un total de 14 genes impulsores (cada gen mediante al menos 4 métodos), y casi todas las muestras tenían al menos 1 mutación deletérea entre estos 14 genes. Se sabe que diez genes (CDKN2A, EGFR, PTEN, TP53, CDK4, PIK3R1, NF1, PIK3CA, RB1 e IDH1) son críticos en la tumorigénesis de GBM (49, 50). Para los otros cuatro genes (ATRX, CHEK2, CPSF6 y COL6A3), nuestro análisis funcional muestra que están involucrados en categorías relacionadas con el ciclo celular (Figura complementaria S1F). Además, se ha informado que ATRX es el gen conductor en glioblastomas (51) y neuroblastomas (52, 53) pediátricos. CHEK2 es relevante para el cáncer de mama / ovario familiar (54) y los neuroblastomas (54). CPSF6 puede mejorar las capacidades invasivas o inhibir la proliferación de células cancerosas (55). Las variantes empalmadas y la metilación aberrante de COL6A3 también están relacionadas con cánceres (56–58). Los genes informados en otras referencias pero no incluidos en nuestra lista de 14 genes pueden identificarse mediante criterios menos estrictos (como los identificados mediante al menos tres métodos, por ejemplo, PDGFRA, MDM2, MDM4 y CDKN2B).

La sección "Gen" está diseñada para ayudar a los investigadores a visualizar los datos de mutación de un gen conductor. El ejemplo representativo es PIK3CA, un gen conductor bien conocido en GBM, así como en otros cánceres (Figura complementaria S2). Es fácil encontrar que hay dos regiones de mutación de hotspot (en el medio y al final de la proteína), especialmente en la figura "Porcentaje de mutación" (Figura complementaria S2D). Los dos genes impulsores conocidos, BRAF y KRAS, también tienen las mismas características (Figura complementaria S4). Sin embargo, un gen conductor puede tener distintas regiones de mutación de hotspot en diferentes cánceres. Por ejemplo, a diferencia de los cánceres de pulmón que llevan mutaciones de EGFR en el dominio quinasa (KD), la activación de EGFR en GBM se produce a través de una mutación en el dominio extracelular (59). Esto se ha señalado como la razón por la que los GBM con mutaciones en el dominio extracelular responden mal a los inhibidores de EGFR (p. Ej., Erlotinib) que se dirigen a la conformación de la quinasa activa (59). Este fenómeno fue recapturado por nuestro cálculo y estaba presente en el "Perfil de mutación" de EGFR en DriverDB (Figura complementaria S5).

En la sección "Gen", los colores del gráfico de barras indican el impacto funcional de una mutación, que puede ayudar a transmitir información importante. Por ejemplo, se ha informado que FLT3 está mutado en aproximadamente un tercio de los pacientes con leucemia mieloide aguda y tiene dos regiones de hotspot: una consiste en mutaciones de duplicación interna en tándem (ITD) de 3 a 400 pb (siempre dentro del marco) y el otro consiste en mutaciones puntuales en el ácido aspártico 835 del KD (60). Dicha información de mutación para FLT3 se puede obtener fácilmente en DriverDB (Figura complementaria S6).

Varios estudios han evaluado el rendimiento de las herramientas existentes para predecir mutaciones deletéreas y los resultados han demostrado que la identificación de mutaciones que provocan cáncer sigue siendo un desafío importante (5, 61). Por lo tanto, usamos el "Driver Score", que integra la información de siete herramientas computacionales, para describir el nivel deletéreo de una mutación y para resaltar la región de mutación del hotspot. Por ejemplo, la distribución Driver Score del gen relacionado con el cáncer "MLL2" implica que la tercera región de la proteína MLL2 juega un papel más importante que otras posiciones (Figura complementaria S7). En resumen, en la sección "Gen" de DriverDB, los investigadores pueden estar fácilmente informados cuando las mutaciones se concentran en una / algunas posiciones proteicas específicas / dominios / exones / cáncer (s).

La sección "Metanálisis" permite al usuario volver a definir un grupo de muestras de uno o varios conjuntos de datos y luego identificar los genes impulsores de las muestras seleccionadas. Se ha observado que las mutaciones se acumulan durante la progresión del tumor. Se pueden usar diferentes mutaciones impulsoras para convertir una célula normal en una célula tumoral o para convertir un tumor benigno en uno maligno. El momento de las mutaciones es relevante para la metástasis, y hay mutaciones que ocurren durante este proceso (1). Por lo tanto, si pudiéramos definir las muestras mediante un objetivo biológico o clínico clarificado, tendríamos la oportunidad de identificar un conjunto específico de genes impulsores para una pregunta distinta. Para lograr esto, DriverDB ofrece una lista de características clínicas para definir muestras y proporciona un alto grado de libertad para que los investigadores utilicen la enorme cantidad de datos de secuenciación. Por ejemplo, en la Figura complementaria S3 seleccionamos solo 180 muestras del proyecto de cáncer de mama TCGA. Su diseminación patológica linfática y la oncología histológica del ICD son "N0" y "carcinoma de conducto infiltrante, NOS", respectivamente.

Se han desarrollado varias bases de datos y marcos para integrar datos genómicos a gran escala (2), incluidos cBioportal (62, 63) e IntOGen (64). cBioportal contiene conjuntos de datos de TCGA y proporciona capacidades de búsqueda basadas en genes para explorar de forma interactiva datos genómicos multidimensionales del cáncer. IntOGen es un marco que integra datos multidimensionales para la identificación de genes y módulos biológicos implicados en el desarrollo del cáncer. DriverDB incorpora un trabajo de minería de datos a gran escala utilizando estos algoritmos de una sola vez, presenta genes impulsores resumidos y proporciona diferentes tipos de aspectos para la visualización de mutaciones. Otra parte única de DriverDB es que también ayuda a los investigadores a identificar genes impulsores de una manera definida por el cliente.

NGS se ha convertido en la norma para la investigación del cáncer a gran escala, y los resultados del exoma-seq del cáncer se acumularán rápidamente en los próximos años. Por ejemplo, TCGA examinará más de 11.000 muestras para 20 tipos de cáncer para finales de 2014. Debido a las Pautas de publicación de TCGA (http://cancergenome.nih.gov/abouttcga/policies/publicationguidelines), partes de los datos de TCGA son excluido en DriverDB. A medida que pase el tiempo, los datos de TCGA, así como de otros proyectos / literatura sobre el cáncer, no tendrán limitaciones de publicación y se incorporarán en DriverDB actualizado. Prevemos que estos nuevos genes impulsores o mutaciones identificados y almacenados en DriverDB tendrán un gran potencial tanto para la investigación básica como para el desarrollo de productos biotecnológicos.


¿Dónde puedo encontrar conjuntos de datos de mutaciones para el cáncer? - biología

Abstracto: El objetivo es modelar la actividad transcripcional de la p53 mutante (activa frente a inactiva) basándose en datos extraídos de simulaciones biofísicas.

Características del conjunto de datos:

Características de los atributos:

Los modelos biofísicos de proteínas p53 mutantes producen características que pueden usarse para predecir la actividad transcripcional de p53. Todos los marcadores de clase se determinan mediante ensayos in vivo.

Los siguientes archivos se proporcionan para reconstruir este subconjunto histórico de este conjunto de datos:
K8.instance.tags - provides the precise p53 mutant tag for each instance in the K8.data, for use with the historical definition files:
K1.def - defines instances in the 'K1' set.
K2.def - defines instances in the 'K2' set.
K3.def - defines instances in the 'K3' set.
K4.def - defines instances in the 'K4' set.
K5.def - defines instances in the 'K5' set.
K6.def - defines instances in the 'K6' set.
K7.def - defines instances in the 'K7' set.
K8.def - defines instances in the 'K8' (full) set.

Attribute Information:

There are a total of 5409 attributes per instance.
Attributes 1-4826 represent 2D electrostatic and surface based features.
Attributes 4827-5408 represent 3D distance based features.
Attribute 5409 is the class attribute, which is either active or inactive.
The class labels are to be interpreted as follows: 'active' represents transcriptonally competent, active p53 whereas the 'inactive' label represents cancerous, inactive p53. Class labels are determined experimentally.

More information is provided in the relevant papers cited.

Danziger, S.A., Baronio, R., Ho, L., Hall, L., Salmon, K., Hatfield, G.W., Kaiser, P., and Lathrop, R.H. (2009) Predicting Positive p53 Cancer Rescue Regions Using Most Informative Positive (MIP) Active Learning, PLOS Computational Biology, 5(9), e1000498

Danziger, S.A., Zeng, J., Wang, Y., Brachmann, R.K. and Lathrop, R.H. (2007) Choosing where to look next in a mutation sequence space: Active Learning of informative p53 cancer rescue mutants, Bioinformatics, 23(13), 104-114.

Danziger, S.A., Swamidass, S.J., Zeng, J., Dearth, L.R., Lu, Q., Chen, J.H., Cheng, J., Hoang, V.P., Saigo, H., Luo, R., Baldi, P., Brachmann, R.K. and Lathrop, R.H. (2006) Functional census of mutation sequence spaces: the example of p53 cancer rescue mutants, IEEE/ACM transactions on computational biology and bioinformatics / IEEE, ACM, 3, 114-125.

If you use this dataset, please cite the relevant papers above. Gracias.


Discusión

The definition of driver mutations, that is, mutations that promote tumorigenesis, implies that these mutations reflect the trade-off between the selection for maximum cell proliferation and selection for cell-cycle control that is essential for multicellular life forms. Thus, at least in principle, the study of the evolution of driver states could shed light on the fundamental aspects of the evolution of multicellularity. In this work, we analyze deep multisequence alignments for a representative ensemble of cancer driver genes and explore the appearance and distribution of driver mutations throughout species evolution. This analysis allows us to broadly assess the fitness effects of driver mutations across varying evolutionary spans. In general, driver states are strongly avoided such that almost half of the drivers included in this study are not detected in any of the available orthologs of the driver genes. Thus, the majority, if not all, driver mutations have a negative organismal fitness effect, even in unicellular life forms and those multicellular organisms that are not subject to cancer, such as plants and fungi. In that regard, one has to keep in mind that cancer cell proliferation drastically differs from normal cell division in that tumorigenesis involves various forms of genome instability including aneuploidy 56,57 .

Surprisingly, the distribution of drivers is largely non-specific with respect to taxa, and driver states appear to be roughly equally avoided among invertebrates, fungi, and plants. In other words, the prevalence of driver states does not strongly depend on the evolutionary distance of a taxon from mammals. This observation motivates the hypothesis that missense mutations identified as pathological in mammalian or metazoan species outside the context of cancer are widely avoided in general. We identified too few alignable orthologs among prokaryotes for robust statistical analysis, but some drivers are completely avoided even in this group. Notably, however, drivers are more common among protists, and driver gene distribution appears to be more heterogenous among the unicellular than among multicellular eukaryotes. This patchy distribution of driver genes among unicellular eukaryotes, combined with the more common occurrence of driver states in those orthologs of driver genes that have been detected, might reflect the absence, in unicellular organisms, of some of the mechanisms that control cell division and cell–cell cooperation in multicellular life forms. These mechanisms appear to be shared by all multicellular life forms, even when they lack a multicellular common ancestor, and their failure results in cancer in metazoans. However, at present, this interpretation should be taken with caution because the relatively few protist genome sequences that are currently available poorly represent the enormous diversity of unicellular eukaryotes. Further analysis of the growing collection of protist genomes should clarify the links between drivers and multicellularity.

Despite the pronounced overall avoidance of the drivers, a sizable fraction of driver mutations appear as ancestral states across major clades including non-primate mammals. Although this might seem to provide evidence for ‘molecular atavism’ 58 , for many drivers fixed at some point during species evolution, likely compensatory mutations were identified, and many more, probably, remain undetected. When available, examination of the corresponding protein structures often elucidates credible mechanisms by which the compensatory residue(s) could balance or counteract the effects of the driver through direct interaction (e.g., steric effects, pH, etc.) or modification of small molecule binding pockets or protein–protein interaction interfaces.

Here we employed a phylogenetics first approach to the identification of compensators which does not rely on structural information and, conversely, can inform subsequent structural studies. As the body of available gene and protein expression data grows, this in silico approach for the identification of compensators can be augmented through validation of the functional effects of the drivers by utilizing transcriptome and proteome analyses. Separation of pairwise associations from noise in the MSA can be challenging 59,60,61 , motivating the development of new methods 62 . Here we present a coherent approach to quantitatively assess relevance of such associations (see “Methods” for details). Achieving statistical significance requires a critical number of sequences to harbor the driver, which is unrealistic for extremely deleterious states, as well as a small ensemble of candidate compensators. For example, reviewing the well-characterized driver PTPN11: A72T 63 , we identified a candidate compensator F285Y, which likely maintains interaction with the driver residue through hydrogen bonding, further supported by the observation that F285S is also a driver (Supplementary Fig. 19). However, notwithstanding this plausible biological argument, the probability of independent co-occurrence of the pair is high and does not pass our selection criteria. Thus, the conservative set of compensators we infer here is only a subset of all mutations compensating for the deleterious effects of drivers, in agreement with previous observations indicating that intra-protein epistasis is pervasive in evolution 64 .

Previous work not only suggests the presence of many compensated missense mutations (even if the compensator is often unknown) across the species tree 65 , with a long list for mice 66 , but also that for every deleterious state, there are multiple, typically more than 10, possible compensatory mutations 67 . In the case of drivers, one would expect that the (putative) compensators detected in other species should be avoided in cancers, given that they mitigate the effect of drivers. As expected, we detected multiple compensators for many drivers, but surprisingly, we additionally found that numerous mutation pairs co-occurred at much higher frequencies than expected by chance in both species and tumors (Fig. 5a). Such putative compensators were identified for the most commonly observed drivers (Supplementary Fig. 20). One could speculate that, in these cases, the compensation of the impairment of protein function caused by the driver mutation is only partial and results in a level of activity of the respective proteins that is optimal for tumor growth (put another way, certain uncompensated driver mutations could be deleterious even in tumors). Clearly, however, the causes of the seemingly paradoxical congruent associations between DM and compensatory mutations in tumors and in species evolution require further investigation. In particular, analysis of mutant allele frequencies (MAF) and examination of within-tumor selection signatures have the potential to demonstrate that driver MAFs are higher when paired with a compensator or otherwise clarify the underlying dynamics. Regardless of the underlying mechanism(s), these findings imply that many mutations that are considered to be drivers due to their repeated detection in tumors are actually compensators 68 .

Altogether, our findings clearly indicate that most if not all cancer driver mutations are deleterious for the respective organisms irrespective of whether or not they are prone to cancer. For a substantial fraction of drivers, the deleterious effect is apparently so pronounced that they are universally avoided in evolution. However, the majority of the drivers appear as ancestral states in some groups of organisms, and for many of these, compensators are identifiable. Structural and functional investigation of the interactions between drivers and compensators can be expected to shed light on mechanisms of tumorigenesis the roles of oncogenes and tumor suppressors in different organismal contexts and protein evolution in general.


Conception and design: E. Rios Velazquez, C. Parmar, Y. Liu, T.P. Coroller, Z. Ye, R.H. Mak, R.J. Gillies, J. Quackenbush, H. Aerts

Development of methodology: E. Rios Velazquez, C. Parmar, O. Stringfield, R.H. Mak, J. Quackenbush, H. Aerts

Acquisition of data (provided animals, acquired and managed patients, provided facilities, etc.): E. Rios Velazquez, Y. Liu, T.P. Coroller, O. Stringfield, Z. Ye, F.M.M. Fennessy, R.H. Mak, H. Aerts

Analysis and interpretation of data (e.g., statistical analysis, biostatistics, computational analysis): E. Rios Velazquez, C. Parmar, Y. Liu, T.P. Coroller, F.M.M. Fennessy, R.H. Mak, R.J. Gillies, H. Aerts

Writing, review, and/or revision of the manuscript: E. Rios Velazquez, C. Parmar, Y. Liu, T.P. Coroller, O. Stringfield, Z. Ye, G.M. Makrigiorgos, F.M.M. Fennessy, R.H. Mak, R.J. Gillies, J. Quackenbush, H. Aerts

Administrative, technical, or material support (i.e., reporting or organizing data, constructing databases): Y. Liu, R.H. Mak, R.J. Gillies, H. Aerts

Study supervision: E. Rios Velazquez, Z. Ye, H. Aerts

Other (collection of data and analysis of radiology imaging studies): G. Cruz