Información

Análisis de datos de los datos de secuenciación del transcriptoma

Análisis de datos de los datos de secuenciación del transcriptoma



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Quiero aprender más sobre el análisis de datos y las estadísticas sobre los datos de secuenciación del transcriptoma. Me gustaría leer algunos artículos importantes del campo y libros y tal vez algunos MOOCS, si están disponibles.

Más precisamente, tengo datos de genes expresados ​​diferencialmente en diferentes grupos de individuos y quiero probar, si los genes están más expresados ​​en un grupo, ¿son los genes también más polimórficos?

¿Algunas ideas?


Análisis de transcriptomas mediante secuenciación de próxima generación

La investigación actualizada en biología, biotecnología y medicina requiere tecnologías rápidas de análisis de genoma y transcriptoma para la investigación del estado, fisiología y actividad celular. Aquí, la tecnología de microarrays y la secuenciación de transcripciones de próxima generación (RNA-Seq) son lo último en tecnología. Dado que la tecnología de microarrays se limita a la cantidad de ARN, la cuantificación de los niveles de transcripción y la información de la secuencia, RNA-Seq ofrece posibilidades casi ilimitadas en el bioanálisis moderno. Este capítulo presenta una descripción detallada de la secuenciación de próxima generación (NGS), describe el impacto de esta tecnología en el análisis del transcriptoma y explica sus posibilidades para explorar el mundo moderno del ARN.

Gráficamente abstracto

Reflejos

► Presentamos una descripción detallada de la secuenciación de próxima generación (NGS). ► Describimos las tecnologías y plataformas para el análisis de transcriptomas. ► Explicamos el análisis de datos NGS. ► Informamos sobre nuevas aplicaciones de NGS.


Fondo

Los flavonoides son un grupo de metabolitos secundarios que se distribuyen ampliamente en las plantas. Se han dividido en varios subgrupos importantes, como antocianinas, proantocianidinas, flavonoles, flavonas e isoflavonas [1]. Estos metabolitos desempeñan importantes funciones biológicas relacionadas específicamente con el desarrollo y la defensa de las plantas. Las antocianinas son pigmentos solubles en agua que intervienen principalmente en la coloración de flores y frutos. Por lo tanto, las antocianinas son importantes para atraer a los polinizadores y también influyen en la dispersión de semillas [2]. Además, las antocianinas son antioxidantes naturales [3]. Las proantocianidinas son taninos condensados ​​y se concentran principalmente en las semillas, pero también afectan el sabor de la fruta [4]. Los flavonoles, flavonas, flavanonas e isoflavonas ayudan a proteger las plantas de la radiación ultravioleta y los patógenos [5]. Además, los flavonoides son esenciales para la adaptación de las plantas al estrés biótico y abiótico [6].

La vía de biosíntesis de flavonoides es una rama de la vía fenilpropanoide [7] y requiere varias enzimas. Por ejemplo, los genes que codifican PAL (fenilalanina amoniaco liasa), CHS (calcona sintasa), CHI (calcona isomerasa) y F3H (flavanona 3-hidroxilasa) son los primeros genes biosintéticos (EBG) que producen precursores comunes en los primeros pasos de la vía [8]. Los genes biosintéticos tardíos (LBG) contribuyen a una etapa posterior, durante la cual se sintetizan productos flavonoides específicos como antocianinas, proantocianidinas y flavonoles. Los LBG incluyen los que codifican DFR (dihidroflavonol 4-reductasa), ANS (antocianina sintasa) y UFGT (UDP-glucosa: flavonoide 3-glucosiltransferasa), que participan específicamente en la biosíntesis de antocianinas [9]. Por el contrario, LAR (leucoantocianidina reductasa) y ANR (antocianina reductasa) son enzimas clave que median la biosíntesis de proantocianidina [10]. Además, FLS (flavonol sintasa) es específico para la biosíntesis de flavonol [11]. Los genes estructurales de la vía de biosíntesis de flavonoides están controlados transcripcionalmente por el complejo MYB-bHLH-WDR (MBW) que comprende un factor de transcripción MYB, una hélice-bucle-hélice básica (bHLH) y una proteína de repetición WD [12].

La biosíntesis de flavonoides se ve afectada por varios factores, como la luz [13], la temperatura [14], el déficit de agua [15] y la deficiencia de nutrientes [16]. Además, las fitohormonas se encuentran entre los reguladores más importantes de la biosíntesis de compuestos flavonoides en las plantas. Los efectos de las hormonas vegetales, como jasmonato [17, 18], ácido abscísico [19, 20], auxina [21], etileno [22], citoquinina [23] y giberelina [24], sobre la acumulación de flavonoides han sido ampliamente estudió.

Los jasmonatos son oxilipinas (ácidos grasos oxigenados) sintetizados por las vías octadecanoide / hexadecanoide [25]. El ácido jasmónico se puede metabolizar a varios derivados, incluyendo metil jasmonato (MeJA), jasmonoil-isoleucina (JA-Ile), ácido jasmonil-1-aminociclopropano-1-carboxílico (JA-ACC), derivados glucosilados de JA (p. Ej., JA- O-Glc) y cis-jasmona. Sin embargo, de estos derivados, solo MeJA y JA-Ile han sido bien caracterizados [26]. Múltiples estudios han revelado que la aplicación de MeJA induce la biosíntesis de flavonoides en diferentes especies de frutas como la manzana (Malus domestica) [27], uva [28], arándano [29] y fresa (Fragaria × ananassa) [30]. En la pera, la aplicación poscosecha de MeJA induce la acumulación de antocianinas en la piel de la fruta bajo irradiación UV-B / Vis [31]. Además de la antocianina, Ni et al. [22] informó que MeJA aumenta la acumulación de otros derivados flavonoides, incluidas la flavona y la isoflavona, en la pera.

El mecanismo molecular subyacente a la acumulación de antocianinas inducida por jasmonato se ha aclarado en Arabidopsis thaliana (Arabidopsis) y manzana [17, 32, 33]. Las proteínas de dominio ZIM de jasmonato (JAZ) son sustratos del complejo SCF COI1 y regulan negativamente la vía de señalización de jasmonato [34, 35]. Las proteínas JAZ pueden interactuar directamente con MYB y bHLH e interrumpir la formación del complejo MBW [32, 36]. Después de que se percibe la señal de jasmonato, las proteínas JAZ son reclutadas por COI1 al complejo SCF COI1 para la ubiquitinación y, posteriormente, son degradadas por la vía del proteasoma 26S [32]. Esto desencadena la liberación de factores de transcripción MYB y bHLH y la formación del complejo MBW para activar la expresión de genes estructurales de la vía de biosíntesis de flavonoides [18, 33]. Los niveles de expresión de los genes del factor de transcripción MYB y bHLH están regulados positivamente por MeJA en Arabidopsis y apple, lo que sugiere que estos factores de transcripción están regulados por la vía de señalización del jasmonato. Sin embargo, el mecanismo molecular asociado con la biosíntesis de flavonoides inducida por MeJA en la pera es en gran parte desconocido. Por lo tanto, en el presente estudio, los callos de pera tratados con MeJA se sometieron a un análisis de transcriptoma completo para identificar los genes expresados ​​diferencialmente (DEG) entre los callos de pera de control tratados con MeJA y sin tratar. Además, se construyó una red de coexpresión para detectar las transcripciones relacionadas específicamente con la biosíntesis de flavonoides inducida por MeJA. Este estudio generó un conjunto de genes candidatos que deberían analizarse con mayor detalle para aclarar el mecanismo molecular asociado con la biosíntesis de flavonoides inducida por MeJA en la pera. Específicamente, examinamos los callos de pera debido a su falta de restricciones estacionales y la facilidad con la que se pueden observar sus efectos genéticos en un sistema homogéneo, lo que puede acelerar sustancialmente el estudio de las funciones genéticas en la pera.


Resultados

Mapa de clasificación de vías de los genes expresados ​​diferencialmente según la secuenciación del transcriptoma

Las bibliotecas de ADNc se construyeron a partir de los grupos W y X de peces mandarín y se secuenciaron utilizando el sistema Illumina Hiseq2000. Se ensamblaron lecturas de alta calidad. Después de eliminar las secuencias de solapamiento parcial, se obtuvo un total de 77,312 secuencias distintas (All-Unigene, tamaño medio: 1138 pb, N50: 2334 pb). En estos unigene, el 49,06% (37,927) tenían menos de 500 pb, el 50,94% (39,385) tenían más de 500 pb, en los que el 34,38% (26,578) tenían más de 1000 pb. Encontramos 54 genes que se expresan diferencialmente entre los dos grupos, 29 y 25 genes están regulados al alza y regulados a la baja en el pez mandarín del Grupo X, respectivamente. La vía metabólica mostró los genes expresados ​​más diferencialmente (Fig. 1a yb), en los que el metabolismo de lípidos, la transducción de señales y los mapas de descripción global mostraron que 10, 6 y 13 genes se expresaron diferencialmente, respectivamente (Fig. 1a). Y el factor rico de la biosíntesis de esteroides y el metabolismo de los glicerolípidos es el más grande de todos (Fig. 1b). Los detalles de los genes expresados ​​diferenciales entre los dos grupos se presentaron en la Tabla 1. Los datos de secuenciación de este estudio se han depositado en la base de datos Sequence Read Archive (SRA) (número de acceso: PRJNA613186).

a Mapa de clasificación de vías de los genes expresados ​​diferencialmente. B Factor rico de los genes expresados ​​diferencialmente de diferentes vías según la secuenciación del transcriptoma

Análisis de metabolitos diferenciales de dos grupos

Analizamos los perfiles metabólicos de los dos grupos mediante LC-MS en los modos de escaneo positivo (ESI +) y negativo (ESI−), y seleccionamos 9249 hierros para análisis posteriores (4155 hierros en modo ESI + y 5094 hierros en modo ESI−).

Los datos normalizados fueron analizados por PCA y PLS-DA con análisis multivariado. El resultado de PCA mostró que los iones positivos y negativos de los diferentes grupos estaban en los dos grupos y estaban claramente separados por los dos primeros componentes (Fig. 2a). El resultado de PLS-DA mostró la clara separación de los dos grupos (Fig. 2b), lo que sugiere cambios bioquímicos significativos. El análisis de agrupamiento jerárquico (HCA) de los metabolitos diferenciales mostró que el Grupo X y W mostraron diferencias significativas (Fig. 2c). La información de estos biomarcadores metabolómicos se enumeró en la Tabla 2.

a Gráfico de dispersión de puntuaciones de PCA en los modos de exploración de iones positivos (izquierda) y de iones negativos (derecha) para los dos grupos. B Gráfico de dispersión de puntuaciones de PLS-DA en los modos de exploración de iones positivos (izquierda) y de iones negativos (derecha) para los dos grupos. C El mapa de calor de los metabolitos diferenciales de las vías relacionadas entre los dos grupos en modo positivo y negativo. Cada línea representa un metabolito diferencial y cada cruce representa un grupo de muestra de plasma. Los diferentes colores representan una intensidad de abundancia diferente, y la intensidad de abundancia más alta muestra un aumento gradual de color oscuro a rojo.

Para identificar los metabolitos, utilizamos la base de datos de acceso libre de la Enciclopedia de genes y genomas de Kyoto (KEGG) para dilucidar la función putativa de los metabolitos. Se identificaron 44 y 20 hierros por nivel MS1 y MS2 en modo positivo respectivamente, y 24 y 11 hierros en nivel MS1 y MS2 en modo negativo respectivamente. Los detalles de los iones diferenciales entre los dos grupos se presentaron en la Tabla 3.

Las vías comunes de los metabolitos y genes diferenciales

En la vía de metabolismo del retinol, los metabolitos del retinol, 9-cis-retinol y 11-cis-retinol fueron más altos en los peces mandarín del Grupo X que en los del Grupo W, la expresión del gen RDH (retinol deshidrogenasa) fue consistentemente más alta en el Grupo X (Fig.3a ). En la vía del metabolismo de los glicerolípidos, la expresión del gen de la triacilglicerol lipasa fue mayor en el pez mandarín del Grupo X, y los metabolitos glicerofosfóricos también fue mayor en el Grupo X (Fig. 3b). En la biosíntesis de la ruta de los ácidos grasos insaturados, la expresión del gen estearoil-CoA y los metabolitos del DPA (ácido docosapentaenoico) fueron más altos en los peces del Grupo X que en los del Grupo W (Fig. 3c).

Vías de los genes y metabolitos expresados ​​diferencialmente según el transcriptoma y el metaboloma. a Metabolismo del retinol B Metabolismo de glicerolípidos C Biosíntesis de grasas insaturadas

TFIIF expresión génica y metilación del ADN

Como se muestra en la Fig. 4a, Factor de transcripción general IIF (TFIIF) la expresión génica fue mayor en el pez mandarín del Grupo X que en el del Grupo W. Luego, analizamos las islas CpG a - 5000 pb aguas arriba del sitio de inicio de la transcripción (designado como 0) de TFIIF por software de análisis de metilación. Como se muestra en la Fig.4b, una isla CpG que contiene 9 sitios CpG existía en - 3619 a - 3574 pb de TFIIF gene. El nivel de metilación total del ADN fue significativamente más alto en los peces del Grupo X que en el del Grupo W (Tabla 4).

TFIIF expresión génica y metilación del ADN. a TFIIF la expresion genica. B Ilustración de la región de sitios de islas CpG, que incluye 9 sitios CpG, patrones de metilación del ADN de los dos grupos (X y W) analizados por BSP. Cada línea representa un clon bacteriano individual y cada círculo representa un solo dinucleótido CpG. Los círculos abiertos muestran CpG sin metilar y los círculos negros muestran CpG metilado

Ezh1 expresión génica y metilación de histonas

La expresión de ARNm de la histona metiltransferasa ezh1 gen fue menor en el pez mandarín del Grupo X (Fig. 5a). Como la histona metiltransferasa Ezh1 podría metilar "Lys-27" de la histona H3, analizamos los niveles de H3K27me3 de los dos grupos. Los resultados mostraron que el nivel de H3K27me3 también fue más bajo en el pez mandarín del Grupo X que en el del Grupo W (Fig. 5b).

a Validación de ezh1 Expresión de ARNm. B El nivel de proteína H3K27me3 entre el Grupo X y W. Los datos son la media ± SEM (norte = 6), la diferencia significativa se marca con un asterisco (PAG & lt 0.05)


Una guía paso a paso para enviar datos de RNA-Seq a NCBI

El análisis de datos de transcriptomas de organismos no modelo contribuye a nuestra comprensión de diversos aspectos de la biología evolutiva, incluidos los procesos de desarrollo, la especiación, la adaptación y la extinción. Detrás de esta diversidad hay una característica compartida, la generación de enormes cantidades de datos de secuencia. Los requisitos de disponibilidad de datos en la mayoría de las revistas obligan a los investigadores a hacer que sus datos de transcriptomas sin procesar estén disponibles públicamente, y las bases de datos alojadas en el Centro Nacional de Información Biotecnológica (NCBI) son una opción popular para la deposición de datos. Desafortunadamente, el envío exitoso de secuencias sin procesar al Sequence Read Archive (SRA) y los ensamblajes de transcriptoma al Transcriptome Shotgun Assembly (TSA) puede ser un desafío para los usuarios novatos, lo que retrasa significativamente la disponibilidad y publicación de datos. Investigadores de la Universidad de Medicina Veterinaria de Hannover presentan dos protocolos integrales para enviar datos de RNA-Seq a las bases de datos del NCBI, acompañados de un sitio web fácil de usar que facilita el envío oportuno de datos por parte de investigadores de cualquier nivel de experiencia.


RNA-seq: el principio

RNA-seq, también llamado secuenciación de escopeta de transcriptoma completo, se refiere al uso de tecnologías de secuenciación de alto rendimiento (ver más abajo) para caracterizar el contenido de ARN y la composición de una muestra dada. Debido a las limitaciones tecnológicas en la actualidad, la información de secuencia de las transcripciones no se puede recuperar en su totalidad, sino que se descompone aleatoriamente en lecturas cortas de hasta varios cientos de pares de bases (Fig. 2). En ausencia de información del genoma o del transcriptoma, primero es necesario reconstruir las transcripciones a partir de estas lecturas (o pares de lecturas), lo que se conoce como de novo montaje. En el caso de que la transcripción o la información del genoma estén fácilmente disponibles, las lecturas se pueden alinear directamente con la referencia. Además, contar las lecturas que caen en una transcripción dada proporciona una medida digital de la abundancia de la transcripción, que sirve como punto de partida para la inferencia biológica (Fig. 1).


Tabla de contenido (16 capítulos)

Comparación de perfiles de expresión génica en organismos eucariotas no modelo con RNA-Seq

Análisis de datos de microarrays para la creación de perfiles de transcriptomas

Análisis de rutas y redes de genes expresados ​​diferencialmente en transcriptomas

QuickRNASeq: Guía para la implementación de canalizaciones y para la visualización interactiva de resultados

Seguimiento de isoformas empalmadas alternativamente a partir de lecturas largas por SpliceHunter

Análisis de estructura de transcripciones basado en secuencia de ARN con TrBorderExt

Análisis de sitios de edición de ARN a partir de datos de secuencia de ARN utilizando GIREMI

Análisis bioinformático de datos de secuenciación de microARN

Análisis de datos de expresión de microARN basado en microarrays con bioconductor

Análisis de identificación y expresión de ARN no codificantes intergénicos largos

Análisis de datos de RNA-Seq usando TEtranscripts

Análisis computacional de interacciones ARN-proteína mediante secuenciación profunda

Predicción del ruido de expresión génica a partir de variaciones de expresión génica

Un protocolo para el análisis de impronta epigenética con datos de secuencia de ARN

Análisis de transcriptomas unicelulares con SINCERA Pipeline

El modelado matemático y la desconvolución de la heterogeneidad molecular identifica nuevas subpoblaciones en tejidos complejos


Big Data to the Bench: Análisis de transcriptomas para estudiantes universitarios

Los métodos basados ​​en secuenciación de próxima generación (NGS) están revolucionando la biología. Su prevalencia requiere que los biólogos conozcan cada vez más los métodos computacionales para gestionar la enorme escala de datos. Como tal, la introducción temprana al análisis NGS y la conexión conceptual con los experimentos de laboratorio húmedo es crucial para la formación de científicos jóvenes. Sin embargo, desafíos importantes impiden la introducción de estos métodos en el aula de pregrado, incluida la necesidad de programas informáticos especializados y conocimientos de codificación informática. Aquí, describimos una experiencia de investigación de pregrado basada en un curso de un semestre en una universidad de artes liberales que combina el análisis de secuenciación de ARN (RNA-seq) con experimentos de laboratorio húmedo impulsados ​​por estudiantes para investigar las respuestas de las plantas a la luz. Los estudiantes derivaron hipótesis basadas en el análisis de datos de RNA-seq y diseñaron estudios de seguimiento de la expresión génica y el crecimiento de las plantas. Nuestras evaluaciones indican que los estudiantes adquirieron conocimientos sobre el análisis de big data y la codificación de computadoras; sin embargo, una exposición más temprana a los métodos computacionales puede ser beneficiosa. Nuestro curso requiere un conocimiento previo mínimo de biología vegetal, es fácil de replicar y se puede modificar a un módulo de investigación dirigida más corto. Este marco promueve la exploración de los vínculos entre la expresión génica y el fenotipo utilizando ejemplos que son claros y manejables y mejora las habilidades computacionales y la autoeficacia bioinformática para preparar a los estudiantes para la era de los "grandes datos" de la biología moderna.

Cifras

Resumen del calendario de…

Resumen del horario de actividades de la clase.

Análisis estudiantil de la expresión genética ...

Análisis de los estudiantes de la expresión génica y el fenotipo de los pacientes tratados con sombra. Arabidopsis plántulas. (Un diagrama de flujo…


Métodos computacionales para el análisis de datos de secuenciación de próxima generación

Este libro proporciona un estudio en profundidad de algunos de los desarrollos recientes en NGS y analiza los desafíos matemáticos y computacionales en varias áreas de aplicación de las tecnologías NGS. Los 18 capítulos que aparecen en este libro han sido escritos por expertos en bioinformática y representan el trabajo más reciente en laboratorios líderes que contribuyen activamente al campo de rápido crecimiento de NGS. El libro está dividido en cuatro partes:

La Parte I se centra en la infraestructura informática y experimental para el análisis NGS, incluidos los capítulos sobre computación en la nube, tuberías modulares para la reconstrucción de vías metabólicas, estrategias de agrupación para la secuenciación viral masiva y protocolos de secuenciación de alta fidelidad.

La Parte II se concentra en el análisis de los datos de secuenciación del ADN, que cubre el problema clásico del andamiaje, la detección de variantes genómicas, incluidas las inserciones y deleciones, y el análisis de los datos de secuenciación de la metilación del ADN.

La Parte III está dedicada al análisis de datos de RNA-seq. En esta parte se analizan los algoritmos y se comparan las herramientas de software para el ensamblaje del transcriptoma junto con los métodos para la detección de empalmes alternativos y las herramientas para la cuantificación del transcriptoma y el análisis de la expresión diferencial.

La Parte IV explora las herramientas computacionales para las aplicaciones de NGS en microbiómica, incluida una discusión sobre la corrección de errores de las lecturas de NGS de poblaciones virales, métodos para la reconstrucción de cuasiespecies virales y una encuesta de métodos de vanguardia y tendencias futuras en el análisis de microbiomas.

Métodos computacionales para el análisis de datos de secuenciación de próxima generación:

  • Revisa técnicas computacionales como nuevos métodos de optimización combinatoria, estructuras de datos, computación de alto rendimiento, aprendizaje automático y algoritmos de inferencia.
  • Analiza los desafíos matemáticos y computacionales en las tecnologías NGS.
  • Cubre la corrección de errores de NGS, el ensamblaje del transcriptoma del genoma de novo, la detección de variantes de las lecturas de NGS y más

Este texto es una referencia para los profesionales biomédicos interesados ​​en ampliar sus conocimientos de técnicas computacionales para el análisis de datos NGS. El libro también es útil para estudiantes de posgrado y posgrado en bioinformática.

Biografías del autor

Ion Mandoiu, PhD, es profesor asociado en el Departamento de Ingeniería y Ciencias de la Computación de la Universidad de Connecticut, EE. UU. Sus principales intereses de investigación se encuentran en el diseño y análisis de algoritmos de aproximación para problemas de optimización NP-hard, particularmente en el área de bioinformática. El Dr. Mandoiu es autor de más de 100 artículos arbitrados en revistas y actas de congresos. También ha coeditado (con A. Zelikovsky) un libro sobre Algoritmos de bioinformática: técnicas y aplicaciones (Wiley 2008).

Alexander Zelikovsky, Doctor, es profesor universitario distinguido en el Departamento de Ciencias de la Computación de la Universidad Estatal de Georgia, EE. UU. Su investigación se centra en algoritmos discretos y sus aplicaciones en biotecnología y biología computacional, bioinformática, VLSI CAD y redes inalámbricas. El Dr. Zelikovsky es autor de más de 170 publicaciones arbitradas. Se desempeñó como copresidente del Simposio Internacional sobre Investigación y Aplicaciones de Bioinformática (2005-2016) y del Taller sobre Avances Computacionales en Secuenciación de Próxima Generación (2011-2015).


Comentarios de los revisores

Informe de revisores 1

Rohan Williams, Escuela de Investigación Médica John Curtin, Universidad Nacional de Australia, Australia. Nominado por Gavin Huttley

RNA-Seq y la secuenciación de alto rendimiento relacionada están recibiendo mucha atención debido a su potencial para estudiar el transcriptoma de una manera global e imparcial. Si bien es probable que estos enfoques basados ​​en la secuenciación permitan un avance importante en las tecnologías basadas en microarrays, también es muy probable que se presenten errores sistemáticos imprevistos en estos datos y sea necesario corregirlos para permitir una aplicación adecuada. Si bien se sabe que los microarrays de expresión y los arreglos en mosaico están sujetos a varios de tales efectos, hasta la fecha ha habido poca investigación de problemas en la literatura emergente de RNA-Seq. Oshlack y Wakefield ahora presentan un nuevo análisis de datos de varios estudios recientes de RNA-Seq para mostrar que la identificación de la expresión diferencial está sesgada positivamente hacia transcripciones más largas (y tiene el potencial de impactar la interpretación aguas abajo a un nivel funcional). Aunque se reconoce que el recuento de etiquetas será proporcional al producto del nivel de expresión y la longitud de la transcripción, ajustar la longitud de la transcripción no elimina este efecto: los autores muestran que el efecto surge de una mayor varianza para las transcripciones abreviadas. Además, argumentan que es poco probable que este efecto se elimine mediante un análisis a nivel de exón. Curiosamente, este efecto no es observable en plataformas de expresión de microarrays. Este artículo representa una contribución importante al desarrollo continuo de la metodología de análisis para RNA-Seq y lo recomiendo para su publicación en Biology Direct.

Informe de revisores 2

Nicole Cloonan, Instituto de Biociencia Molecular, Universidad de Queensland, Australia. Nominado por Mark Ragan

En este artículo, los autores describen el "sesgo de longitud de la transcripción" en los datos de RNAseq, que es el poder estadístico reducido para detectar la expresión génica diferencial de los ARNm cortos en comparación con los ARNm largos utilizando un enfoque de "secuenciación rápida". Como las moléculas de ARNm fragmentadas aleatoriamente generarán menos etiquetas de lectura corta para una transcripción corta que para una transcripción más larga, los cambios en la expresión entre dos transcripciones (relativamente) muestreadas de manera deficiente son menos discernibles a partir del ruido de muestreo. Los autores examinan tres estudios publicados basados ​​en secuenciación de escopeta para mostrar que este sesgo existe en los datos de secuenciación, pero no en los datos de microarrays correspondientes de las mismas muestras. Este sesgo contra las transcripciones cortas podría conducir a una subrepresentación general en las pruebas de conjuntos de genes para categorías funcionales enriquecidas en genes cortos (como la comunicación célula-célula, la inmunidad innata y la transducción de señales). Este es un hallazgo importante que la comunidad de secuenciación de ARN debe conocer.

El manuscrito está generalmente bien escrito y los autores han hecho bien en crear un manuscrito comprensible para una audiencia biológica sin una formación matemática o estadística especializada. Como todas mis preocupaciones (generalmente menores) con este manuscrito se han abordado adecuadamente, recomiendo este manuscrito para su publicación.

Informe de revisores 3

James Bullard, División de Bioestadística, Facultad de Salud Pública, Universidad de California, Berkeley, EE. UU. Nominado por Sandrine Dudoit

En Oshlack y Wakefield, los autores demuestran una relación entre la longitud del gen y la significación observada de una prueba estadística en tres estudios publicados (Marioni et al., Cloonan et al., Sultan et al.). Los autores demuestran que esta tendencia observada no está presente en el análisis de las mismas muestras en el estudio de Marioni cuando se utilizan microarrays. Este "sesgo" se debe a la dependencia de la varianza de la intensidad del proceso de lectura que es proporcional a la longitud de la transcripción secuenciada.

El revisor recomienda el artículo para su publicación, ya que los temas presentados son relevantes e importantes. En particular, los problemas presentados son bastante pertinentes con la llegada de numerosos estudios de secuenciación de alto rendimiento. El revisor cree que, en su forma actual, el artículo se beneficiaría de algunas revisiones para presentar las matemáticas de manera más rigurosa o simplemente presentar las estadísticas descritas en los estudios infractores.

Antecedentes: párrafo 2, "Hipotetizamos". ¿Por qué está formulando hipótesis? Creo que esta oración necesita hacer referencia a una estadística de prueba en particular, entonces realmente no es necesario formular una hipótesis.

Respuesta del autor: Creemos que la afirmación del artículo se relaciona con todos los métodos de análisis estadístico bajo los supuestos que hemos establecido; sin embargo, no lo hemos hecho ni podemos probar todos los métodos posibles. Por lo tanto, hemos utilizado la palabra hipotetizar pero también hemos dado un ejemplo en la sección de métodos..

Antecedentes: párrafo 3, "Todos los métodos para la detección de". ¿No parece esta oración un poco fuerte?

Respuesta del autor: Modificamos esto a "La mayoría de los métodos estadísticos".

Resultados: párrafo 2, ¿puede comentar por qué el "sesgo de longitud" es más fuerte para genes de expresión más baja? Además, creo que es mejor presentar todos los datos en los gráficos, en lugar de excluir el contenedor del medio.

Respuesta del autor: Hemos agregado la oración: "Creemos que la pendiente es menor en genes altamente expresados ​​debido a la observación de que casi todos estos genes tienen suficiente poder para ser llamados expresados ​​diferencialmente en este conjunto de datos, aunque los valores p son más altos para genes más cortos ".

Resultados: párrafo 3, En los gráficos de varianza media, ¿cómo se calcula la varianza? ¿Es esto solo la varianza de la muestra? ¿Qué pasa con los diferentes números de conteos en los carriles? En cuanto al panel (2), después de dividir por longitud, no tenemos un Poisson, por lo que la gráfica de varianza media no es correcta o al menos la interpretación adecuada no es obvia (¿no es obvio que causaremos un cambio en la gráfica porque ahora estamos escalando por longitud al cuadrado?)

Respuesta del autor: Sí, este es exactamente el punto que estamos tratando de hacer. Esta trama está destinada a ser de naturaleza más heurística en lugar de una prueba rigurosa de que dividir por longitud no elimina el sesgo de longitud. Por lo tanto, acabamos de utilizar la varianza de la muestra sin tener en cuenta el número diferente de recuentos en los carriles como demostración visual. Para aclarar, también hemos agregado la oración: "Sin embargo, cuando la media se divide por la longitud de la transcripción, la relación se vuelve más compleja y los datos obviamente ya no son de Poisson".

Resultados: párrafo 4, Un gráfico potencialmente "mejor" serían los diagramas de caja (de longitud de genes) ordenados de mayor a menor valor p de KEGG tanto para microarrays como para datos de secuenciación.

Respuesta del autor: Gracias por la sugerencia. Sentimos que la trama que sugirió era un poco más complicada de interpretar..

Métodos: párrafo 1, Las matemáticas son un poco descuidadas. En general, existe confusión entre variables aleatorias y parámetros. Específicamente, noto dos errores obvios: 1.) t se define como una cosa (variables aleatorias en el lado derecho de la ecuación (1)) y luego se redefine para ser otra cosa (parámetros en el lado derecho de la siguiente definición). 2.) Métodos: párrafo 2, μ ' es un parámetro, entonces haces el Var (μ ') lo cual es incorrecto, probablemente desee definir un X' en su lugar, puede tomar variaciones.

Respuesta del autor: Gracias por señalar esto. Hemos modificado y ordenado las matemáticas..

De su tratamiento, parece que puedo dividir t por √ L para eliminar la dependencia de L en la estadística de prueba, ¿es correcto?

Respuesta del autor: No, no creo que esto sea posible. Una prueba t es como una relación señal / ruido y, por lo tanto, tiene una relación específica entre la estimación de la media y el error estándar de la estimación. No creo que esto deba romperse esencialmente dividiendo la estimación de la media por √ L.


Ver el vídeo: 2021-2022 Διάλεξη 00 Στατιστική Ανάλυση Δεδομένων (Agosto 2022).