Información

Secuenciación de ARNr 16s del microbioma intestinal (heces)

Secuenciación de ARNr 16s del microbioma intestinal (heces)


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

¿Extraigo ARN o ADN del microbioma intestinal (muestras de heces) si quiero hacer una secuenciación de ARNr 16s?


En general, se extrae ADN, luego se extraen mediante PCR las regiones codificantes de 16rRNA y finalmente se las secuencia. Aquí algunos enlaces

http://press.igsb.anl.gov/earthmicrobiome/protocols-and-standards/16s/

http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0068739

https://support.illumina.com/content/dam/illumina-marketing/documents/products/other/16s-metagenomics-faq-1270-2014-003.pdf


Secuenciación del gen del ARNr 16S frente a la secuenciación metagenómica de escopeta

¿Es una empresa, laboratorio o investigador que está planificando un nuevo estudio de microbioma?Si es así, probablemente esté considerando la posibilidad de realizar una secuenciación del gen del ARNr 16S o una secuenciación metagenómica de escopeta. Aunque la secuenciación del gen del ARNr 16S se ha utilizado más comúnmente para estudios de microbiomas hasta la fecha, la metagenómica de escopeta se está volviendo más accesible y popular en la investigación de microbiomas. Sin embargo, cada método tiene sus pros y sus contras, que deben tenerse en cuenta antes de decidir qué método de secuenciación utilizar. Aquí está su guía integral para la secuenciación de genes de ARNr 16S frente a la secuenciación de escopeta para ayudarlo a generar los mejores datos para su investigación.


Introducción

Si bien la microbiota que vive en y en el cuerpo humano ha sido reconocida durante mucho tiempo como fundamental para comprender una variedad de enfermedades humanas, solo estamos comenzando a comprender su papel igualmente crítico en el mantenimiento de la salud humana. Para facilitar esta comprensión, los Institutos Nacionales de Salud lanzaron el Proyecto de Microbioma Humano (HMP) en 2008 [1] para secuenciar el microbioma de sujetos humanos sanos (http://commonfund.nih.gov/hmp). Uno de los objetivos principales del HMP es caracterizar el microbioma humano de individuos sanos y describir, si es posible, un microbioma central. Los NIH inscribieron a más de 200 sujetos sanos, tanto hombres como mujeres, y recolectaron muestras de ADN microbiano de 18 sitios corporales diferentes [2]. Investigadores de muchas instituciones académicas diferentes forman parte del Grupo de trabajo de análisis de datos de HMP que analiza los datos de la secuencia de HMP para responder una serie de preguntas fundamentales para una comprensión básica de un microbioma humano saludable. El HMP está utilizando la secuenciación de etiquetas de rRNA 16S para dilucidar los tipos de microbios y sus abundancias relativas y la secuenciación metagenómica de escopeta para averiguar qué funciones pueden estar realizando estos microbios. Estos análisis, que se publican como un manuscrito general [3] y una serie de artículos complementarios, sientan las bases para futuras investigaciones en el microbioma humano: las similitudes y diferencias entre los individuos y los sitios del cuerpo, y a través del tiempo la cantidad y los tipos de microbios y qué papel juegan en la salud humana.

El gen de ARNr 16S se considera el estándar de oro para estudios filogenéticos de comunidades microbianas y para asignar nombres taxonómicos a bacterias. La explosión de datos de secuencia provocada por la secuenciación de próxima generación (NGS) está destacando una riqueza de microbios no anticipada anteriormente. NGS viene con una clara compensación. El número de lecturas secuenciadas es mayor en órdenes de magnitud que los métodos anteriores (por ejemplo, secuenciación de Sanger), pero las lecturas son mucho más cortas. La longitud de lectura con la tecnología Roche GS-FLX ('454') ha aumentado rápidamente de 100 nt en 2006 a más de 400 nt en la actualidad. Desafortunadamente, los taxonomistas no pueden proporcionar nombres taxonómicos para todos los organismos novedosos descubiertos por esta profundidad de muestreo sin precedentes. Incluso en las secciones del árbol bacteriano que están bien descritas, las herramientas existentes generalmente no son suficientes para proporcionar nombres de especies o información filogenética para millones de lecturas breves. Por ejemplo, la herramienta más comúnmente utilizada para asignar taxonomía a etiquetas 16S, el clasificador Ribosomal Database Project (RDP) [4], en el mejor de los casos clasifica las secuencias 16S solo hasta el nivel de género, aunque muchas secuencias que están lejos de las comúnmente utilizadas. Las secuencias de referencia o que son taxonómicamente ambiguas solo pueden describirse a niveles de clase, orden o familia. Para complementar los análisis que se basan en nombres taxonómicos limitados, las secuencias de ARNr 16S se pueden agrupar en unidades taxonómicas operativas (OTU) con una similitud del 97% (diferencia del 3%). Generalmente se reconoce que este nivel de agrupamiento basado en secuencias proporciona diferenciación de organismos bacterianos por debajo del nivel de género, aunque sería inexacto suponer que este nivel de agrupamiento define consistentemente especies o cepas microbianas.

Estudios previos han demostrado una gran variación en la microbiota intestinal y nasal entre individuos [5], [6], [7], [8], [9], y en la microbiota en diferentes sitios corporales dentro de un solo individuo [10 ]. Este estudio utiliza la mayor cantidad de sujetos sanos hasta la fecha para buscar la posibilidad de un conjunto de OTU centrales comunes entre individuos y sitios corporales dentro del contexto más amplio de variación. Utilizando el enfoque OTU, analizamos los datos de secuenciación de etiquetas HMP 16S para buscar organismos que se encuentran en la mayoría o en todos los sujetos sanos. La profundidad de la secuenciación por muestra en este proyecto no es adecuada para comprender la naturaleza o extensión de los organismos raros que a menudo juegan un papel importante en la salud y la enfermedad. En cambio, nos enfocamos en los organismos más abundantes que son comunes entre los individuos.


Análisis bioinformático

Figura 1. Datos de ARNr de Illumina MiSeq 16S de muestras de saliva conservadas durante más de 6 años con el dispositivo de conservación y recolección de ADN de saliva de Norgen (Cat. RU49000). El ADN de la saliva se aisló utilizando el kit de aislamiento de ADN de saliva de Norgen (Cat. RU45400) de la saliva que se había conservado durante varios períodos de tiempo hasta 6 años a temperatura ambiente. La abundancia relativa (%) se muestra por cada muestra y muestra los 10 más abundantes por género.

Figura 1. Datos de ARNr de Illumina MiSeq 16S de muestras de saliva conservadas durante más de 6 años con el dispositivo de conservación y recolección de ADN de saliva de Norgen (Cat. RU49000). El ADN de la saliva se aisló utilizando el kit de aislamiento de ADN de saliva de Norgen (Cat. RU45400) de la saliva que se había conservado durante varios períodos de tiempo hasta 6 años a temperatura ambiente. La abundancia relativa (%) se muestra por cada muestra y muestra los 10 más abundantes por género.

Figura 2. La curva de rarefacción Alfa se utiliza para evaluar la riqueza de especies. La curva se genera calculando la cantidad de diferentes OTU (unidad taxonómica operativa) en relación con el tamaño de la muestra.

Figura 2. La curva de rarefacción Alfa se utiliza para evaluar la riqueza de especies. La curva se genera calculando la cantidad de diferentes OTU (unidad taxonómica operativa) en relación con el tamaño de la muestra.

Figura 3. Datos del microbioma 16S generados por Illumina MiSeq. El ADN de las heces se aisló usando el kit de aislamiento de heces de Norgen (sistema de microesferas Magenetic) (Cat. 55700) de 200 mg de heces de 9 donantes. La diversidad de Shannon es una métrica común de diversidad alfa que mide la riqueza y diversidad de una población.

Figura 3. Datos del microbioma 16S generados por Illumina MiSeq. El ADN de las heces se aisló usando el kit de aislamiento de heces de Norgen (sistema de microesferas Magenetic) (Cat. 55700) de 200 mg de heces de 9 donantes. La diversidad de Shannon es una métrica común de diversidad alfa que mide la riqueza y diversidad de una población.

Figura 4. Se aisló con éxito ADN de suelo de alta calidad a partir de muestras de suelo utilizando (A) el kit de aislamiento de ADN de suelo de Norgen (sistema de perlas magnéticas) (Cat. 58100) y (B) el kit de aislamiento de ADN de suelo de Norgen Plus (Cat. 64000) respectivamente. A continuación, el ADN purificado se utilizó con éxito en la secuenciación del microbioma del ARNr 16S. Una vez que las muestras secuenciadas se ensamblan en OTU (unidad taxonómica operativa) en función del 97% de identidad, el árbol filogenético representa la relación evolutiva entre estas OTU.

Figura 4. Se aisló con éxito ADN de suelo de alta calidad a partir de muestras de suelo utilizando (A) el kit de aislamiento de ADN de suelo de Norgen (sistema de perlas magnéticas) (Cat. 58100) y (B) el kit de aislamiento de ADN de suelo de Norgen Plus (Cat. 64000) respectivamente. A continuación, el ADN purificado se utilizó con éxito en la secuenciación del microbioma del ARNr 16S. Una vez que las muestras secuenciadas se ensamblan en OTU (unidad taxonómica operativa) en función del 97% de identidad, el árbol filogenético representa la relación evolutiva entre estas OTU.

Figura 5. Análisis de coordenadas principales (PCoA) de 26 muestras que muestra las diferencias en la distribución de la clasificación taxonómica entre muestras de un nivel de género, utilizando una métrica Unifrac no ponderada. La métrica Unifrac no ponderada es sensible a las diferencias en las características poco abundantes.

Figura 5. Análisis de coordenadas principales (PCoA) de 26 muestras que muestra las diferencias en la distribución de la clasificación taxonómica entre muestras de un nivel de género, utilizando una métrica Unifrac no ponderada. La métrica Unifrac no ponderada es sensible a las diferencias en las características poco abundantes.

  1. Figura 1.
  2. Figura 2.
  3. Figura 3.
  4. Figura 4.
  5. Figura 5.

Resultados

Para el conjunto de datos WEHI, los tamaños de las bibliotecas después del filtrado de calidad, la agrupación y la combinación de réplicas de PCR oscilaron entre 30.000 y 250.000 secuencias por muestra, con una mediana de 67.000 (Figura S1A) secuencias agrupadas en 12.652 OTU de tamaño mínimo 20. Para los datos de BCM conjunto, los tamaños de las bibliotecas oscilaron entre 5.000 y 56.000, con una mediana de 27.000 (Figura S1B) secuencias agrupadas en 3.675 OTU de tamaño mínimo 20. El número final de secuencias refleja diferentes protocolos de secuenciación y filtrado, incluido el uso de múltiples réplicas de PCR en WEHI .

Resumen taxonómico

Las muestras estuvieron dominadas a nivel de phylum por Bacteroidetes y Firmicutes, como se esperaba. La proporción media sumada de estos dos filos fue del 94%, variando del 71,9% al 99,7% entre muestras individuales. Asimismo, un solo pedido de cada uno de estos dos phyla, Bacteroidales y Clostridiales, fue dominante, con tres órdenes del phylum Proteobacterias contribuyendo con otro 1-2% en general (Fig. 2A, D ver también la Figura S2).

Descripción general del microbioma bacteriano fecal de la secuenciación en WEHI (A B C) o BCM (D, E, F). (ANUNCIO) Géneros bacterianos dominantes en muestras fecales, o taxones superiores donde el género no estaba disponible. Las barras están codificadas por colores por phyla: rojo Bacteroidetes, azul Firmicutes, verde Proteobacterias, marrón Actinobacterias, amarillo Verrucomicrobia. (SER) Diversidad alfa dentro de las muestras. Se muestran dos medidas: el número observado de OTU por muestra, una estimación de la riqueza y el índice de Simpson inverso que indica la uniformidad de la muestra. Las muestras se submuestrearon hasta el tamaño de muestra más pequeño, y los valores son la media de 10 submuestras aleatorias. Los recuadros muestran el rango intercuartil de los cuatro métodos en tres días. (C, F) Diversidad beta. Ordenación NMDS de la distancia UniFrac entre muestras, una representación de similitud filogenética.

La diversidad alfa (α) se utiliza para caracterizar la riqueza del microbioma y su uniformidad (heterogeneidad) o distribución de proporciones. Las muestras mostraron una considerable extensión de la diversidad α (Fig. 2B, E). Las muestras del individuo 66 tenían la riqueza observada más baja (número de OTU por muestra) y el índice de diversidad Inverse-Simpson más bajo, lo que indica el dominio de un número menor de OTU. Esto se refleja en las gráficas de géneros (Fig. 2A, D). En contraste, las muestras del individuo 11 tenían una alta riqueza observada pero un índice de Simpson inverso comparativamente bajo, consistente con la presencia de unos pocos géneros de alta abundancia y múltiples de baja abundancia.

El análisis de la diversidad β por ordenación de escala multidimensional no métrica (NMDS) de la distancia UniFrac mostró que las muestras se agrupan fuertemente por individuo, con una marcada separación entre individuos (Fig. 2C, F).

Diferencias entre conjuntos de datos WEHI y BCM

Para los conjuntos de datos WEHI y BCM, los phyla más abundantes fueron similares, pero las proporciones de phyla menos abundantes y mayor resolución taxonómica difirieron. Por ejemplo, la proporción media de género Akkermansia en el orden Verrucomicrobiales fue mayor en BCM (0,7%) que en WEHI (0,02%). La proporción de Bacteroides fue menor en algunas muestras individuales para BCM que WEHI (Fig. 2B también S2).

El conjunto de datos BCM produjo menos OTU y, por lo tanto, tuvo valores más bajos para la riqueza observada (Fig. 2B, E). El número de OTU observadas por muestra dependió de la profundidad de muestreo (Figura S3). Los valores que se muestran se basan en los tamaños de muestra más pequeños para cada uno de los dos conjuntos de datos. La riqueza fue similar entre los conjuntos de datos WEHI y BCM, con muestras del individuo 66 mostrando la diversidad alfa más baja y las del individuo 44 la más alta. Para el índice de diversidad Inverse-Simpson, que no depende del tamaño de la biblioteca a esta profundidad de secuenciación, el conjunto de datos BCM tenía un rango mayor de valores y un rango mayor para las muestras de algunos individuos. Ambos conjuntos de datos tenían patrones similares de diversidad beta entre individuos (Fig. 2C, F), aunque el conjunto de datos BCM tenía varios valores atípicos.

El análisis inicial se realizó por separado en los conjuntos de datos WEHI y BCM. Para una mejor comparación de las taxonomías, la tubería bioinformática se volvió a aplicar a un conjunto de datos que comprende las secuencias BCM y una de las tres réplicas técnicas WEHI (Fig. 3). La gráfica de ordenación muestra efectos de "lotes" entre los dos centros de secuenciación y mayores diferencias entre muestras en el conjunto de datos BCM.

Diversidad beta entre muestras de dos centros de secuenciación. Gráfica de ordenación de distancias de Bray-Curtis entre muestras, utilizando análisis de correspondencia sin tendencia. Los puntos representan muestras de BCM y una única réplica técnica de WEHI.

DESeq2 se utilizó para hacer modelos lineales generalizados para los recuentos a nivel de filo, orden y OTU (Tabla 1). El modelo incluyó la identificación individual, el día y el método de procesamiento de la colección como factores. A nivel de phylum, el cambio más grande fue en el Verrucomicrobia. A nivel de OTU, el 3% de las OTU fueron significativamente diferentes (Figura S4, Datos adicionales S1). La mayoría de las OTU con abundancia diferencial pertenecían a las órdenes Clostridiales (63%) y Bacteroidales (31%). La dirección del cambio en las OTU no fue consistente y no hubo diferencias significativas en los recuentos de Clostridiales y Bacteroidales entre conjuntos de datos WEHI y BCM.

Efecto del método de recopilación-procesamiento en el análisis taxonómico

Las pruebas del conjunto de datos WEHI para las abundancias diferenciales entre los métodos de recolección y procesamiento, utilizando DESeq2 con un diseño que controla el efecto de la persona y el día, no revelaron diferencias significativas en los conteos por filo, orden o familia (Tabla 2, Fig. 4A). Cinco OTU (0.04% de OTU que comprenden 0.2% de secuencias) fueron diferentes bajo el Método A de procesamiento de recolección. Con el conjunto de datos BCM, los Métodos A y B de procesamiento de recolección fueron taxonómicamente diferentes, con una disminución en Actinobacterias en el Método A (Fig. 4D) y un aumento en Lentisphaerae, aunque los recuentos fueron muy bajos (p & lt 0,001, Tabla adicional S1). Lentisphaerae también aumentaron en el Método A en comparación con los Métodos C y D (p & lt 0,05).

Efecto del método de procesamiento de la colección de la secuenciación en WEHI (A,B,C) o BCM (D,mi,F). (ANUNCIO) Registro de recuentos estandarizados (escalados por tamaño de biblioteca) de los cuatro filos más abundantes. Los puntos muestran la media y la desviación estándar de barras (sd) para cada método individual y de procesamiento de la colección. El método A tiene la DE promedio más pequeña para Bacteroidetes y Actinobacterias. (SER) El índice de diversidad α Inverse-Simpson para cada muestra (compárese con la Fig. 2). (C, F) Logaritmo medio (recuento estandarizado) representado frente a la media de los métodos de procesamiento de recopilación y se aplicó una regresión lineal. El método A tiene la mayor desviación promedio del modelo lineal para el conjunto de datos WEHI.

La diversidad varió dentro de una muestra dependiendo del método de recolección-procesamiento (Fig. 4B, E) pero el efecto fue pequeño e inconsistente. Después de ajustar un modelo lineal con entradas para el método y el individuo, no se tuvo en cuenta el 20-30% de la variación, mientras que el método de recolección-procesamiento representó solo el 2%. En general, la diversidad alfa fue ligeramente menor con el Método A en el conjunto de datos WEHI, y mayor con el Método B en el conjunto de datos BCM. (Tabla 3).

Los diferentes métodos de procesamiento de la colección también pueden aumentar la variación entre las muestras, reduciendo la reproducibilidad de un resultado. Se utilizaron dos enfoques para probar esto. Una mayor varianza entre muestras equivale a una mayor distancia entre muestras según alguna medida. Se calculó la disimilitud de Bray-Curtis entre los recuentos de OTU para pares de muestras de cada individuo y método, y se aplicó una prueba de diferencia significativa honesta de Tukey a un modelo lineal de disimilitud. No hubo evidencia de que la disimilitud entre las muestras fuera diferente para los métodos de recolección y procesamiento (p menor = 0.1) en el conjunto de datos WEHI. Hubo diferencias significativas en las distancias de Bray-Curtis entre las muestras en el conjunto de datos BCM (p & lt 0,001), con el Método de recolección-procesamiento A asociado con diferencias más pequeñas entre muestras del mismo individuo que los Métodos B, C y D (Tabla adicional S2) .

Además, buscamos diferencias en la varianza de los cuatro filos más abundantes. El registro transformado de recuentos estandarizados para Bacteroidetes, Firmicutes, Proteobacterias y Actinobacterias por muestra se compararon con la media de los métodos de recolección y procesamiento de cada individuo (Fig. 4C, F). En el conjunto de datos WEHI, los métodos B, C y D dieron resultados similares, mientras que el método A tuvo una menor varianza dentro de las muestras del mismo individuo pero una mayor desviación de la media en comparación con los otros métodos.

Efecto del método de procesamiento de colecciones en el tamaño de la biblioteca

Los métodos de recopilación y procesamiento se compararon después del filtrado de calidad, la extracción de códigos de barras y la agrupación. En el conjunto de datos WEHI, el número de secuencias de ADN extraídas por muestra no fue diferente por método de recolección-procesamiento en el conjunto de datos BCM, el método de recolección-procesamiento D resultó en menos secuencias que otros métodos de recolección-procesamiento, pero la diferencia fue pequeña en comparación con variación total (Figura S5). Los efectos por lotes (ejecución de secuenciación) fueron más significativos (p & lt 10-5) que el método de procesamiento de colección, pero el lote y el método juntos contribuyeron con menos del 5% de la variación en el tamaño de la biblioteca.


Clasificación taxonómica de secuencias bacterianas

Las asignaciones de taxonomía precisas basadas en alineaciones de secuencia siguen siendo un desafío computacional para las bibliotecas 16S y de escopeta, debido a las cortas longitudes de lectura de NGS. Antes de la clasificación taxonómica, las secuencias de amplicones de marcadores genéticos, como las regiones del gen del ARNr 16S bacteriano, se agrupan mediante dos enfoques principales (Sun et al., 2012 Chen et al., 2013). Primero, las secuencias se pueden agrupar en filotipos de acuerdo con su similitud con secuencias previamente anotadas en una base de datos de referencia (Liu et al., 2008). En segundo lugar, las unidades taxonómicas operativas (OTU) se pueden construir agrupando secuencias de novo, basado puramente en su similitud (Schloss y Westcott, 2011 Sun et al., 2012), que es computacionalmente mucho más intensivo. Por tanto, se recomienda un método híbrido que combine ambos enfoques. En todos los casos, se utiliza un umbral de similitud arbitrario para diferenciar grupos. El umbral de similitud del 99% se acepta generalmente como un buen sustituto de las especies (Stackebrandt y Ebers, 2006). Sin embargo, este umbral a menudo es insuficiente para discriminar entre especies estrechamente relacionadas, como diferentes miembros de las familias Enterobacteriaceae, Clostridiaceae y Peptostreptococcaceae. Es importante destacar que se han publicado herramientas analíticas de mayor resolución que superan algunas de las limitaciones asociadas con los algoritmos de agrupamiento (Eren et al., 2013, 2014 Tikhonov et al., 2015).

Se han compilado bases de datos de referencia completas para la anotación de metagenomas bacterianos secuenciados. Para los genes de ARNr 16S, esto incluye la base de datos de Greengenes (DeSantis et al., 2006), Ribosomal Database Project (RDP) (Cole et al., 2014) y SILVA (Quast et al., 2013). Además de sus extensos catálogos de secuencias de ARNr 16S curadas, disponibles para descargar, cada uno de esos portales también ofrece una serie de herramientas bioinformáticas para el análisis de secuencias NGS. Los servidores de análisis integrales como MG-RAST también están disponibles públicamente, que ya contienen bases de datos actualizadas con fines de anotación (Meyer et al., 2008). Más específicamente, el proyecto del microbioma humano (HMP) mantiene una colección curada de secuencias de microorganismos asociados con el cuerpo humano, incluidos eucariotas, bacterias, arqueas y virus, tanto de proyectos de secuenciación de escopeta como 16S (C. Human Microbiome Project, 2012a, b ). Uno de los enfoques para aumentar la resolución de la clasificación taxonómica de secuencias es compilar bases de datos que contengan solo las secuencias que probablemente existan en el entorno en estudio. Por ejemplo, se han creado bases de datos especializadas que comprenden solo miembros de la microbiota intestinal humana (Ritari et al., 2015 Forster et al., 2016).

También se han desarrollado enfoques bioinformáticos robustos para el análisis de datos de escopeta (Riesenfeld et al., 2004 Schloss y Handelsman, 2008 Wu y Eisen, 2008 Huson et al., 2011 Boisvert et al., 2012 Gevers et al., 2012 Kultima et al. ., 2012 Namiki et al., 2012 Segata et al., 2012). Los genes marcadores específicos de clado únicos (Mende et al., 2013) y los enfoques de posicionamiento del ancestro común más bajo (LCA) se encuentran entre los más populares. Para el primero, se calcula previamente un catálogo de marcadores de genes a partir de genomas bacterianos secuenciados previamente y las secuencias se clasifican taxonómicamente consultando el catálogo. Para el enfoque de LCA, las secuencias prealineadas se clasifican jerárquicamente en un árbol de taxonomía utilizando un algoritmo de ubicación (Aho et al., 1973 Huson et al., 2011). Las secuencias que superan un umbral de disimilitud (puntuación de bits) se colocan progresivamente en niveles de taxonomía más altos.


Métodos

Comparación en silico de la secuenciación completa del gen 16S frente a la parcial

El análisis in-silico se realizó por separado en dos bases de datos públicas no redundantes: Greengenes v13.8.99 29 y Human Oral Microbiome Database (HOMD) v13 30. En el texto principal solo se informan los resultados de la base de datos de Greengenes. Para el HOMD, se seleccionó al azar una única secuencia para representar cada especie presente en la base de datos. Como Greengenes no proporciona sistemáticamente una clasificación taxonómica a nivel de especie, se seleccionaron todas las secuencias con clasificación a nivel de género y se utilizaron secuencias representativas del 99% de grupos de similitud de secuencia para representar especies distintas. La Fig. Suplementaria & # x000a0 2a (y los datos fuente) indican el grado relativo en el que diferentes taxones bacterianos estaban representados dentro de esta base de datos derivada de Greengenes.

Se generaron amplicones en silico que delimitan diferentes subregiones del gen 16S recortando regiones definidas por conjuntos de cebadores establecidos (Tabla complementaria & # x000a0 1) usando Cutadapt v1.4.2 31, lo que permite hasta tres desajustes dentro de la alineación del cebador. Las secuencias se descartaron si una o más regiones variables (incluyendo V1 & # x02013V9) no podían ser identificadas por la herramienta de recorte, contenían N & # x02019s, o si el amplicón resultante estaba & # x0003e2 SD fuera de la longitud media observada para la región respectiva. Estos pasos de curación retuvieron el 15% y el 75% de las secuencias en las bases de datos de Greengenes y HOMD, respectivamente (Tabla complementaria & # x000a0 2). Los amplicones de longitud completa (V1 & # x02013V9) se alinearon usando MUSCLE 32 y se calculó la entropía de Shannon en cada posición base a lo largo de una sola E. coli str. K-12 substr. MG1655 (Fig. & # X000a0 1a) Secuencia del gen 16S (NCBI Gene ID 947777). Por consiguiente, las deleciones dentro de otras secuencias 16S están representadas en gráficos de entropía, mientras que las deleciones dentro de la secuencia de referencia no lo están.

Para determinar la resolución taxonómica proporcionada por diferentes regiones variables, cada amplicón in-silico se clasificó contra la base de datos de referencia filtrada a partir de la cual se generó usando el comando mothur classify.seqs 33 con un rango de umbrales de confianza mínimos (-cutoff 30 & # x0201398 ). Para crear OTU, los conjuntos de datos de amplicones in-silico generados para cada subregión se filtraron para eliminar secuencias no únicas y se reordenaron para que se correspondan con el orden de secuencia en el conjunto de datos V1 & # x02013V9. A cada amplicón se le asignó una abundancia unitaria y las OTU se generaron en una variedad de umbrales de similitud (97%, 98% y 99%) usando el comando USEARCH cluster_otus 34, con la detección de quimeras deshabilitada usando la opción -uparse_break & # x02212999.

Construcción de una comunidad simulada bacteriana

Con base en los datos disponibles del Proyecto de Microbioma Humano y la base de datos de Microbioma Oral Humano, se seleccionaron 36 cepas bacterianas para representar microbios prevalentes en los sitios del cuerpo humano, incluidas las vías respiratorias, el intestino, la cavidad oral, la piel y el tracto vaginal (Tabla complementaria & # x000a0 3) . El ADN de diez cepas se obtuvo directamente de ATCC (www.atcc.org). Las otras 26 cepas se cultivaron en medios y condiciones ambientales apropiados hasta que los cultivos alcanzaron la fase logarítmica tardía (Tabla complementaria & # x000a0 3) ​​35 & # x02013 38. A menos que se indique lo contrario, los anaerobios se cultivaron en una atmósfera de 90% N2, 5% H2y 5% CO2. El ADN se aisló suspendiendo cultivos en tampón TE que contenía 20 & # x02009 & # x02009ml & # x022121 lisozima y se incubó a 37 & # x02009 & # x000b0C durante 30 & # x02009 min. Posteriormente, se añadió tampón AL (Qiagen, Valencia, CA) que contenía 1,23 & # x02009 & # x02009ml & # x022121 de proteinasa K y las muestras se incubaron a 56 & # x02009 & # x000b0C durante la noche. Después, las muestras se incubaron a 95 ° C durante 5 ° C durante 5 min y se aisló el ADN usando un kit DNeasy Blood and Tissue (Qiagen). El ADN se eluyó en solución MD5 (MoBio Laboratories, Carlsbad, CA). El ADN aislado se combinó de una manera que representó diferentes números de copias del gen de ARNr 16S por especie. Brevemente, el tamaño del genoma (norte) en pb se estimó para cada organismo y se utilizó para calcular la masa de ADN (m) por genoma utilizando la fórmula metro& # x02009 = & # x02009 (norte) (1.096 & # x02009 & # x000d7 & # x0200910 & # x0221221 & # x02009g & # x02009bp & # x022121). A continuación, se normalizó la masa del genoma basándose en el número de copias previsto del gen de ARNr 16S (Tabla complementaria & # x000a0 3) ​​y se calculó la masa apropiada de ADN que contenía el número de copias 16S requerido para cada especie.

Secuenciación y ensamblaje de escopeta de preparación de la biblioteca de Illumina

La secuenciación de WGS se realizó para 19 miembros de la comunidad simulada que no tenían datos de secuencia de WGS disponibles públicamente. Las bibliotecas se crearon utilizando el kit Illumina TruSeq Nano DNA HT de acuerdo con las instrucciones del fabricante y # x02019s, y se secuenciaron en la plataforma Illumina MiSeq o HiSeq. Los genomas para los organismos secuenciados se ensamblaron individualmente usando SPAdes v3.5.0 39 con posprocesamiento habilitado (& # x02013careful).

Preparación y secuenciación de la biblioteca PacBio

Las bibliotecas de secuenciación se prepararon amplificando la región V1 & # x02013V9 del gen de ARNr 16S utilizando los cebadores 27F y 1492R (Tabla complementaria & # x000a0 1) y la polimerasa Accuprime Taq (Thermo Fisher Scientific, Waltham, MA). Los amplicones se purificaron utilizando kits de purificación de PCR (Qiagen, Hilden, Alemania) y se utilizó 1 & # x02009 & # x003bcg de ADN para el kit de preparación de plantillas SMRTbell 1.0 (Pacific Biosciences, Menlo Park, CA). Las secuencias adaptadas a SMRTbell se ejecutaron en la plataforma RS II de Pacific Biosciences (PacBio) utilizando química P6C4v2. Los archivos de salida se procesaron y ensamblaron en lecturas CCS utilizando CCS2 v3.0.1 estableciendo el mínimo de pasadas en 3, el mínimo & # x000a0 relación señal / ruido (SNR) en 4, la longitud mínima en 1200, la precisión mínima prevista en 0,9 y la mínima Z-puntaje hasta & # x022125. Se descartaron las secuencias de consenso de más de 1600 & # x02009bp.

Análisis de la comunidad bacteriana simulada

Las secuencias de genes de ARNr 16S de referencia que coinciden con cepas en la comunidad simulada se descargaron inicialmente de la base de datos de RDP 40. Varias secuencias de genes de referencia contenían llamadas de bases ambiguas. Por lo tanto, cada secuencia se alineó con su ensamblaje WGS respectivo y se extrajo la región de ensamblaje alineada para crear un conjunto de genes de referencia mejorado que contiene una única secuencia de genes de ARNr 16S representativa para cada miembro de la comunidad simulada.

Para determinar la variación de secuencia en los datos de PacBio CCS, las lecturas generadas a partir de la comunidad simulada se alinearon con el conjunto de genes de referencia simulado utilizando Cross_match 41 con la puntuación de alineación mínima (-minscore) establecida en 750, la penalización por sustitución (-penalty) establecida en & # x022129, y solo la mejor alineación para cada lectura informada (-masklevel 0). Las alineaciones de salida se analizaron para determinar el número y la ubicación de inserciones, deleciones y sustituciones en las lecturas que se alinean con cada secuencia del gen de ARNr 16S de referencia.

Para determinar la frecuencia y la posición de la variación de secuencia esperada & # x02014 atribuible a la presencia de múltiples copias divergentes del gen de ARNr 16S dentro de un solo genoma & # x02014 las siete variantes de copias de genes que se sabe que existen en el E. coli K-12, subcepa MG1655 (<"type": "entrez-nucleotide", "attrs": <"text": "NC_000913.3", "term_id": "556503834", "term_text": "NC_000913. 3 ">> NC_000913.3) se descargaron de RefSeq y se alinearon usando MUSCLE. Para proporcionar una segunda estimación de la variación esperada de la secuencia intragenómica, las lecturas de secuencia de Illumina WGS se alinearon con el único E. coli secuencia de referencia presente en la base de datos de referencia de la comunidad simulada y la ubicación de inserciones, eliminaciones y sustituciones inferidas usando el comando pileup de SAMtools 42.

Muestreo y secuenciación del microbioma de heces humanas.

Se recolectaron muestras de heces de cuatro ciclistas competitivos sanos inscritos en el estudio descrito por Petersen et al. 20 . Se obtuvo el consentimiento informado de todos los participantes humanos y el trabajo se llevó a cabo con la supervisión de la Junta de Revisión Interna del Laboratorio Jackson (números IRB 1503000013 y 16-JGM-07). El material fecal se recogió por sí mismo utilizando recipientes de recolección de muestras de polietileno (Fisher Scientific) y se colocó en paquetes de congelador antes de enviarlo al Laboratorio Jackson de Medicina Genómica. Una vez recibidas, las muestras se almacenaron a & # x0221280 & # x02009 & # x000b0C antes de la extracción. El ADN se extrajo utilizando el kit de aislamiento de ADN PowerSoil (MO BIO Laboratories, Inc.). Se prepararon bibliotecas de secuencias de mWGS como se describe para la comunidad de simulacros bacterianos y se generaron lecturas de extremos emparejados de 150 bases en la plataforma Illumina NextSeq. Las secuencias duplicadas exactas se descartaron asumiendo que eran artefactos de PCR y las lecturas restantes se cribaron frente al genoma de referencia humano (GRCh38) usando BMTagger 43. Los adaptadores y las bases de baja calidad se recortaron con Flexbar 44.

Se prepararon y secuenciaron bibliotecas de amplicones para la región V1 & # x02013V9 (PacBio RS II) y la región V1 & # x02013V3 (Illumina MiSeq) como se describe para la comunidad de simulacros bacterianos.

Cuantificación de bacteroides en el microbioma de las heces humanas

Las estimaciones de abundancia taxonómica se generaron a partir de datos de mWGS alineando las lecturas secuenciadas con la base de datos de referencia Real Time Genomics & # x02122 (RTG) de conjuntos de genomas bacterianos (v2.0), utilizando el mapa y los comandos de especies dentro del paquete de bioinformática RTG-core (www. realtimegenomics.com/products/rtg-core).

Los datos de la secuencia de amplicones para la región V1 & # x02013V3 y V1 & # x02013V9 del gen de ARNr 16S se agruparon y des-replicaron usando USEARCH (v8.0.1517), antes de agruparse en OTU con umbrales de similitud de 97% o 99% usando -cluster_otus comando 34. Las secuencias de amplicones de cada muestra se reasignaron luego a cada OTU en el mismo umbral de similitud utilizado para la agrupación con el fin de obtener estimaciones de abundancia relativa de OTU. El género de cada OTU se determinó utilizando el clasificador RDP v2.2 11 junto con la base de datos Greengenes, v13.5 con un umbral de confianza de 0.8.

V1–V3 and V1–V9 amplicons belonging to the genus Bacteroides were selected by directly classifying individual amplicon sequences using the RDP classifier. Sequences were then clustered into OTUs at either 97% or 99% identity thresholds using USEARCH. Representative sequences of Bacteroides OTUs generated for each variable region/identity threshold combination were assigned a putative species classification by aligning each sequence to the RTG reference database (v2.0) using the USEARCH local alignment algorithm 45 , allowing up to 50 top hits for each aligned sequence.

The suitability of the RTG database as a reference for discriminating different Bacteroides species was assessed by extracting the 16S rRNA gene sequences for each Bacteroides genome contained therein. Extracted sequences were globally aligned using MUSCLE, a maximum-likelihood tree was constructed using FastTree v2 46 , and visualized using the R package ape 47 . The resulting tree (Supplementary Fig.  11 ) indicated that sequence variation within the 16S gene was sufficient to resolve most major Bacteroides species contained within this database.

The suitability of either 97% or 99% identity thresholds for clustering V1–V3 and V1–V9 amplicons at the species level was assessed by determining the frequency with which OTUs for each variable region/identity threshold aligned optimally to a single species in the RTG reference database (Supplementary Fig.  12 ).

V1–V9 amplicon sequences assigned to the single OTU identified as B. vulgatus (OTU_1 Supplementary Data  1 ) were detected at high relative abundance in two human stool microbiome samples (Scott and IronHorse). Sequences from each sample were therefore extracted and aligned to the single 16S rRNA gene reference sequence used in the mock community analysis. Sequence alignment was performed using Cross_match and alignment errors were calculated as described above.

Isolation and sequencing of bacteria from human stool

Stool samples were again contributed by competitive cyclists enrolled in the study described by Petersen et al. 20 . Ethical oversight and sample collection were as described above. Bacteria were cultured on a variety of media and under anaerobic conditions, unless otherwise stated (Supplementary Data  2 ). Individual colonies were picked and DNA extracted using the MasterPure™ Gram Positive DNA Purification Kit (Lucigen). Samples were multiplexed and sequenced on a PacBio RS II. A subset of multiplexed libraries were sequenced on multiple SMRT cells at varying loading concentrations (Supplementary Data  2 ) resulting in different numbers of total reads. Each repeated run was therefore treated as a technical replicate to determine (i) the measurement error for the estimation of intragenomic 16S gene SNP frequencies attributable to the sequencing platform and (ii) the relationship between measurement error and sequencing depth.

Computational analysis of individual isolates

Sequence data for each isolate were quality filtered and adapters removed as described above. Filtered sequences were reoriented using the mothur command align.seqs, with the Silva gold database as a reference and the arguments flip = t, threshold =𠂐.5. Gaps in alignments were subsequently removed with the mothur command degap.seqs. Filtered, reoriented fasta files were then de-replicated using the USEARCH command -derep_fulllength and then sorted with -sortbysize, with the argument -minsize 1. The most abundant unique sequence for each isolate was then extracted (on the assumption it was the least likely to contain sequencing errors) and was used as a reference against which to align all reads for that isolate. Sequence alignment was performed using Cross_match with the arguments -minscore 1200, -masklevel 0, and alignment errors (substitutions, insertions, and deletions) calculated as described above.

Due to the prevalence of sequencing errors in processed reads (e.g., Supplementary Fig.  10 ), insertion and deletion errors were ignored when generating nucleotide substitution profiles. Substitution errors in alignments were filtered in a multi-step process to separate true intragenomic SNPs from background error. First, samples with fewer than 200 aligned reads were discarded, because preliminary investigation indicated they had insufficient signal-to-noise ratio for the detection of true SNPs. Second, the distribution of the frequency of substitution errors was calculated across the entire aligned region of the 16S gene. Base positions where the substitution error frequency was well outside instrument error (nine interquartile ranges above the upper quartile) were identified as true SNPs. Finally, samples with SNPs at ϣ% of base positions were discarded, as this threshold was empirically determined to exclude impure isolates.

We assessed SNP measurement error ( ζ w ) 48 for a subset of cultured isolates where replicate sequencing was performed on multiple SMRT cells using varying input library concentrations (Supplementary Data  2 ). We also took advantage of variation in sequencing depth between replicates to determine whether the measurement error was affected by the number of reads available for SNP phasing. Across 271 samples, the median ζ w was 1.8% (Supplementary Fig.  13a ). There was no obvious relationship between measurement error and sequencing depth for samples with >� reads (Supplementary Fig.  13b ).

Taxonomic identification of sequenced isolates

Isolates were assigned a putative taxonomy using BLAST 49 . The most abundant unique sequence for each isolate was searched against the NCBI 16S Microbial database using blastn, with the argument -max_target_seqs 20. Resulting hits were sorted first by mi-value, then bitscore and the taxonomy of the highest scoring sequence was reported. In addition, sequences were clustered into OTUs at 99% sequence identity using USEARCH command -cluster_otus with the arguments -otu_radius_pct 1.0, -uparse_break �. The phylogenetic relationship between isolates was determined by aligning the most abundant unique sequence for each isolate, then constructing a maximum-likelihood tree using FastTree v2.

To determine the total number of unique nucleotide substitution profiles generated from sequenced isolates, all isolates identified as belonging to the same OTU were compared with one another. Two isolates were considered different if the substitution frequency at one or more SNP loci differed more than 3 SDs above the mean measurement error (i.e., 6.58%, Supplementary Fig.  13 ).

Reporting summary

Further information on research design is available in the  Nature Research Reporting Summary linked to this article.


5. Viromic Sequencing

Viruses are key constituents of microbial communities which contribute to their evolution and homeostasis. Viromic sequencing has been used to study the intestinal viruses in different diseases, including type 1 diabetes [8], inflammatory bowel disease [10,125], alcohol-associated liver disease [126], non-alcoholic fatty liver disease [127], colorectal cancer [128,129], human immunodeficiency virus [130], and autoimmune diseases [11]. Because of the highly diverse nature of viruses and the lack of universal marker genes, it is difficult to use amplicon-based approach to amplify them with universal markers. Instead, shotgun metagenomic sequencing approaches can be used to characterize viruses and identify novel viruses.

Although in most environment, viruses outnumber microbial cells 10:1, viral DNA only represents 0.1% of the total DNA in a microbial community. Isolation of viral particles is the initial step in viromic sequencing, which is necessary to obtain a deep sequence coverage of viruses in the human gut microbiome, followed by viral particle purification. Large particles in the fecal samples, such as undigested or partially digested food fragments and microbial cells, are generally removed by serial filtration steps with osmotic neutral buffer or by ultracentrifugation with cesium chloride density gradient. The next step is nucleic acid extraction, during which the nucleic acid of the virus must first be isolated so that all the non-viral origin fractions are removed. DNAase and RNAase are usually used to remove the non-encapsulated nucleic acids. Depending on the type of viruses being studied, the library preparation protocol also varies. For example, bacteriophages are parasitic, special steps are required when isolating the DNA. For RNA virus, due to its unstable nature, reverse transcriptase to cDNA is required. In addition, virome contains active and silent fractions. For studying both the active and silent fraction of the virome, total nucleic acid isolation is needed [131]. For the active fraction of the virome, it is often required to use a filter, chemical precipitation or centrifugation to isolate the virus DNA.

The initial analysis of the sequences obtained after DNA sequencing is also quality control, which includes filtering of bad quality reads, decontamination of 16S rRNA, 18S rRNA and human sequence reads. Viruses have higher homology to prokaryotic or eukaryotic genes, therefore filtering of bad quality sequences is a key step in the viromic analysis. The resulting sequences are analyzed by either alignment-based approach or assembly approach. With alignment-based approach, different mapping algorithms are used to compare the resulting sequence reads against viral genomes and viral databases. Although the databases have expanded recently, the number of genomes deposited in the databases is far less than the sequenced virotypes and most of sequences reads lack similarity to the sequences in the databases, which are poorly annotated. The lack of sequence identity typically results in 60%�% sequences in the viral metagenomes [132]. Due to the highly diverse nature of viruses and the lack of similarity in current existing databases, de novo assembly approaches are often used in the viromic analysis [131,133,134]. Different assemblers are used for viral metagenomic data, such as VICUNA [135]. Popular shotgun metagenome assemblers such as MetaVelvet has also been applied to viral metagenome assembly. There are some virome-specific computational pipelines available, such as Metavir [136,137] and the Viral MetaGenome Annotation Pipeline (VMGAP) [138], which generally include open reading frame (ORF)-finding algorithms to predict coding sequences, followed by comparison with different protein databases.


Resultados

Sanger sequencing

Sanger sequencing resulted in 1242 reads of 16S rRNA gene sequences ('Sanger'-dataset). After aligning the reads against SILVA database, using BLASTN, we imported the results into MEGAN, where 1228 reads could be assigned. Surprisingly, we found a high abundance of Cianobacterias in the Sanger data set.

454 sequencing

454 sequencing resulted in 72,571 reads of 16S rRNA gene sequences ('16S-454'-dataset). After aligning the reads against the SILVA database, using BLASTN, we imported the results into MEGAN, where 72,350 reads could be assigned. The abundance of Cianobacterias was much lower in 454 sequences compared to the Sanger sequences. Furthermore, we detected slightly more Bacteroidetes than Firmicutes in this dataset, and also phyla being less abundant compared to Bacteroidetes y Firmicutes tal como Verrucomicrobia y Actinobacterias easily overlooked when using Sanger sequencing. Proteobacterias y Clostridiaceae were only detectable at a low level by this approach.

SOLiD sequencing

16S sample: After filtering low quality sequences (during conversion from 'csfasta' to 'fasta', as mentioned above) we obtained 3,767,260 reads (2,155,456 forward and 1,611,804 reverse) for 16S samples ('16S-SOLiD' dataset). All sequences were blasted against the SILVA database and then imported into MEGAN, leading to assignments for 2,530,912 reads.

Shotgun sample: The above-mentioned conversion from 'csfasta' to 'fasta' format with quality filtering resulted in 10,764,512 forward and 9,997,372 reverse-reads for the 'Shotgun-SOLiD' dataset. Of these 3,168,307 forward and 4,577,127 reverse reads have length 40 bp or above. There were 791,321 mate pairs in which both reads had length of 40 bp or more. Further, there were 861,344 mate pairs in which only the forward read has length 40 bp or more and 1,798,245 matepairs in which only the reverse read had a length of 40 bp or more. In total, we considered 3,450,910 mate sequences or a total of 6,901,820 sequences for which at least one of the mates was at least 40bp long (for details see Table ​ Table1 1 ).

Tabla 1

Details of sequence reads of 'Shotgun-SOLiD' dataset.

Data type (shotgun sample)File consisting forward readsFile consisting reverse reads
Fasta file after quality filter10,764,5129,997,372
Reads of length 40+ bp3,168,3074,577,127
Reads where both the mates are 40+bp791,321791,321
Mates where one read is 40+bp other is 𼐋p861,344 forward (40+bp) reads has 𼐋p reverse mates1,798,245 reverse (40+bp) reads has 𼐋p forward mates
Total number of reads processed for BLAST3,450,9103,450,910

After adapter removal, all of these sequences were aligned against the NCBI-NR database using BLASTX and imported into MEGAN. Using the above-mentioned thresholds 1,100,372 reads could be assigned to some node in the NCBI taxonomy.

A comparison of main abundances of bacterial groups on four taxonomic levels derived from the different sequencing technologies is shown in Figure ​ Figure1. 1. Additional file 1 shows the tree view of normalized comparison of the data obtained from these four methods. We have highlighted the nodes (showing sum and assigned read numbers) that are used to create Figure ​ Figure1. 1. Further when judged, as overview in Figure ​ Figure1, 1 , 16S-Sanger and 16S-SOLiD generally look similar to each other except 'species' level, this is because using 16S-SOLiD we have much more reads compared to Sanger, and that helped us to achieve more species richness.

Comparison of abundances of bacterial groups on different taxonomic levels obtained by 'Sanger', '16S-454', '16S-SOLiD' and 'Shotgun-SOLiD' sequencing. (A) Phylum level, (B) class level, (C) genus level, and (D) species level. Columns are organized according to clustering results based on normalized Euclidean distance analysis of the phylogenetic tree on each taxonomic level, as displayed on the left.

Comparison of 16S and shotgun samples obtained using SOLiD technology

Figure ​ Figure2 2 shows a normalized comparative tree-view of the assignments at 'family' level of NCBI taxonomy. Beside information about the composition of the microbiome (as is the case with 16S rRNA sequences), the shotgun DNA includes information about the encoded proteins. While a higher percentage of the 16S rRNA sequences could be taxonomically assigned, the composition of the microbiota inferred by both approaches was comparable. However, there were microbial species that outweighed in one approach compared to the other. In shotgun sequencing, more Actinobacterias, Bacteroidetes, Bacillales, Lactobacillales, Clostridiaceae, Eubacteriaceae, Gammaproteobacteria, Selenomonadales y Fusobacteriacae were detectable. On the other hand, in 16S rRNA gene sequencing, we found confirmation for the high abundance of Cianobacterias. In contrast, we could find only a few reads assigned to Cianobacterias in shotgun sequencing. On the one hand, this over-representation could be caused by preferential amplification of the 16S rRNA genes of Cianobacterias as argued in the Sanger sequencing results section. Furthermore, we found more reads that map to Verrucomicrobiacea, Clostridiales y Proteobacterias in 16S rRNA gene sequencing than in shotgun sequencing. The two major phyla in the intestinal microbiome, the Firmicutes y Bacteroidetes, are represented differently by the two approaches. While 16S rRNA sequencing revealed more Firmicutes, shotgun sequencing resulted in more Bacteroidetes. This difference could be due to artifacts of the amplification of 16S rRNA genes.

Normalized comparison result obtained using MEGAN for '16S-SOLiD' dataset and 'Shotgun-SOLiD' dataset. Normalized comparison result obtained using MEGAN for '16S-SOLiD' dataset (magenta) and 'Shotgun-SOLiD' dataset (yellow). '16S-SOLiD' dataset is blasted against the SILVA database and 'Shotgun-SOLiD' dataset is blasted against the NCBI_NR database. The tree is collapsed at 'family' level of NCBI taxonomy. Circles are scaled logarithmically to indicate the number of assigned of reads.

The results reported here are based on using all mate pairs for which at least one of the two reads has a length of 40 bp or more. If one would consider only those mate pairs, for which both reads have a length of at least 40 bp, then the number of reads considered would drop by 75%, resulting in a huge decline of computational requirements, but one will lose 33% of assigned reads (see Additional file 2) which leads to 21 more species. Hence, in some studies it may be sufficient to only consider mate pairs in which both reads are longer than 40 bp, if there are plenty of such reads.

Comparison of 16S samples from three technologies (Sanger, 454 and SOLiD)

As SOLiD sequencing is substantially more cost-efficient than Sanger sequencing, it is possible to produce many more SOLiD reads at a very small fraction of the cost of a Sanger run. SOLiD sequencing produces very short sequences and many of them cannot be assigned, and these are shown as 'No hits' node in the above figures. Sanger sequencing does not have this limitation and 454 data are also less affected in this respect. Hence, we ignored the 'No hits' node in the comparison. Figure ​ Figure3 3 depicts a normalized comparison tree view of the all the 16S samples obtained from three technologies at 'Family' level of the NCBI taxonomy. To facilitate visual comparison, nodes are scaled by 'summarized reads', that is, the number of reads assigned to or below a given node. It is clearly visible that we were able to find many phyla, such as Actinobacterias, and the domain of Arqueas using SOLiD sequencing that were not detected by Sanger sequencing and appeared only with a few reads in the 454 dataset. Furthermore, important bacterial groups such as Verrucomicrobia, Lactobacilli, Fusobacterias and special members of the Clostridiales were not found by Sanger sequencing at all. In the 454 sample we detected Verrucomicrobia, but not the other two. We found comparable amounts between Sanger and 16S rRNA SOLiD sequencing for one the two major phyla of the intestinal microbiome, the Baceriodetes (Figure ​ (Figure3, 3 , Figure ​ Figure1 1 ).

Normalized comparison between 16S samples obtained using three technologies: 'Sanger', '16S-454' and '16S-SOLiD' datasets. Normalized comparison result obtained using MEGAN for 'Sanger'-dataset (blue), '16S-454' dataset (cyan) and '16S-SOLiD' dataset (magenta) without considering 'No hits' node. The tree is collapsed at 'family' level of NCBI taxonomy. Circles are scaled logarithmically to indicate the number of summarized reads.

A detailed absolute comparison between 1242 16S-Sanger reads, 72571 reads of 16S-454 and the 300,000 reads from '16S SOLiD' dataset is depicted in Additional file 3. Here we can see that 300,000 reads of '16S-SOLiD' datasets already provides much resolution in the analysis when compared to 16S sequences from Sanger or 454 technologies. Furthermore, according to Sanger sequencing reads, assignments to phyla such as the Proteobacterias y el Firmicutes are dominant, possibly because of easier cloning and particular amplification procedures. This amplification process could be the cause for the differences seen when comparing the amounts of Bacteroides, Gammaproteobacteria, Alphaproteobacteria and Bacilli in 16S sequencing. It was already shown in Figure ​ Figure2 2 that they are highly present in the shotgun dataset. Furthermore, the SOLiD datasets give information about the abundance of potentially pathogen microorganisms like Camphylobacter, Listeria y Neisseria. In the 'Sanger' dataset, these organisms were not detected due to their low abundance. The overrepresentation of the Cianobacterias in the Sanger dataset was much less pronounced in the '16S-SOLiD' dataset. In the 'Sanger' dataset, the Cianobacterias were the dominant group and had more reads than all other bacteria. In the '16S-SOLiD' dataset, they were still a group with a high abundance but the other bacterial groups were well represented, too. Low abundance of Cianobacterias in the 'Shotgun-SOLiD' dataset could be explained by the missing amplification process in SOLiD technology. The advantage of SOLiD sequencing over Sanger sequencing is visible here. Due to the large number of reads, the overrepresentation of a bacterial group was less pronounced. Furthermore, the shotgun approach has the advantage of the avoiding amplification preferences for some bacterial groups. Figure ​ Figure2 2 illustrates that the bacterial groups of Actinobacterias, Bacteroidetes, Bacilli, Alfa- y Gammaproteobacteria y Clostridiaceae are underrepresented when amplification processes were used.

Furthermore, paired reads using SOLiD technology achieved much more resolution than 454 single reads at a lower cost (see Additional file 4).

In total, these data suggest that SOLiD sequencing is a viable and cost efficient option for the analysis of the intestinal microbiome in spite of the short read length.

Functional analyzes using SEED and KEGG

In this classification, genes are assigned to functional roles and different functional roles are grouped into subsystems. The SEED classification can be represented as a rooted tree in which internal nodes represent different subsystems and where leaves represent functional roles. MEGAN's functional analyzes using SEED classification is shown in Additional file 5.

For pathway analysis using KEGG, the program MEGAN matches each read to a KEGG orthology (KO) accession number, using the best hit to a reference sequence for which a KO accession number is known. The program reports the number of hits to each KEGG pathway. Additional file 6 depicts the result of such an analysis at the highest level of the KEGG hierarchy. To perform a functional analysis, MEGAN assigns each read to the functional role of the highest scoring gene in a BLAST or similar comparison against a protein database. To perform a KEGG analysis, then it attempts to match each read to a KEGG orthology (KO) accession number, using the best hit to a reference sequence for which a KO accession number is known. Thus from the functional analyses we can be informed about the possibility of metabolisms to be active. Thus this KEGG analysis is technically preliminary therefore only a detailed examination of individual pathways will allow on to decide which pathways are actual active.

Comparison with other approaches

To evaluate the performance of the MEGAN4 analysis based on a BLASTN comparison of the reads against the SILVA database, we ran the data through the RDP classifier [22](using 'Confidence threshold': 80%) (see Additional file 7). For RDP, we didn't specify minimum alignment length in order to allow all the assignments with previous threshold. The MEGAN analysis resulted in very similar annotation as with RDP. We also analyzed the data using MOTHUR software [23]. However, MOTHUR uses a simple best-hit assignment strategy that assigns all reads to the leaves of the NCBI taxonomy, regardless of the presence of other, equally similar reference sequences. Hence, a direct comparison against analyses performed using the LCA approach is hardly possible.

Beside these analyses an overall diversity was compared at genus level of the both 16S-SOLiD and 16S-454 data, using the Shannon-Weaver index and Simpson Reciprocal index, a measurement that combines diversity (the number of different nodes at a certain level) and evenness (the relative abundance of each node). Considering all the nodes at 'genus' level, we obtained for 16S SOLiD data Shannon and Simpson index values of 2.212 and 2.879, respectively. For 16S-454 data these two indices attain much lower values of 1.220 and 1.845, respectively.


Disponibilidad de código

Software versions used are listed in Table  8 .

Table 7

16S alignment validation. Region(s) covered by 16S reads with exact matches to the SILVA database. The first column represents the region(s) called by our pipeline, while the third and fourth show the exact matching positions in the SILVA database. This shows consistency between the variable region called by our pipeline and the expected position it occupies along the 16S gene. SILVA IDs: B. fragilis: FQ312004.3243020.3244552 B. vulgatus: CP000139.2183533.2185042 F. nucleatum: AE009951.530422.531923 R. gnavus: AZJF01000012.178214.179732.

RegionEspeciesComienzoEnd
v2F. nucleatum134389
v2R. gnavus108362
v2B. vulgatus110364
v2B. fragilis108361
v3B. vulgatus330540
v3B. fragilis327537
v4F. nucleatum531818
v4R. gnavus500788
v4B. vulgatus522810
v6v7F. nucleatum9441207
v6v7R. gnavus9171177
v6v7B. vulgatus9361194
v6v7B. fragilis9331193

Code for sequence quality control and trimming, shotgun and 16S metagenomics profiling and generation of figures in this paper is freely available and thoroughly documented at https://gitlab.com/JoanML/colonbiome-pilot. This repository includes instructions for the analysis and reproduction of the figures on this paper from the publicly available samples, as well as pipelines used for the analysis. This repository is arranged in folders, each containing a README:

• qc: Scripts for quality control and preprocessing of samples

• analysis_shotgun: Scripts to run softwares for metagenomics analysis

• regions_16s: In-house scripts for splitting IonTorrent reads into new FASTQ files

• analysis_16s: DADA2 pipeline adapted to this dataset

• assembly: Scripts to run the assembly, binning and quality control software

• figures: Scripts used to generate the figures in this manuscript

• shannon_index_subsamples: Scripts used to compute alpha diversity in subsampled FASTQs


Ver el vídeo: 16S rRNA Sequencing (Junio 2022).


Comentarios:

  1. Oles

    Me gustaría continuar ... suscrito al canal :)

  2. Sigebert

    No es lógico

  3. Isidore

    es la condicionalidad

  4. Gilli

    En mi opinión, no tienes razón. Ofrezco discutirlo.



Escribe un mensaje