Información

Genética estadística: Frecuencias alélicas que siguen una distribución de Dirichlet.

Genética estadística: Frecuencias alélicas que siguen una distribución de Dirichlet.



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

De Foll y Gagiotti (2008) (software BayeScan). Consideran un modelo en el que varias subpoblaciones se derivan de una población ancestral única.

Consideramos un conjunto de loci $ I $ y sea $ K_i $ el número de alelos en el locus $ i ^ {th} $. El grado de diferenciación en el locus $ i $ entre la subpoblación $ j $ y la población ancestral se mide por $ F ^ {ij} _ {ST} $ y es el resultado de su historial demográfico. Sea $ p_i = {p_ {ik} } $ las frecuencias alélicas de la población ancestral en el locus $ i $, donde $ p_ {ik} $ es la frecuencia del alelo $ k $ en el locus $ i $ $ izquierda ( sum_k p_ {ik} = 1 right) $. Usamos $ mathbf {p} = { mathbf {p_i} } $ para denotar el conjunto completo de frecuencias alélicas de la población ancestral y $ mathbf { tilde p_ {ij}} = { tilde p_ { ijk} } $ para denotar las frecuencias alélicas actuales en el locus $ i $ para la subpoblación $ j $. Bajo estos supuestos, las frecuencias alélicas en el locus $ i $ en la subpoblación $ j $ siguen una distribución de Dirichlet con parámetros $ theta_ {ij} mathbf {p_i} $,

$$ mathbf { tilde p_ {ij}} espacio tilde espacio espacio text {Dir} ( theta_ {ij} p_ {i1},…, theta_ {ij} p_ {iK_i}) $$

, dónde

$$ theta_ {ij} = frac {1} {F ^ {ij} _ {ST}} - 1 $$

(No tengo mucha experiencia con las distribuciones de Dirichlet pero entiendo su definición y su utilidad en las estadísticas bayesianas).

¿Puede ayudarme a entender por qué $ mathbf { tilde p_ {ij}} $ sigue esta distribución de Dirichlet?

Al llamar al parámetro $ j ^ {th} $ de la distribución de Dirichlet, $ alpha_j $, normalmente no entiendo por qué "eligieron" $ alpha_j = left ( frac {1} {F ^ {ij} _ {ST}} - 1 right) p_ {ij} $ y no, di solo $ alpha_j = F ^ {ij} _ {ST} p_ {ij} $ o cualquier otra cosa.


En gran parte, una suposición informada basada en las propiedades de las distribuciones más que en el conocimiento específico de la genética estadística: una distribución beta es útil para modelar las frecuencias de dos alelos en un locus. Una distribución de Dirichelet, que es una generalización multivariante de una distribución beta, sería útil para modelar una colocar de loci.

La otra cara es pensar en beta como un caso especial de Dirichelet: si solo tienes un locus, beta funciona. Si tiene varios loci, entonces Dirichelet.


David calvo

Desde que terminé mi doctorado, he trabajado para desarrollar y aplicar métodos e ideas matemáticos / estadísticos / computacionales en genética. He contribuido en aspectos de genética poblacional, evolutiva, médica y forense.

En genética forense, mi principal contribución ha sido el desarrollo de métodos para permitir efectos coancestrales en la interpretación de perfiles de ADN. Las fórmulas de probabilidad de coincidencia que incorporan coeficientes de coancestría a menudo se denominan "fórmulas de Balding-Nichols" siguiendo nuestro artículo de 1994. Más recientemente, he desarrollado métodos para la interpretación de evidencia de perfil de ADN de plantilla baja, inicialmente en colaboración con John Buckleton de ESR New Zealand (artículo de 2009).

Las fórmulas de coincidencia forense se basan en la distribución multinomial-Dirichlet, que desarrollé y apliqué a los recuentos de alelos de subpoblaciones. Esto condujo a la primera definición satisfactoria del coeficiente de coancestría (Fst o theta) y a un enfoque basado en la probabilidad para su estimación. Al integrar esta distribución en un modelo jerárquico que permite efectos de subpoblación y locus, Mark Beaumont y yo en nuestro artículo de 2004 desarrollamos un enfoque ampliamente utilizado para detectar loci sujetos a selección (evidenciado por una variación inusualmente alta o baja entre subpoblaciones). El beta-binomio (o más generalmente multinomial-Dirichlet) como distribución para simular frecuencias alélicas de subpoblaciones a veces se denomina "modelo Balding-Nichols" siguiendo nuestro artículo de 1995.

Mark y yo, con Wenyang Zhang, escribimos en 2002 un artículo fundamental en el campo de la Computación Bayesiana Aproximada (ABC). Introdujimos un ajuste de regresión lineal local que ha demostrado ser muy útil, pero quizás igualmente importante proporcionamos la primera revisión útil del método, que había sido desarrollado por etapas por autores anteriores, y lo promocionamos como una técnica estadística poderosa y flexible.

Con Ian Wilson, desarrollé uno de los primeros softwares exitosos (Batwing) para modelar la historia demográfica de las poblaciones basado en el modelado explícito de las ascendencias genéticas de los individuos muestreados de las poblaciones (artículos de 1998 y 2003). Ha sido ampliamente utilizado, particularmente para modelar linajes paternos a partir de datos del cromosoma Y.

He escrito o es coautor de varios artículos de revisión que han demostrado ser populares, sobre métodos estadísticos para estudios de asociación genética (2006), sobre métodos bayesianos y sobre estructura poblacional y parentesco críptico en asociación genética (ambos en 2009) y sobre el genoma Amplios estudios epigenéticos (2011). Will Astle, trabajando conmigo, desarrolló un algoritmo rápido para el análisis de modelos mixtos de estudios de asociación genética, descrito en nuestra revisión de 2009 y disponible en la sección MixAbel del software GenAbel R.

Actualmente continúo con mi patrón establecido de aplicaciones de estadística en genética de muy amplio espectro. Estoy involucrado en proyectos sobre métodos estadísticos para farmacogenética, incluyendo covariables genéticas en modelos farmacocinéticos, secuenciación de variantes raras en condiciones cardíacas hereditarias, selección genómica en cultivos e identificación de razas en perros de razas mixtas. También sigo activo en métodos estadísticos para perfiles de ADN forense.


2.1 Objetivos de este capítulo

Vea que hay una diferencia entre dos temas que a menudo se confunden: "Probabilidad" y "Estadísticas".

Ajuste los datos a las distribuciones de probabilidad mediante histogramas y otros trucos de visualización.

Tener un primer encuentro con un procedimiento de estimación conocido como máxima verosimilitud a través de un experimento de simulación.

Hacer inferencias a partir de datos de los que tenemos información previa. Para esto usaremos el paradigma bayesiano que involucrará nuevas distribuciones con propiedades especialmente diseñadas. Usaremos simulaciones y veremos en qué se diferencia la estimación bayesiana de la simple aplicación de máxima verosimilitud.

Utilice modelos estadísticos y estimaciones para evaluar dependencias en distribuciones binomiales y multinomiales.

Analice algunos datos genómicos históricamente interesantes reunidos en tablas.

Hacer modelos de cadenas de Markov para dependiente datos.

Realice algunas aplicaciones concretas contando motivos en genomas completos y manipule clases especiales de bioconductores dedicadas a datos genómicos.

Ejemplos de parámetros: el parámetro único ( lambda ) define una distribución de Poisson. La letra ( mu ) se usa a menudo para la media de la normal. De manera más general, usamos la letra griega ( theta ) para designar una tupla genérica de parámetros necesarios para especificar un modelo de probabilidad. Por ejemplo, en el caso de la distribución binomial, ( theta = (n, p) ) comprende dos números, un entero positivo y un número real entre 0 y 1.

Los parámetros son la clave.

Vimos en el Capítulo 1 que el conocimiento de todos los valores de los parámetros en el ejemplo del epítopo nos permitió usar nuestro modelo de probabilidad y probar una hipótesis nula basada en los datos que teníamos a mano. Veremos diferentes enfoques para el modelado estadístico a través de algunos ejemplos reales y simulaciones por computadora, pero comencemos por hacer una distinción entre dos situaciones dependiendo de la cantidad de información disponible.


Resultados y discusión

Se generaron datos de AE ​​a nivel de SNP y de haplotipo para cada muestra de GTEx utilizando las mejores prácticas actuales, con y sin el filtrado WASP [8] para reducir el sesgo de mapeo que a veces está presente en el análisis de AE, lo que resulta en 4 tipos de datos por muestra (Archivo adicional 1: Fig. S1, sección “Generación y disponibilidad de datos” en la sección “Métodos”). En todas las muestras, esto produjo más de 431 millones de mediciones de AE ​​a nivel de SNP y 153 millones de mediciones de AE ​​a nivel de haplotipo. Demostrar la capacidad de estos datos para capturar de manera sólida cis-efectos reguladores y también comparamos los cuatro tipos de datos entre sí, estimamos los tamaños del efecto de eQTL en los 49 tejidos donde los eQTL se mapearon a partir de datos de EA utilizando el cambio de pliegues alélicos (aFC) y los comparamos con los derivados del mapeo de eQTL [7] . Los tamaños del efecto se cuantificaron utilizando aFC para los datos de AE ​​y eQTL. Para facilitar la generación de estimaciones de aFC para variantes regulatorias a partir de datos phASER, desarrollamos un nuevo complemento para el paquete de software, phASER-POP, que elimina la necesidad de scripts personalizados (archivo adicional 1: Fig. S2). Brevemente, phASER-POP integra las llamadas de genotipo y los datos de AE ​​a nivel de haplotipo entre los individuos y las fases de cada variante reguladora de interés (por ejemplo, eQTL) en cada individuo con sus datos de AE. A continuación, calcula las estadísticas, incluido el aFC por muestra, y su mediana en las muestras para los individuos que son heterocigotos para la variante. A nivel de muestra, aFC es una diferencia neta de expresión entre los dos haplotipos en un individuo que se ve afectado por todas las variantes reguladoras heterocigotas, incluidas otras eQTL y variaciones reguladoras poco frecuentes, y por lo tanto puede diferir de la aFC esperada derivada del mapeo de eQTL. Sin embargo, la mediana de aFC en todos los individuos de una población que es heterocigota para un eQTL dado se puede utilizar como una estimación sólida de su tamaño de efecto [1]. El software se describe con todo detalle en la sección "Métodos".

Para caracterizar el recurso de AE ​​de GTEx, primero comparamos las estimaciones de aFC calculadas para eQTL de GTEx entre los datos de AE ​​a nivel de SNP y de haplotipo. Encontramos altas correlaciones entre las estimaciones de AE ​​y eQTL, con una mediana de Spearman rho de 0,80 en los tejidos para los datos a nivel de SNP y 0,83 para los datos a nivel de haplotipo generados por phASER (Fig. 1c). Las correlaciones a nivel de haplotipo fueron significativamente más altas que las correlaciones a nivel de SNP (pag = 3.55e-15, prueba de rango con signo emparejado de Wilcoxon) mientras que al mismo tiempo produce estimaciones para una mediana de 20% más de eQTL (archivo adicional 1: Fig. S3). En base a esto, recomendamos utilizar los datos a nivel de haplotipo para la mayoría de los análisis posteriores, ya que produce más datos de mayor calidad. Sin embargo, existen algunas circunstancias en las que se deben utilizar los datos a nivel de SNP. Por ejemplo, al analizar el corte y empalme alélico, los datos a nivel de haplotipo no son apropiados porque abarcan toda la transcripción, mientras que solo se deben analizar los SNP dentro de los exones o intrones de interés. Además, cuando se analizan variantes transcritas con efectos postranscripcionales sobre la expresión génica, como variantes de parada-ganancia o de empalme, los datos de AE ​​a nivel de SNP de la variante de interés son más sencillos de analizar.

A continuación, evaluamos el efecto de la corrección de sesgo de mapeo de lectura en el análisis de expresión alélica comparando las correlaciones del tamaño del efecto de eQTL y AE con y sin filtrado WASP. El filtrado WASP mejoró significativamente las correlaciones tanto para SNP- (pag = 2,49e − 13, mejora media 1,22%) y haplotipo- (pag = 3.55e-15, mediana de mejoría 1.28%) nivel de datos (Fig. 1c). Dado que WASP funciona eliminando, en lugar de corregir lecturas con sesgo de mapeo, comparamos el número de eQTL para los que se pudo calcular una estimación de aFC y encontramos solo una pequeña reducción del 3,5% (archivo adicional 1: Fig. S3d). Por lo tanto, recomendamos utilizar datos filtrados por WASP para la mayoría de los análisis posteriores. Esto es particularmente importante si el objetivo es identificar señales fuertes de desequilibrio alélico, que a menudo pueden ser falsos positivos debido al sesgo de mapeo. Alentamos a los usuarios del recurso a evaluar el impacto del filtrado WASP para su propio caso de uso, por lo que hemos incluido los datos AE sin filtrar para comparar.

A continuación, caracterizamos los datos AE filtrados por WASP. En los datos de GTEx RNA-seq, con una cobertura mínima de 8 lecturas, las muestras tenían una mediana de 7.607 genes con datos de EA a nivel de SNP y 10.043 genes a nivel de haplotipo, y esto disminuyó en función del aumento de los umbrales de cobertura (Adicional archivo 1: Fig. S4). Con el mismo umbral de cobertura, a nivel de tejido y excluyendo tejidos con tamaños de muestra pequeños (norte & lt 70) donde no se realizó el mapeo de eQTL, hubo una mediana de 18,042 genes con una mediana de 128 muestras por gen utilizando datos de AE ​​a nivel de haplotipo, lo que hace que el conjunto de datos tenga la capacidad suficiente para detectar cis-Efectos reguladores (Fig. 2a). La mediana del número de muestras con datos de EA por gen dependía en gran medida del tamaño de la muestra de tejido, desde 39 para la corteza renal (norte = 73 muestras) a 321 para tiroides (norte = 574 muestras). El número de genes con datos de EA se correlacionó con el tamaño de la muestra (rho = 0,41) y el número de genes expresados ​​(rho = 0,82), y las dos líneas celulares tenían el menor número de genes con datos de EA (LCL = 15.804, fibroblastos = 16,526) y el testículo que tiene el mayor número de genes con datos de EA (21,952) a pesar de un tamaño de muestra intermedio de 322 (Archivo adicional 2: Tabla S1). Esto probablemente se debió a la cantidad de genes expresados ​​en los testículos, que fue la más alta en todos los tejidos.

El recurso de expresión alélica a nivel de haplotipo GTEx v8. a Número de genes por tejido con datos de AE ​​a nivel de haplotipo (genes AE) en al menos 1 individuo frente a la mediana del número de muestras con datos por gen. B Porcentaje de genes AE con desequilibrio alélico significativo (prueba binomial, FDR a nivel de gen & lt 5%) en al menos norte muestras por gen usando todas las muestras (azul) o excluyendo las muestras heterocigotas para cualquier top (FDR & lt 5%) o GTEx eQTL independiente (permutación pag & lt 1e − 4) (rojo). Los puntos difuminados son valores para tejidos individuales y los puntos sólidos son la mediana de los tejidos. Las proporciones por encima de los puntos de datos indican la reducción en el porcentaje de genes AE con desequilibrio después de eliminar heterocigotos eQTL. Un resumen completo de estas estadísticas en los tejidos y los umbrales de muestra está disponible en el archivo adicional 3: Tabla S2. C El efecto del número de variantes heterocigotas en o próximas a los promotores de genes (& lt 10 kb corriente arriba de TSS) sobre el desequilibrio alélico estratificado por la frecuencia de alelos menores. Los valores trazados son estimaciones del efecto e intervalos de confianza del 95% (consulte la sección "Modelado del efecto de la variante del promotor" en la sección "Métodos")

Finalmente, buscamos demostrar la omnipresencia de cis-Efectos regulatorios que se pueden capturar con este recurso. Encontramos que incluso los efectos reguladores fuertes, donde un alelo se expresó a ≥ 2 veces el nivel del otro alelo, están ampliamente presentes, incluso para genes que codifican proteínas, con un 53% de los genes que codifican proteínas mostrando tal efecto en al menos una tejido y al menos 50 individuos (Archivo adicional 1: Fig. S5). Considerando todos los genes, encontramos que una mediana de 10.183 genes (o una mediana del 56% de los genes con datos de EA) por tejido exhibió un desequilibrio alélico significativo (prueba binomial, FDR & lt 5% a nivel de gen) en al menos una muestra , lo que indica la naturaleza generalizada de cis-Efectos reguladores (Fig. 2b). La eliminación de individuos que eran heterocigotos para cualquier GTEx eQTL conocido (sección "GTEx eQTL" en la sección "Métodos") solo resultó en una reducción media del 7.5% en el número de genes con desequilibrio significativo en al menos una muestra, lo que demuestra el potencial de este recurso para identificar efectos regulatorios adicionales, incluidos efectos regulatorios raros, que no se capturan en el análisis de eQTL. Para demostrar aún más este potencial, modelamos el desequilibrio alélico en función de la frecuencia del alelo menor y el número de variantes heterocigotas encontradas en los promotores de genes o proximales a ellos (& lt 10 kb cadena arriba de TSS). Como era de esperar, encontramos que las variantes raras tendían a tener mayores efectos sobre el desequilibrio alélico que las variantes comunes, con la clase más rara de variantes analizadas (MAF & lt 0.005 en GTEx) teniendo los efectos más fuertes (Fig. 2c).


Análisis de datos simulados

Simulaciones geoestadísticas / inferencia bayesiana

Nuestra primera investigación consiste en analizar los datos simulados según el modelo exacto con distribución multinomial (descrito en la sección 2.1.1 y denominado en adelante "modelo geoestadístico", enfoque adoptado, por ejemplo, por Novembre & Stephens 2008). Consideramos tres tipos de estructuras para la matriz de covarianza: con el efecto de las distancias geográficas y ambientales (G + E), el efecto de la distancia geográfica solamente (G) y el efecto de la distancia ambiental solamente (E). Estas covarianzas corresponden a las ecuaciones 2, 4 y 5. Generamos 100 conjuntos de datos para cada uno de los tres modelos con poblaciones ubicadas en 50 sitios geográficos que constan de 10 individuos diploides genotipados en 100 loci SNP y luego en 1000 loci SNP. Además, debido a que dos de los conjuntos de datos reales reanalizados a continuación contienen una pequeña cantidad de loci de microsatélites, también investigamos simulaciones en 15 loci con 10-20 alelos por locus, y similares a las simulaciones anteriores en todos los demás aspectos.

Las ubicaciones de los sitios geográficos se muestrearon uniformemente en un cuadrado [0,1] × [0,1], y la variable ambiental se muestreó independientemente de una distribución discreta uniforme con tres estados que imita, por ejemplo, la distribución espacial irregular de tres hábitats. También consideramos el caso donde la variable ambiental es continua y espacialmente autocorrelacionada. En este caso, se simuló como una variable gaussiana centrada y estandarizada con una función de covarianza exponencial con escala de parámetros igual a 0 · 3. Todas las simulaciones de genotipos se llevaron a cabo con el mismo conjunto de parámetros para la matriz de covarianza, a saber, α = βGRAMO = βmi = γ = 1 y δ = 0 · 01. Para estos datos, realizamos la inferencia bayesiana y la selección del modelo bajo el modelo con verosimilitud multinomial (o binomial).

Simulaciones coalescentes

También simulamos datos bajo un modelo de aislamiento por distancia utilizando simulación coalescente con el programa ibdsim (Leblois, Estoup & Rousset 2009). Para producir datos en condiciones que imitan un modelo puramente geográfico (referido como modelo G arriba), producimos simulaciones en una cuadrícula de 30 × 30 con 20 individuos diploides por nodo de cuadrícula, tomamos como distribución de dispersión una distribución de Pareto truncada (probabilidad de movimiento k pasos ∝METRO/k norte con METRO = 0·82, norte = 4 · 11 y un límite superior igual a 48) y establezca la tasa de migración igual a 0 · 03. Para producir datos bajo un modelo G + E, simulamos dos conjuntos de datos independientes mediante dos simulaciones de IBD independientes en 25 sitios geográficos cada una, ambas con los mismos parámetros que el modelo G descrito anteriormente. Luego, fusionamos los dos conjuntos de subdatos en un cuadrado para imitar la coexistencia de dos subpoblaciones genéticamente aisladas por una barrera impermeable. Para generar datos bajo un modelo E, hicimos lo mismo que en el caso G + E, excepto que establecimos la tasa de migraciones igual a 0 · 999. Aquí, generamos genotipos en 1000 loci independientes.En un último paso, también simulamos datos como en los casos G + E y E, pero seleccionamos el 4% de los individuos en cada población y los intercambiamos para imitar a los migrantes F0. En este caso, los genotipos se simularon en 100 loci SNP. En todos los casos, submuestreamos 50 de las 900 poblaciones iniciales para producir un conjunto de datos en 50 sitios de muestreo espaciados irregularmente. Para estos datos, realizamos inferencia bayesiana y selección del modelo bajo el modelo con verosimilitud binomial.

Los resultados de la selección del modelo basado en el modelo bayesiano con distribución binomial / multinomial se resumen en la Tabla 1. En las condiciones estudiadas, nuestro algoritmo es capaz de recuperar el modelo verdadero excepto en una pequeña fracción de los casos donde el algoritmo es demasiado permisivo: el verdadero el modelo es G o E y el algoritmo selecciona G + E. La precisión en la selección del modelo aumenta con el número de loci utilizados, con solo un puñado de errores de selección de modelo de 300 conjuntos de datos simulados para L = 1000 loci.

Modelo real ∖ Modelo seleccionado G + E GRAMO mi
Simulaciones geoestadísticas, variable ambiental discreta
Loci bialélicos L=100
G + E 100 0 0
GRAMO 14 86 0
mi 0 0 100
Loci bialélicos L=1000
G + E 100 0 0
GRAMO 0 100 0
mi 0 0 100
Simulaciones geoestadísticas, variable ambiental continua
Loci altamente polimórficos L=15
G + E 99 1 0
GRAMO 32 68 0
mi 29 0 71
Loci bialélicos L=100
G + E 100 0 0
GRAMO 16 84 0
mi 7 0 93
Loci bialélicos L=1000
G + E 100 0 0
GRAMO 1 99 0
mi 0 0 100
simulaciones ibdsim, variable ambiental discreta
Loci bialélicos L=1000
G + E 100 0 0
GRAMO 7 93 0
mi 0 0 100
Loci bialélicos L=100
G + E con migrantes F0 95 5 0
GRAMO 41 55 4
E con migrantes F0 9 0 91

Evaluación del valor de la aproximación gaussiana

Para evaluar el valor del modelo de aproximación gaussiano, simulamos datos bajo el modelo con verosimilitud binomial descrito en la sección 2.1.1 pero hicimos inferencias bajo el modelo aproximado y el algoritmo descritos en las secciones 2.1.2 y 2.2.3. Consideramos varios números de ubicaciones geográficas norte que van de 50 a 500 y una serie de loci L entre 100 y 100 000. En todos los casos, el tamaño de la muestra de haploides locales fue igual a 2 (un solo individuo diploide). La variable ambiental fue continua y espacialmente autocorrelacionada. Los resultados se resumen en la Fig. 1, donde está claro que la aproximación gaussiana funciona bien tan pronto como el número de loci es grande.


4. Recombinación bacteriana en genética estadística

La recombinación (o el sexo) toma muchas formas diferentes dependiendo de si el organismo es haploide o diploide y el tipo de recombinación. El mecanismo formulado en [30, 31] es específicamente para la reproducción sexual en levaduras haploides, donde dos padres producen cada uno un cuerpo de apareamiento (copia del genoma principal), y estos dos cuerpos de apareamiento se fusionan y producen un nuevo genoma mientras que la otra mitad del se descarta el material genético de los dos cuerpos de apareamiento. Cuanto más cerca de nuestros datos, consideramos en cambio una forma de recombinación bacteriana, para la cual, sin embargo, la evolución resulta ser esencialmente la misma, módulo a Stosszahlansatz.

Por tanto, la recombinación se distingue (suponemos) por dos genomas que se fusionan y forman dos nuevos genomas. Esto no modela directamente la conjugación donde una bacteria le da material genético a la otra, pero puede modelar la transformación y transducción a lo largo del tiempo donde el material puede ir en ambos sentidos. En S. pneumoniae la recombinación ocurre por transformación y recombinación homóloga. En un paso elemental, se pierden dos genotipos (los padres) y se obtienen dos genotipos (la descendencia). Sea el evento de que dos individuos con genotipos y se recombinen y den dos individuos y. Para describir la cinética del proceso individual asumimos que la recombinación entre los dos padres ocurre con una tasa donde r una tasa global de recombinación y una tasa relativa. Los dos nuevos genotipos y se especifican mediante una variable indicadora:

y este resultado de la recombinación ocurre con probabilidad. La tasa total del evento individual es, por tanto. El cambio de la distribución sobre los genotipos debido a la recombinación viene dado por

Esta ecuación es de un tipo familiar de la teoría de los gases no ideales: el cambio en una distribución de una partícula (distribución de un genoma) depende de las distribuciones de dos partículas (distribuciones de dos genomas). En la práctica, es difícil utilizar (16) sin un cierre, como suponer que las probabilidades de los pares se factorizan. Tenga en cuenta que la suma en el lado derecho es sobre uno de los padres () y la variable indicadora que juntos dan el hijo. Suponemos por simplicidad también que Q depende solo de la superposición q entre los dos genotipos y:

La recombinación como se modeló anteriormente no cambia la superposición. Esto se puede ver de la siguiente manera: y. Como la variable indicadora toma valores cero y uno este da.

Supongamos ahora que la distribución de dos genomas factoriza, que la distribución de un genoma es del tipo Potts y que todos los parámetros cuadráticos del modelo de Potts Jij son pequeños. Se considerará que estos supuestos son autoconsistentes cuando la tasa de recombinación r es alto. Mediante un cálculo perturbativo, que damos en el apéndice B (esencialmente el mismo que se encuentra en el apéndice B de [31]), el lado derecho de (16) se simplifica a:

donde hemos usado las abreviaturas

El primero de ellos es la probabilidad de que dos loci se hereden del mismo padre y no dependa (para este modelo) del genotipo. Los últimos tres promedios, por otro lado, dependen de. Sin embargo, si la función Q no está demasiado enfocado, la dependencia puede tomarse débil. En particular, asumimos que es autopromedio y esencialmente no depende de. En el lenguaje de la física del vidrio giratorio [44, 45], por lo tanto, asumimos que, y estamos auto-promediando en la fase 'paramagnética' donde se espera que QLE se mantenga.


2.3. Una relación con F S T

Existe una medida de uso común en genética de poblaciones para cuantificar el grado de diferenciación entre poblaciones. Se originó con Sewall Wright y generalmente se denota por FS T. Una vez más, remitimos al lector a las reseñas de Rousset (2001) y Excoffier (2001) para obtener una descripción completa. Proporcionamos sólo un breve esbozo. Nuestro conocimiento se ha beneficiado del acceso a notas inéditas de David Balding.

Wright (1951) describió F S T como "la correlación entre gametos aleatorios, extraídos de la misma subpoblación, en relación con el total". Desafortunadamente, esta definición no es precisa y parte de la confusión posterior en la literatura se debe a diferentes interpretaciones. Una dicotomía conceptual entre enfoques surge de las diferencias (generalmente implícitas más que explícitas) en lo que se está condicionando.

Otros enfoques (basado en modelo en la terminología de Balding) interpretan las probabilidades en la ecuación (9) como relacionadas con repeticiones de todo el proceso evolutivo, en lugar de simplemente sobre repeticiones de muestreo de las poblaciones existentes. En este caso, FS T se consideraría un parámetro estadístico, y el objetivo es estimarlo a partir de los datos y / o relacionarlo (mediante cálculos de probabilidad) con parámetros que especifican directamente el modelo evolutivo. El procedimiento de estimación más común (ver, por ejemplo, Weir (1996)) a menudo se formula por analogía con el análisis de varianza. Es equivalente (Rousset, 2001) a un enfoque de método de momentos en el que las probabilidades Q2 y Q3 en la ecuación (9) se estiman mediante las frecuencias de pares idénticos de cromosomas en el locus, dentro y entre poblaciones, respectivamente, en la muestra, y las estimaciones se sustituyen en la ecuación (9).

No existe una guía en la definición de Wright sobre cómo manejar las diferentes correlaciones para diferentes alelos en loci multialélicos y, en la práctica, estos a menudo solo se promedian. (El problema es discutible para los datos SNP). Como se señaló anteriormente, la mayoría de los enfoques existentes siguen a Wright al tener un valor de FS T para la colección de poblaciones (a menudo con un supuesto implícito de intercambiabilidad entre poblaciones), aunque a veces valores diferentes para loci distintos. Creemos que es más apropiado tener parámetros específicos de la población, comunes en los loci SNP.

La fórmula (10) tiene una gran similitud con la estructura de varianza marginal implícita en nuestro modelo (2). De hecho, si tuviéramos que insistir en un valor común de C entre poblaciones, entonces se obtendría la ecuación (10), con FS T reemplazado por C, siempre que se interprete como condicionado a π. En este sentido, particularmente dado que diferentes enfoques implican diferentes condicionamientos de todos modos, nuestros parámetros Cj podría considerarse análogo a FS T-valores, pero con uno para cada población.


Genética estadística: Frecuencias alélicas que siguen una distribución de Dirichlet - Biología

Antecedentes educativos

Recibí un Certificado de Escuela Superior (NSW, Australia) en 1978, después de estudiar en Chevalier College Bowral (1973 - 76) y Kiama High Shool (1977 - 78). Obtuve una puntuación total de 444/500 en materias: Matemáticas (4 unidades), Física (2 u), Química (2 u), Inglés (2 u) y Francés (2 u). Mi mejor asignatura eran las matemáticas (189/200), así que decidí que también podía seguir con lo que era bueno y seguir estudiándolo en la universidad, después de un año viajando por Europa, incluido un período como trabajador de la carretera en Francia. . Para ahorrar para el viaje, hice trabajo de oficina en una compañía de seguros en el norte de Sydney, que dejé por un salario más alto como limpiador en las tiendas del gobierno de Nueva Gales del Sur (en Alexandria, Sydney, pero afortunadamente ahora demolida).

Mi título universitario fue un honores de primera clase en Matemáticas, con Medalla Universitaria, de la Universidad de Newcastle (Aust.). Estudié allí de 1980 a 83. Pasé las vacaciones de verano haciendo trabajo por turnos en la acería de Port Kembla, modelando el consumo de agua en la empresa de agua de Newcastle y ayudando en la investigación de estadísticas de salud, en factores de riesgo de enfermedades cardíacas, con Annette Dobson y Bob Gibberd. Mi proyecto de honor desarrolló un modelo matemático de neovascularización inducida por tumores, supervisado por Sean McElwain. Publicamos un artículo en JTB en 1985.

Durante 1984 ocupé varios puestos de asistente de investigación y tutoría a tiempo parcial en Newcastle, algunos en la Unidad de Estadísticas de Salud de Hunter.

En enero de 1985 me fui a Inglaterra para estudiar un doctorado en Matemáticas en Oxford, que me concedieron en 1989. Mi supervisor fue inicialmente John Hammersley, pero después de unos meses me cambié a Peter Clifford. Mi tesis, titulada "Sobre algunos sistemas de partículas aniquiladores", involucraba procesos estocásticos y estaba motivada por problemas de química física (guiada por el colaborador Nick Green). Mi universidad fue Trinity, donde también hice algunos trabajos de tutoría y fui Decano Junior durante 2 años.

Durante 1988-89, mientras terminaba mi doctorado, fui catedrático de Estadística Matemática en Oxford, el primer puesto en el recién creado Departamento de Estadística, y también catedrático de Matemáticas en Lady Margaret Hall.

En octubre de 1989 comencé mi primer puesto permanente como profesor de probabilidad y estadística en el Queen Mary & amp Westfield College de Londres, un puesto asociado con la nueva cátedra de Peter Donnelly. En 1995 me ascendieron a Senior Lecturer, y en 1995-96 tuve un año sabático en U Chicago (4 meses Peter Donnelly se acababa de mudar allí), USC Los Angeles (2 meses) y UNSW Sydney (6 meses).

En enero de 1997 comencé como profesor de genética estadística en el Departamento de Estadística Aplicada de Reading, puesto creado por la reciente jubilación de Robert Curnow. Se otorgó una cátedra relacionada con ese puesto a John Whittaker, y colaboramos durante muchos años posteriores.

En septiembre de 2001, John y yo nos mudamos al Imperial College London, en el Departamento de Epidemiología y Salud Pública del campus del St Mary's Hospital, en Paddington. Dejé Imperial para trasladarme a la UGI en septiembre de 2009. Vincent Plagnol llegó a la UGI al mismo tiempo para tomar una cátedra.

Desde que terminé mi doctorado, he trabajado para desarrollar y aplicar métodos e ideas matemáticos / estadísticos / computacionales en genética. He contribuido en aspectos de genética poblacional, evolutiva, médica y forense.

En genética forense, mi principal contribución ha sido el desarrollo de métodos para permitir efectos coancestrales en la interpretación de perfiles de ADN. Las fórmulas de probabilidad de coincidencia que incorporan coeficientes de coancestría a menudo se denominan "fórmulas de Balding-Nichols" siguiendo nuestro artículo de 1994. Más recientemente, he desarrollado métodos para la interpretación de evidencia de perfil de ADN de plantilla baja, inicialmente en colaboración con John Buckleton de ESR New Zealand (artículo de 2009).

Las fórmulas de coincidencia forense se basan en la distribución multinomial-Dirichlet, que desarrollé y apliqué a los recuentos de alelos de subpoblaciones. Esto condujo a la primera definición satisfactoria del coeficiente de coancestría (Fst o theta) y a un enfoque basado en la probabilidad para su estimación. Al integrar esta distribución en un modelo jerárquico que permite efectos de subpoblación y locus, Mark Beaumont y yo en nuestro artículo de 2004 desarrollamos un enfoque ampliamente utilizado para detectar loci sujetos a selección (evidenciado por una variación inusualmente alta o baja entre subpoblaciones). El beta-binomio (o más generalmente multinomial-Dirichlet) como distribución para simular frecuencias alélicas de subpoblaciones a veces se denomina "modelo Balding-Nichols" siguiendo nuestro artículo de 1995.

Mark y yo, con Wenyang Zhang, escribimos en 2002 un artículo fundamental en el campo de la Computación Bayesiana Aproximada (ABC). Introdujimos un ajuste de regresión lineal local que ha demostrado ser muy útil, pero quizás igualmente importante proporcionamos la primera revisión útil del método, que había sido desarrollado por etapas por autores anteriores, y lo promocionamos como una técnica estadística poderosa y flexible.

Con Ian Wilson, desarrollé uno de los primeros softwares exitosos (Batwing) para modelar la historia demográfica de las poblaciones basado en el modelado explícito de las ascendencias genéticas de los individuos muestreados de las poblaciones (artículos de 1998 y 2003). Ha sido ampliamente utilizado, particularmente para modelar linajes paternos a partir de datos del cromosoma Y.

He escrito o es coautor de varios artículos de revisión que han demostrado ser populares, sobre métodos estadísticos para estudios de asociación genética (2006), sobre métodos bayesianos y sobre estructura poblacional y parentesco críptico en asociación genética (ambos en 2009) y sobre el genoma Amplios estudios epigenéticos (2011). Will Astle, trabajando conmigo, desarrolló un algoritmo rápido para el análisis de modelos mixtos de estudios de asociación genética, descrito en nuestra revisión de 2009 y disponible en la sección MixAbel del software GenAbel R.

Actualmente continúo con mi patrón establecido de aplicaciones de estadística en genética de muy amplio espectro. Estoy involucrado en proyectos sobre métodos estadísticos para farmacogenética, incluyendo covariables genéticas en modelos farmacocinéticos, secuenciación de variantes raras en condiciones cardíacas hereditarias, selección genómica en cultivos e identificación de razas en perros de razas mixtas. También sigo activo en métodos estadísticos para perfiles de ADN forense.

Soy organizador del módulo GENEG005 Estadística para la interpretación de datos genéticos (o "genética estadística" para abreviar), que fue desarrollado para la Maestría en Genética de Enfermedades Humanas y ahora también lo toman estudiantes de la Maestría en Farmacogenética y la Maestría en Ciencias Estadísticas (es opcional para todos los estudiantes). Una característica de este curso es la gran cantidad de tiempo que se pasa en las clases del laboratorio de computación, necesaria porque muchos estudiantes tienen poca o ninguna experiencia en computación científica y ninguna experiencia previa en R, el software principal utilizado. En consecuencia, los trabajos prácticos evaluados constituyen el 50% de las notas del curso. La enseñanza se comparte con Vincent Plagnol.

Contribuyo con 1/4 de la enseñanza a los 8 días de cursos cortos impartidos por el Bloomsbury Center for Genetic Epidemiology and Statistics, que se llevan a cabo cada septiembre: http://bcges.lshtm.ac.uk/courses/

También contribuiré con la enseñanza de un nuevo módulo "Interpretación de evidencia" para la nueva Maestría en Ciencias Criminales y Forenses, con sede en el Centro de Ciencias Forenses de la UCL, del cual formo parte del comité directivo.


Volumen 2: Evolución y selección de rasgos cuantitativos

  • Deriva genética, incluidos cambios en las variaciones no aditivas
  • Teoría de la selección: cambios en medias y varianzas, respuesta a corto y largo plazo, efectos del tamaño de población finito, selección de índices.
  • Midiendo la selección en poblaciones naturales
  • Modelos de evolución fenotípica: aplicaciones a la ecología, paleobiología, marcoevolución, selección sexual
  • Mantenimiento de la variabilidad genética cuantitativa

Genética estadística: Frecuencias alélicas que siguen una distribución de Dirichlet - Biología

Evolución: Vol. 59, núm. 11, págs. 2312 y # 1502323.

LA FIRMA DE LA SELECCIÓN POSITIVA SOBRE LA VARIACIÓN GENÉTICA PERMANENTE

Molly Przeworski, a, b Graham Coop, ay Jeffrey D. Wall c

a Departamento de Genética Humana, Universidad de Chicago, Chicago, Illinois 60637

c Departamento de Biología Computacional y Molecular, Universidad del Sur de California, 1050 Childs Way, Los Ángeles, California 90089

Abstracto. & # 151 Se centra un interés considerable en el uso de datos de polimorfismo para identificar regiones del genoma que subyacen a adaptaciones recientes. Estas búsquedas están guiadas por un modelo simple de selección positiva, en el que se favorece una mutación tan pronto como surge. Esta suposición puede no ser realista, ya que los cambios ambientales y las expansiones del rango pueden hacer que alelos previamente neutrales o deletéreos se vuelvan beneficiosos. Examinamos qué efecto tiene este modo de selección sobre los patrones de variación en sitios neutrales vinculados mediante la implementación de un nuevo modelo coalescente de selección direccional positiva sobre la variación permanente. En este modelo, surge un alelo neutro y se desplaza en la población, luego, a la frecuencia f, se vuelve beneficioso y finalmente alcanza la fijación. Dependiendo del valor de f, este escenario puede conducir a una gran variación en los espectros de frecuencia de los alelos y en los niveles de desequilibrio de ligamiento en sitios neutrales vinculados. En particular, para el intermedio f, la sustitución beneficiosa a menudo conduce a una pérdida de alelos raros y un patrón que difiere notablemente de la firma de selección direccional en la que actualmente confían los investigadores. Estos hallazgos resaltan la importancia de una caracterización precisa de los efectos de la selección positiva, si queremos identificar de manera confiable adaptaciones recientes a partir de datos de polimorfismo.

Recibido el 17 de mayo de 2005. Aceptado el 6 de septiembre de 2005.

Un objetivo principal de la genética evolutiva es identificar los loci que subyacen a las adaptaciones. En algunos casos, este desafío se ha enfrentado con enfoques de mapeo clásicos, ahora facilitados por la disponibilidad de herramientas genómicas (por ejemplo, Colosimo et al. 2005). Una alternativa, de particular relevancia para los seres humanos y los organismos que no son modelo, es analizar la variación genética dentro y entre especies, con el objetivo de identificar las regiones genómicas que parecen haber evolucionado por selección natural en lugar de por deriva únicamente. Por ejemplo, una clase popular de métodos contrasta el polimorfismo y la divergencia en sitios sinónimos y no sinónimos para detectar la evolución no neutral de secuencias de aminoácidos (por ejemplo, Yang y Bielawski 2000 Nielsen et al. 2005).Este enfoque ha tenido éxito en la identificación de varias proteínas que parecen estar evolucionando bajo una selección positiva repetida (cf. Swanson 2003), pero carece de poder para detectar adaptaciones que consisten en pocas sustituciones de una proteína dada. Tampoco, en su forma actual, es aplicable a regiones no codificantes.

Se puede detectar una única sustitución beneficiosa en los datos de polimorfismo, siempre que haya ocurrido recientemente. La fijación de un alelo favorable en una población distorsiona los patrones de variación en los sitios vinculados, dejando así una firma distintiva que dura hasta aproximadamente 104 generaciones en humanos o aproximadamente 106 en Drosophila melanogaster (Przeworski 2002). En principio, los objetivos de selección positiva pueden, por tanto, identificarse mediante la búsqueda de datos de polimorfismo para las regiones que albergan esta firma (Nair et al. 2003 Wright et al. 2005).

Varios artículos recientes han aplicado este enfoque de mapeo de autostop en humanos y especies de Drosophila (por ejemplo, Harr et al.2002 Payseur et al.2002 Glinka et al.2003 Kauer et al.2003 Kayser et al.2003 Akey et al.2004 Schofl y Schlotterer 2004 Storz et al.2004). Los primeros humanos modernos, D. melanogaster y D. simulans comparten una historia demográfica similar: tienen un origen africano y se cree que solo recientemente se han vuelto cosmopolitas (cf. Aquadro et al. 2001). Esta expansión de su rango ancestral puede haber estado acompañada de adaptaciones a nuevos climas, dietas y enfermedades. La motivación detrás de estos artículos recientes es buscar firmas de adaptaciones en poblaciones no africanas que deben haber experimentado un cambio de hábitat reciente.

Aunque prometedor, el enfoque solo será confiable si la firma de la selección natural se caracteriza con precisión. Actualmente, nuestra comprensión de los efectos de la selección positiva direccional se deriva del modelo simple de una población de apareamiento aleatorio de tamaño constante, en el que un alelo es beneficioso tan pronto como surge y se conduce rápidamente a la fijación en la población (en adelante, como & # 8220 barrido selectivo estándar & # 8221). Bajo estos supuestos, la sustitución de un alelo favorable en un sitio da como resultado una reducción en la variabilidad y un sesgo hacia variantes derivadas raras y de alta frecuencia en sitios neutrales vinculados (Maynard Smith y Haigh 1974 Simonsen et al. 1995 Fay y Wu 2000 Kim y Stephan 2002 Przeworski 2002). Este efecto distorsionador es la huella que se busca en el mapeo de autostop.

Sin embargo, sigue siendo una pregunta abierta si la caracterización de la selección positiva es confiable. En ese sentido, es preocupante que en uno de los raros casos con evidencia independiente de un barrido selectivo reciente, no se observó la firma esperada (Hamblin y Di Rienzo 2000). En el locus Duffy en humanos, se sabe que la homocigosidad para un alelo nulo confiere resistencia al paludismo por vivax. Este alelo nulo es fijo o casi fijo en las poblaciones de África subsahariana y prácticamente está ausente en otros lugares. Sin embargo, en cuatro de cada cinco etnias africanas subsaharianas encuestadas para determinar la variación, las frecuencias alélicas en los sitios vinculados no albergan una alta proporción de alelos raros, ni la diversidad siempre se reduce drásticamente (Hamblin y Di Rienzo 2000 Hamblin et al. 2002). Como sugirieron los autores, esto puede deberse a desviaciones de los supuestos demográficos. Por ejemplo, se sabe que la fijación de un alelo beneficioso en una población estructurada conduce a una firma distinta de la esperada bajo el modelo de barrido estándar (Slatkin y Wiehe 1998 Santiago y Caballero 2005).

Una segunda posibilidad es que, contrariamente a lo que se supone en el modelo estándar, la selección no siempre actúa sobre un nuevo alelo. Un ejemplo sorprendente es el de los espinosos de tres espinas que se trasladaron desde entornos marinos para colonizar lagos y arroyos de agua dulce en los últimos 20.000 años. Estas poblaciones aisladas muestran una reducción paralela en las placas de blindaje corporal, adaptaciones que parecen haber sido logradas por cambios en el mismo locus principal, EDA (Colosimo et al. 2005). Además, el alelo asociado con el fenotipo adaptativo se encuentra en una frecuencia de 0,2 & # 037 y 3,8 & # 037 en dos poblaciones marinas. Por lo tanto, la selección direccional para el enchapado reducido parece haber actuado sobre la variación de pie presente con una frecuencia no despreciable en el ambiente ancestral (Colosimo et al. 2005). Un conjunto similar de circunstancias podría ser la base de la alta frecuencia de tolerancia a la lactosa en poblaciones pastorales dispersas de humanos (Bersaglieri et al. 2004).

Tal escenario puede ser plausible para Duffy, ya que se cree que el advenimiento de la agricultura (hace 10,000 años) ha aumentado drásticamente las presiones contra la malaria (Hamblin y Di Rienzo 2000). De hecho, puede aplicarse a muchas de las adaptaciones que motivan el enfoque del mapeo de autostop. Por ejemplo, se cree que los primeros humanos modernos abandonaron el continente africano hace 100.000 años, o hace unas 4000 generaciones, y llegaron a Australia hace unos 50.000 años y a América sólo en los últimos 20.000 años (cf. Lewin y Foley 2004). . Dado el pequeño tamaño de la población del censo, es posible que haya habido poco tiempo para que surjan nuevas mutaciones beneficiosas. En cambio, las respuestas a nuevas presiones selectivas pueden haber sido provocadas por la selección de polimorfismos existentes.

Si es así, es importante examinar si la selección en la variación permanente deja una huella similar a la del barrido estándar, ya que de lo contrario es posible que no reconozcamos muchas regiones genómicas de interés. Para predecir la huella de la selección en la variación permanente, primero necesitamos saber cuántas mutaciones independientes es probable que subyazcan a una adaptación dada (Hermisson y Pennings 2005). Suponiendo un modelo demográfico simple, sólo dos clases de aptitud en el objetivo de selección (favorecido y desfavorecido), y sin interferencia entre los alelos favorecidos, Hermisson y Pennings (2005) concluyeron que es más probable que haya un solo origen del alelo favorecido siempre que la selección es fuerte y 4 N 0,1, donde N es el tamaño de población efectivo diploide y es la tasa de mutación por generación de la clase favorecida. En los seres humanos, se cree que la tasa de mutación de la población, 4 N & mu (donde & mu es la tasa de mutación neutra por generación), es aproximadamente 0,001 por par de bases (Li y Sadler 1991 Przeworski et al. 2000), por lo que esta condición es equivalente a la suposición de que las mutaciones a menos de 100 pb conducen al tipo favorecido. En D. melanogaster, se estima que 4 N & mu es aproximadamente 0,01 por par de bases (por ejemplo, Moriyama y Powell 1996), lo que corresponde al requisito de que las mutaciones a menos de 10 pb sean beneficiosas. Por tanto, para ambas especies, la suposición de un solo origen para el alelo favorecido parece sensata.

En este caso, la firma de la selección en la variación neutra vinculada depende de manera crucial de la frecuencia, f, en la que el alelo que finalmente alcanza la fijación se ve favorecido por primera vez. Si f & lt 1 / (2 Ns) y la selección es fuerte (donde s es el coeficiente de selección del alelo favorecido), el efecto de una sustitución favorable será el esperado con el modelo de barrido estándar (Stephan et al. 1992). Así, mientras la selección natural actúe sobre un alelo nuevo o raro, los sitios neutrales enlazados tenderán a albergar un exceso de alelos raros y una baja diversidad. Este resultado también ayuda a comprender un modelo en el que un alelo es originalmente deletéreo y luego favorecido. Si la selección de purificación fue lo suficientemente fuerte como para mantener la variante a una frecuencia muy baja en el entorno ancestral, las predicciones volverán a parecerse a las de un barrido selectivo estándar (Orr y Betancourt 2001). En particular, si el cambio ambiental hace que el coeficiente de selección cambie su signo, pero no su valor absoluto, las predicciones serán idénticas (Hermisson y Pennings 2005).

Sin embargo, si el alelo fue inicialmente muy débilmente deletéreo o neutral, la frecuencia f puede no haber sido muy baja, este también es el caso si el alelo fue traído por el flujo de genes de un entorno en el que no era deletéreo (Roper et al. 2004 Colosimo et al.2005). En los casos en que f fue apreciable, la firma de la selección puede no parecerse a la de un barrido estándar. Innan y Kim (2004) examinaron este problema en el contexto de la domesticación de plantas. Para imitar el proceso de selección artificial impuesto por los primeros agricultores, consideraron un cuello de botella reciente de la población (hace 7500 generaciones) seguido de un crecimiento de la población de 20 a 100 veces. Modelaron una selección extremadamente fuerte, que ocurre al comienzo del cuello de botella y actúa sobre un solo alelo que antes era neutral. Usando pruebas estándar de neutralidad basadas en niveles de diversidad y frecuencias de alelos, encontraron que los valores de f más grandes conducen a una disminución del poder para detectar la fijación de un alelo beneficioso en los datos de polimorfismo.

Volvemos a examinar esta pregunta para conocer los parámetros aplicables a la selección natural. Para hacerlo, implementamos un nuevo modelo coalescente de selección direccional en la variación permanente y caracterizamos tanto las frecuencias alélicas como los patrones de desequilibrio de ligamiento en sitios neutrales vinculados. Como Innan y Kim (2004), asumimos que el alelo favorecido tiene un origen único.

Consideramos el siguiente escenario: en el momento t m, surge un alelo A neutro por mutación y deriva en la población hasta el momento t s, cuando, debido a un cambio en el entorno, se vuelve beneficioso. El alelo A finalmente se fija en el tiempo T, momento en el que todos los cromosomas portan el alelo favorito. La selección es genética y, en el nuevo entorno, A tiene un coeficiente de selección s. La frecuencia de A en el tiempo t s se denota por f.

Para examinar el efecto de la sustitución del alelo A en los patrones de variación, modelamos la historia genealógica de una muestra de una región vinculada en evolución neutra. Para hacerlo, asumimos que la población se aparea aleatoriamente y es de tamaño constante N diploides. También asumimos que el alelo A fue el único evento de mutación en ese sitio (en la historia genealógica de la región neutral). Las mutaciones en la región neutra surgen de acuerdo con el modelo de sitios infinitos. La recombinación se modela como un cruce sin conversión de genes y ocurre a una tasa constante r por par de bases.

Retrocediendo en el tiempo (entonces 0 & lt T & lt t s & lt t m), hay tres fases. Antes de que surgiera el alelo A (t & gt t m) o después de A fijo (t & lt T), solo hay un alelo, a, en el sitio. Por lo tanto, la historia puede describirse mediante el coalescente neutro estándar (cf. Hudson 1990). En las otras dos fases, hay dos alelos: cuando t s & lt t & lt t m, a y A son selectivamente equivalentes, mientras que para T & lt t & lt t s, no lo son. Durante estas fases, se puede pensar que los linajes ancestrales de la muestra de la región neutral están evolucionando en una población estructurada, donde las clases alélicas (ay A) definen subpoblaciones y la recombinación entre los linajes ancestrales de cada clase actúa como migración (Hudson y Kaplan 1988 Barton 1998 Nordborg 2001).

Usando esta analogía de un coalescente estructurado, podemos simular la historia genealógica de una muestra de la región de evolución neutral generando la frecuencia del alelo seleccionado a través del tiempo (en adelante & # 8220 la trayectoria & # 8221), luego generando un gráfico de recombinación ancestral condicionado a esta trayectoria (ver Fig. 1). Este enfoque general fue iniciado por Kaplan et al. (1989) y desde entonces se ha utilizado en otros estudios (por ejemplo, Przeworski 2002 Ray et al.2003 Coop y Griffiths 2004 Innan y Kim 2004).

Implementamos el enfoque modificando el programa coalescente descrito en Przeworski (2002). El único cambio se refiere a la trayectoria del alelo A. En Przeworski (2002), el alelo A se favorece de la introducción a la fijación y se utiliza una aproximación determinista para modelar la trayectoria. Aquí, A es inicialmente neutral, luego beneficioso, y la trayectoria de A se modela estocásticamente (como se describe a continuación). Por lo tanto, aunque presentamos resultados para un tiempo fijo de fijación, T, los tiempos t my t s son aleatorios y, por lo tanto, variarán de una ejecución a otra.

Verificamos los errores del programa escribiendo un código independiente (que utiliza una aproximación de nacimiento-muerte al proceso de difusión) y comparando los resultados. Este último se implementa como una versión del programa SELSIM (Spencer y Coop 2004) y está disponible en pritch.bsd.uchicago.edu/software.html.

Simulando la trayectoria del alelo A

La frecuencia de un alelo A en la población se puede modelar mediante un proceso de difusión X (t) en (0,1), con un generador donde & sigma 2 (x) & # 061 x (1 & menos x) es la varianza infinitesimal y & mu (x) la media infinitesimal del proceso de difusión (cf. Ewens 2004). En nuestro modelo, hay dos procesos de difusión: uno neutro, X N (t), y uno seleccionado, X S (t). Estos tienen medias infinitesimales & mu N (x) & # 061 0 y & mu S (x) & # 061 2 Nsx (1 & menos x), respectivamente.

Consideramos que estos procesos están condicionados a que alcancen uno de dos estados absorbentes: cero (es decir, pérdida de A de la población) y uno (es decir, fijación). El proceso de difusión condicional tiene el mismo & sigma 2 (x) que la difusión habitual, pero la media infinitesimal incluye un término adicional, que efectivamente da el empuje apropiado hacia el límite sobre el que hemos condicionado.

Nuestro enfoque también se basa en la reversibilidad del proceso de difusión (cf. Griffiths 2003). Específicamente, usamos el hecho de que el proceso de difusión mirando hacia atrás en el tiempo desde el presente (es decir, hacia la introducción del alelo) tiene la misma distribución que un proceso hacia adelante en el tiempo condicionado a la absorción en cero. Este proceso condicional X N & # 042 (t) es el mismo que X N (t) pero con & mu N (x) reemplazado por & mu N & # 042 (x) & # 061 & minus x (Ewens 2004). Asimismo, dado que solo nos interesan los alelos beneficiosos que eventualmente alcanzan la fijación, consideramos que el proceso de difusión está condicionado a que el alelo seleccionado alcance una frecuencia de uno. Este proceso condicional X S & # 043 (t) tiene una media infinitesimal & mu S & # 043 (x) & # 061 2 Nsx (1 & minus x) / tanh (2 Nsx) (Ewens 2004).

Para generar una trayectoria para el alelo A, utilizamos una caminata aleatoria de salto de tamaño variable para aproximarnos al proceso de difusión. Dada una frecuencia actual x, en intervalos de tiempo y Delta t, la frecuencia x salta a: con igual probabilidad. El término & mu (x) se reemplaza por la media infinitesimal condicional de la fase en cuestión (es decir, neutral o selectiva). Este proceso tiene el límite de difusión correcto, es decir, se obtienen la media y la varianza infinitesimales correctas y todos los momentos superiores son cero, como el intervalo de tiempo y Delta t 0 (Karlin y Taylor 1981). Por lo tanto, para & Delta t pequeño, proporciona una buena aproximación al proceso de difusión. Verificamos esto para nuestra elección de & Delta t & # 061 1 / (4 N) en comparación con las expectativas analíticas y con métodos alternativos de simulación (no se muestran los resultados).

Hay dos pasos en nuestra implementación: (1) simulación de la trayectoria de un alelo neutral desde la frecuencia f hasta la pérdida, con & mu (x) & # 061 & mu N & # 042 (x) en los saltos descritos anteriormente por la propiedad de reversibilidad descrito anteriormente, podemos cambiar esta trayectoria para modelar el alelo A de la introducción a la frecuencia f y (2) simulación de la trayectoria de un alelo seleccionado de f a la fijación, con & mu (x) & # 061 & mu S & # 043 (x ) en los saltos. Luego concatenamos los resultados de (1) y (2) para obtener una trayectoria desde la introducción hasta la fijación.

Nuestro enfoque asegura que A se selecciona inicialmente cuando está en la frecuencia f, sin asumir que A se selecciona cuando alcanza la frecuencia f por primera vez (lo que sería poco realista). Además, es computacionalmente eficiente, porque solo generamos trayectorias donde A finalmente se fija en la población.

Estamos interesados ​​en contrastar dos modelos: el barrido selectivo estándar, en el que se favorece un alelo desde la introducción hasta la fijación, y un modelo de selección direccional en la variación permanente. Para este último, consideramos el siguiente escenario: un alelo A neutro surge y se desplaza en la población hasta el momento t s, cuando se ve favorecido, finalmente alcanza la fijación en la población en el momento T (ver Métodos para más detalles). La frecuencia del alelo A en el tiempo t s, f, es el parámetro más destacado en la comparación.

Para caracterizar los efectos de estos dos modelos sobre la variación genética, simulamos muestras de una región vinculada y en evolución neutra utilizando un enfoque coalescente estructurado. Específicamente, generamos una trayectoria del alelo A desde la introducción hasta la fijación, luego condicionamos esta realización particular del proceso genealógico para generar un gráfico de recombinación ancestral para nuestra muestra (Fig. 1). La trayectoria del alelo A se modela estocásticamente, utilizando un nuevo enfoque (ver Métodos). Bajo el modelo de barrido estándar, f & # 061 1 / (2 N), mientras que bajo el modelo de selección direccional en la variación de pie, f 1 / (2 N).

Efecto de f en los niveles de diversidad

Independientemente del valor de f, los niveles medios de diversidad están más distorsionados cerca del sitio seleccionado y tienden a su expectativa neutral al aumentar la distancia genética. Esto se ilustra en la Figura 2A, usando parámetros que pueden ser aplicables a humanos (por ejemplo, Frisse et al. 2001). Presentamos tres resúmenes de diversidad: & theta W (Watterson 1975), & theta H (Fay y Wu 2000) y & pi (Tajima 1989). Bajo un modelo de equilibrio neutral, estas estadísticas proporcionan una estimación no sesgada de & theta, la tasa de mutación de la población (& theta & # 061 4 N & mu, donde & mu es la tasa de mutación por generación por par de bases). Para estos parámetros, un barrido estándar conduce a una reducción en los niveles medios de variación a lo largo de la región de 100 kb (en relación con la expectativa neutral de & theta & # 061 0,001 por par de bases).

Se espera una imagen muy similar siempre que f & lt 1 / (2 Ns) y la selección sea fuerte (Stephan et al. 1992). Como ejemplo, en la Figura 2A los niveles esperados de variación son indistinguibles para f & # 061 1 / (2 N) & # 061 5 & times 10 & minus5 yf & # 061 1 / (2 Ns) & # 061 10 & minus3. A medida que aumenta f, la sustitución de un alelo favorecido tiene un efecto más débil sobre la diversidad en los sitios neutrales enlazados (Innan y Kim 2004) para f & # 061 0.20, el efecto es apenas detectable. Si el tamaño efectivo de la población, N, es mayor, la diferencia entre el barrido estándar y un modelo de selección direccional en la variación de posición es más evidente. Por ejemplo, utilizando parámetros que pueden ser realistas para D. melanogaster (p. Ej., Andolfatto y Przeworski 2000), un modelo con f & # 061 0.05 conduce a una reducción muy leve en los niveles de diversidad en relación con la expectativa en el equilibrio neutral (ver Fig. 2B).

Efecto de f sobre las frecuencias alélicas

Este hallazgo podría sugerir que la selección direccional en la variación de posición se comporta como el barrido estándar, pero con una huella más débil. Esto resulta no ser cierto. La Figura 3 traza & pi y & theta W en función de la distancia desde el sitio seleccionado para cuatro conjuntos de datos simulados generados bajo modelos de selección direccional donde f & # 061 0.05 y donde f & # 061 1 / (2 N), así como bajo el equilibrio neutro.Como se puede ver, algunos casos de selección en la variación permanente se asemejan a un barrido estándar con una huella más débil (ejemplo 3), otros se ven como el caso de equilibrio neutral, con una alta diversidad muy cerca del sitio seleccionado (ejemplo 4) y otros se ven diferentes. ya sea el barrido estándar o la neutralidad, con valles de baja diversidad en algunos segmentos y niveles de equilibrio neutro en otros (ejemplos 1, 2).

Además, aunque la fijación de una nueva mutación beneficiosa tiene más efecto sobre & pi que sobre & theta W en los cuatro ejemplos, este no es el caso cuando f & # 061 0,05. Ilustramos esta diferencia entre los dos modelos de selección con más detalle presentando cinco ejemplos generados aleatoriamente de frecuencias alélicas en una región neutra vinculada (Fig. 4). Cerca del sitio seleccionado, un barrido estándar tiende a producir un exceso de alelos raros y de alta frecuencia en relación con el modelo de equilibrio neutral (por ejemplo, Maynard Smith y Haigh 1974 Kaplan et al. 1989 Simonsen et al. 1995 Fay y Wu 2000) . Como se ve en los ejemplos 2 y 5, esto también ocurre en un modelo donde f 1 / (2 N). Lo que distingue el modelo de selección direccional en la variación de pie del modelo de barrido estándar es el número apreciable de casos en los que hay un exceso relativo de alelos de frecuencia intermedia (ejemplos 1 y 4 en la figura 4). Esto sugiere que para valores intermedios de f, la selección direccional conduce a una variación mucho mayor en los espectros de frecuencia de lo esperado en un modelo de barrido estándar.

Para cuantificar esta observación, estimamos la varianza y el intervalo de probabilidad central 95 & # 037 de Tajima & # 039s D (Tajima 1989), un resumen de uso común del espectro de frecuencias de alelos plegados basado en la diferencia (aproximadamente) normalizada entre & pi y & theta W ( Tabla 1 ). En un modelo de equilibrio neutral, la media de esta estadística es aproximadamente cero, mientras que un valor negativo (positivo) refleja un exceso de alelos raros (de frecuencia intermedia). Primero consideramos el caso en el que el alelo beneficioso acaba de alcanzar la fijación. Como era de esperar, el barrido selectivo estándar conduce a valores de D muy reducidos. Por el contrario, para f & # 061 0.05, la media se reduce solo ligeramente desde cero, pero ambas colas de la distribución de D aumentan considerablemente (Tabla 1). Si el tiempo transcurrido desde la fijación es en cambio de 2000 generaciones, o aproximadamente 50.000 años en humanos, entonces ambos modelos conducen a valores D más negativos. Sin embargo, la varianza en los resultados sigue siendo mucho mayor en un modelo de selección direccional en la variación de la posición y el percentil 95 todavía incluye valores marcadamente positivos (Tabla 1).

Se observó el mismo comportamiento cualitativo para un modelo de domesticación de plantas, en el que la selección se produce durante un cuello de botella reciente (Innan y Kim 2004). Los autores consideraron el poder de rechazar un modelo nulo neutral utilizando dos resúmenes del espectro de frecuencias alélicas, Tajima & # 039s D y una estadística similar a Fay y Wu & # 039s H (Fay y Wu 2000), como estadísticas de prueba. Señalaron que & # 8220las dos pruebas funcionan hacia ambas colas porque la selección hace que los patrones de polimorfismo sean variables & # 8221 (Innan y Kim 2004, p. 10670). Juntos, sus resultados y los nuestros sugieren que una mayor variación en los espectros de frecuencia es una característica general de la selección direccional en la variación permanente.

Este hallazgo puede entenderse en un marco coalescente. Bajo un modelo de barrido selectivo estándar y en ausencia de recombinación entre loci seleccionados y neutros, la genealogía de una muestra de la región neutral tendrá forma de estrella y se reflejará en los datos por una alta proporción de alelos raros. Si se produce un nivel bajo de recombinación, tenderá a serlo cuando el alelo A tenga una frecuencia intermedia en la población, antes de que hayan tenido lugar muchos eventos coalescentes. La genealogía resultante estará desequilibrada, con una o pocas ramas externas largas, de modo que la muestra contendrá una alta proporción de alelos raros y derivados de alta frecuencia (Barton 1998 Fay y Wu 2000). Por el contrario, en un modelo de selección sobre variación permanente, la recombinación también tendrá lugar cuando A esté en baja frecuencia (Fig. 1). La mayor oportunidad de recombinación en la etapa inicial se debe al hecho de que A pasa más tiempo en la población a la deriva a bajas frecuencias. Los eventos de recombinación que ocurren mientras A es poco común resultarán en genealogías más balanceadas, es decir, en un mayor número de alelos de frecuencia intermedia en la muestra (Fig. 1). Visto de otra manera, si la recombinación ocurre mientras A es poco común, entonces más de un haplotipo portará el alelo en el tiempo t s. Un subconjunto de estos aumentará en frecuencia junto con A y, después de la fijación, los alelos que los distinguen tenderán a estar en frecuencias intermedias en la muestra. En resumen, el espectro de frecuencia observado en sitios neutrales vinculados depende de cuántos eventos de recombinación ocurrieron durante la estadía del alelo favorecido en la población y cuándo ocurrieron, es decir, para una fuerza de selección fija, en f y la tasa de recombinación. .

En este sentido, no vale nada que cualquier escenario que lleve a un tiempo de permanencia relativamente largo del alelo favorecido, especialmente a baja frecuencia, aumente la oportunidad de recombinación entre clases alélicas, debilitando y distorsionando así la huella de una sustitución adaptativa relativa. al modelo de barrido estándar. Por ejemplo, la fijación de un alelo beneficioso tiene un efecto menor sobre la diversidad en sitios neutrales vinculados cuando el alelo es recesivo en lugar de codominante, como se supone en el modelo estándar (Teshima y Przeworski 2005). Es importante destacar que la estructura de la población también puede aumentar el tiempo de permanencia del alelo favorecido (Cherry 2003 Whitlock 2003).

Efecto de f sobre la fuerza de las asociaciones alélicas

El momento de los eventos de recombinación durante el barrido selectivo también influirá en los niveles de desequilibrio de ligamiento (LD). Para examinar este aspecto de los datos del polimorfismo, estimamos la tasa de recombinación de la población, & rho & # 061 4 N e r (Hudson 1987). En el modelo de equilibrio neutral, las estimaciones de rho pueden considerarse como la cantidad de recombinación necesaria en la población por generación para generar aproximadamente la LD observada. De manera más general, se pueden considerar como un índice de la fuerza de las asociaciones alélicas, con valores menores correspondientes a mayor LD y viceversa (Andolfatto y Przeworski 2000).

En la Tabla 2, presentamos la media, la varianza y el rango de dos estimaciones de & rho, para parámetros aplicables a humanos y & rho & # 061 10. La primera, W 00, es la estimación de máxima verosimilitud de & rho dados dos resúmenes de los datos. : el número de haplotipos distintos en la muestra y el número mínimo de eventos de recombinación, según lo estimado por la prueba de cuatro gametos (Wall 2000). La segunda estimación, H 01, es un estimador de probabilidad compuesto basado en configuraciones de haploipos en pares de sitios polimórficos (Hudson 2001). Bajo el modelo neutral de equilibrio, ambos estimadores son casi insesgados (Tabla 2). En comparación, el modelo de barrido selectivo estándar conduce a una fuerte disminución en W 00, o equivalentemente, a un marcado aumento en los niveles de LD (Przeworski 2002 Kim y Nielsen 2004). Esta disminución en la & rho estimada también se observa al considerar la mediana de H 01, pero no su media, ya que esta última está distorsionada por valores extremos ocasionales.

En promedio, la fijación de un alelo beneficioso tiene un efecto menor en las estimaciones de & rho (es decir, un efecto más débil en LD) cuando f & # 061 0.05 en comparación con el modelo de barrido selectivo estándar. Como ilustración, para estos parámetros, la mediana W 00 es igual a 1.0 en lugar de 0.0 y la mediana H 01 & # 061 2.6 en lugar de 1.6. Además, hay una mayor variación en los niveles de LD: Var (W 00) & # 061 2,34 versus 0,90 para f & # 061 0,05 yf & # 061 1 / (2 N), respectivamente. (Este efecto no se ve con H 01, probablemente porque el estimador está sesgado hacia arriba cuando la muestra contiene una alta proporción de alelos raros y este caso surge más a menudo bajo un modelo de barrido selectivo estándar J. D. Wall, obs. No publicada).

A pesar del aumento de la varianza en las estimaciones de W 00 bajo un modelo donde f & # 061 0.05, el percentil 97.5 superior de W 00 sigue siendo sustancialmente más bajo de lo esperado bajo un modelo de equilibrio neutral. Esto sugiere que el uso de W 00 como estadística de prueba puede proporcionar un poder sustancial para detectar una sustitución beneficiosa, incluso cuando f 1 / (2 N). Desafortunadamente, el uso de W 00 como estadística de prueba requeriría una estimación precisa de & rho, que rara vez está disponible. Además, el efecto de una sustitución beneficiosa sobre la LD se disipa rápidamente (Tabla 2 Przeworski 2002 Kim y Nielsen 2004).

Como resumen alternativo de los patrones de LD, tabulamos tanto el número de haplotipos distintos como la homocigosidad de haplotipos para las simulaciones descritas en la Tabla 2. En todos los casos, los barridos selectivos con f & # 061 1 / (2 N) tuvieron menos diversidad de haplotipos que las simulaciones comparables con f & # 061 0.05, incluso cuando se corrigieron las diferencias en los niveles de diversidad y frecuencias alélicas (resultados no mostrados). Estos resultados son ampliamente consistentes con los descritos para estimaciones de & rho, en que el modelo de barrido estándar parece conducir a un mayor aumento en los niveles de LD que un modelo donde f & # 061 0.05. Queda por investigar si esta observación se generaliza a otros resúmenes de LD y, en particular, si existe un aspecto de LD que podría ayudar a distinguir la selección en la variación permanente frente a nuevas mutaciones.

Frecuencias en las que se favorecen los alelos

Como demuestran estos resultados, la firma de la selección direccional en un polimorfismo existente depende fundamentalmente del valor de f. Desafortunadamente, hay poca evidencia empírica que sugiera qué valores pueden ser plausibles para las poblaciones naturales. Para tener una idea de qué esperar, consideramos un modelo en el que todas las sustituciones beneficiosas resultan de la selección direccional en la variación permanente en una población de equilibrio neutral, y preguntamos cuál sería la distribución de f en esas condiciones (para una derivación relacionada, ver Hermisson y Pennings 2005).

Primero asumimos que la selección positiva actúa sobre el alelo derivado. En nuestro modelo, se elige al azar un alelo neutro del espectro de frecuencias de equilibrio neutro. Denote la frecuencia alélica derivada por x, confinada a & # 0911/2 N, 1 & menos 1/2 N & # 093. La función de densidad de probabilidad (pdf) para x es proporcional a 1 / x (cf. Ewens 2004). Dado que 1/2 N (2 N & menos1) / 2 N dx / x & # 061 ln (2 N & menos 1), el pdf de la frecuencia alélica derivada es (x) & # 061 & # 091 x ln (2 N & menos 1) & # 093 y menos1. Por lo tanto, el alelo neutro se extrae de (x) y, posteriormente, se favorece con ventajas selectivas génicas s. Dado un alelo a la frecuencia x que tiene coeficiente selectivo s, la probabilidad de fijación es aproximadamente (1 & menos e & menos4 Nsx) / (1 & menos e & menos4 Ns) (cf. Ewens 2004). Condicional a la fijación, la función de densidad de probabilidad para la frecuencia f, P (x), es por lo tanto proporcional ay la probabilidad de fijación de un alelo neutro elegido al azar es aproximadamente Figura 5 presenta (x) y P (x). Una comparación de los dos indica un cambio hacia alelos de mayor frecuencia en P (x) en relación con (x). Esto se comprende fácilmente: para un coeficiente de selección fijo, es menos probable que se fijen los alelos raros. Por tanto, condicionado a la fijación, la proporción de alelos raros es menor. A medida que aumenta la fuerza de la selección, el efecto del condicionamiento sobre la fijación se debilita y las dos distribuciones se vuelven más similares.

La implicación es que, si la selección direccional actúa con frecuencia sobre la variación permanente y la selección en las poblaciones naturales es fuerte, la distribución de f se parecerá a la de la variación neutra en la población ancestral. Por lo tanto, este modelo simple predice que la selección direccional en teocintle, el progenitor silvestre del maíz, tenderá a producir la firma estándar de un barrido selectivo, porque el espectro de frecuencias de los alelos está sesgado hacia alelos raros (Wright et al. 2005). Por el contrario, en las poblaciones humanas europeas, parece haber un exceso de alelos de frecuencia intermedia en regiones supuestamente neutrales (por ejemplo, Frisse et al. 2001 Akey et al. 2004). Suponiendo que lo mismo ocurriera al inicio de la selección, es posible que las adaptaciones a nuevos hábitats hayan involucrado alelos con una frecuencia apreciable, dando como resultado un subconjunto de regiones genómicas con diversidad reducida y un exceso de alelos de frecuencia intermedia.

Hasta ahora, hemos asumido que la selección favorece al alelo derivado. Dependiendo de cómo cambien los coeficientes de selección con el entorno, puede ser más realista suponer que el alelo que se vuelve beneficioso, A, tiene la misma probabilidad de ser derivado o ancestral. El pdf de la frecuencia de los alelos ancestrales es & # 091 (1 & minus x) ln (2 N & minus 1) & # 093 & minus1. Por lo tanto, la distribución de frecuencia de un alelo neutro elegido al azar es y P (x) es proporcional a Mientras (x) es simétrico alrededor de 0.5, P (x) se desplaza hacia valores de frecuencia más altos. Por lo tanto, en este escenario, la selección actuará principalmente sobre alelos cuya frecuencia sea cercana a uno y que sean ancestrales. Cuando lo haga, la trayectoria de A de uno af a uno inducirá un cuello de botella breve y muy leve de la clase alélica a. En presencia de recombinación, esta analogía entre un barrido y una reducción del tamaño de la población no es perfecta (Barton 1998), pero indica que la sustitución beneficiosa de un alelo ancestral no tendrá esencialmente ningún efecto sobre los patrones de variación en los sitios enlazados. Además, cualquier firma selectiva que esté presente será difícil de distinguir de los efectos de la historia de la población, especialmente en especies (como los humanos) que se cree que han experimentado cuellos de botella recientes. Por lo tanto, incluso si la selección tiene la misma probabilidad de favorecer los alelos ancestrales y derivados, solo aquellos episodios que involucran alelos derivados serán fácilmente detectables.

La identificación de objetivos selectivos a partir de datos de polimorfismo requiere una caracterización precisa de los efectos de la selección natural. Hasta la fecha, estos esfuerzos han sido guiados por un modelo simplista que, entre muchas otras suposiciones, postula que las adaptaciones se producen a través de la selección direccional en un solo alelo de reciente aparición. Sin embargo, tanto los datos empíricos como las consideraciones teóricas sugieren que la selección a menudo puede actuar sobre múltiples mutaciones independientes o sobre un solo alelo ya presente en la población. Centrándonos en el último escenario, encontramos que la selección direccional en una región de recombinación puede conducir a patrones de polimorfismo que difieren marcadamente de la firma esperada bajo el modelo estándar, cuando la frecuencia a la que el alelo se vuelve beneficioso excede 1 / (2 Ns).

No está claro con qué frecuencia se cumple esta condición, pero considerar este escenario puede ayudar a explicar los patrones de variación en los loci candidatos. A modo de ilustración, Akey et al. (2004) utilizaron un enfoque de tasa de descubrimiento falso para identificar regiones génicas para las que se rechaza la evolución neutral bajo una variedad de supuestos demográficos diferentes. Los autores identificaron ocho loci como significativos en los europeos-estadounidenses y ninguno en los afroamericanos, lo que los llevó a sugerir que las poblaciones europeas han experimentado una selección direccional reciente en respuesta a nuevos hábitats. Curiosamente, tres de los ocho candidatos tienen valores muy positivos de Tajima & # 039s D (ABO, ACE2 e IL1A Akey et al. 2004). De estos, ABO e IL1A también exhiben niveles inusualmente altos de diversidad, quizás consistente con la acción de equilibrar la selección. Pero en ACE2, la enzima convertidora de angiotensina I & # 8211, no solo es Tajima & # 039s D fuertemente positiva (& # 0431.854) sino que la diversidad se reduce (la proporción de diversidad entre europeos y afroamericanos es el 11 ° de los 132 genes encuestados) . Estos dos aspectos de los datos son difíciles de conciliar con los modelos estándar de barrido selectivo o de selección equilibrada, pero son consistentes con las predicciones de la selección direccional en la variación de posición. De manera similar, uno de los primeros artículos en aplicar el enfoque de mapeo de autostop a D. melanogaster identificó dos regiones del cromosoma X como objetivos putativos de un barrido selectivo reciente en poblaciones europeas (Harr et al. 2002). Los niveles de polimorfismo se redujeron en estas regiones, pero el valor D de Tajima & # 039s fue positivo para más de la mitad de los fragmentos secuenciados. Una explicación puede ser que la selección positiva actuó sobre un alelo que ya se segrega con una frecuencia apreciable en la población ancestral. Estos ejemplos son solo sugerentes, pero resaltan el potencial poder explicativo de un modelo de selección más realista. Para permitir que este modelo de selección direccional en la variación de posición se caracterice más o se utilice para la inferencia, lo hemos implementado en el marco del programa SELSIM (Spencer y Coop 2004) y hemos puesto esta versión a disposición en pritch.bsd.uchicago.edu/ software.html.

Como siguiente paso, sería útil caracterizar el efecto sobre los datos de polimorfismo de la selección direccional en mutaciones múltiples e independientes en un locus. Aunque existe una considerable incertidumbre en torno al número exacto de orígenes independientes, este escenario parece aplicarse a la resistencia a la pirimetamina en el parásito de la malaria (Roper et al. 2004 y referencias allí). De manera similar, el fenotipo de placa baja en poblaciones de agua dulce de espinosos de tres espinas parece deberse a al menos dos mutaciones independientes en el locus principal (Colosimo et al. 2005). De manera más general, asumiendo que no hay interferencia entre alelos, este modo de selección en la variación de posición es probable siempre que la selección sea débil o la tasa de mutación de la población a la clase favorecida, 4 N, sea alta (Hermisson y Pennings 2005). Por lo tanto, el resultado de Hermisson y Pennings predice que es más probable que las adaptaciones en especies con un tamaño de población efectivo más grande, N, involucren múltiples alelos de orígenes independientes. También sugiere que la firma de selección en un locus dependerá de la arquitectura genética del fenotipo, por ejemplo, para un coeficiente de selección fijo, se espera que una pérdida adaptativa de función deje una firma distinta a partir de una ganancia de función, porque más mutaciones puede provocarlo (Hermisson y Pennings 2005). Estas conjeturas se pueden probar una vez que se caracteriza la firma de selección en múltiples alelos.

Además de considerar modos de selección más generales, puede ser importante incluir supuestos demográficos más realistas (por ejemplo, Slatkin y Wiehe 1998 Beaumont y Balding 2004). Varios estudios han destacado la dificultad de distinguir los efectos selectivos de los demográficos (Nielsen 2001 Przeworski 2002 Lazzaro y Clark 2003). Este sigue siendo un punto crucial: por ejemplo, los patrones tanto en ACE2 como en los loci candidatos identificados por Harr et al.(2002) podría reflejar procesos demográficos complejos no considerados por los autores en lugar de la adaptación en un sitio vinculado. Sin embargo, es igualmente importante comprender cómo los supuestos demográficos alternativos pueden afectar la firma de la selección (por ejemplo, Slatkin y Wiehe 1998 Beaumont y Balding 2004). En última instancia, el objetivo no es distinguir entre modelos de selección versus demografía compleja, sino entre modelos de selección y demografía versus demografía sola. En particular, para identificar adaptaciones en respuesta a los cambios climáticos y otros cambios bióticos, necesitamos caracterizar la huella de la selección positiva en poblaciones que están estructuradas y varían en tamaño con el tiempo. De lo contrario, corremos el riesgo de confundir loci de evolución neutral con objetivos de selección direccional y perder objetivos reales para los que la firma de adaptación está distorsionada más allá del reconocimiento.

Agradecemos a B. Griffiths por sus útiles discusiones ya N. Barton, M. Nachmann y los revisores por sus comentarios sobre el manuscrito. GC recibe el apoyo de la subvención HG002772 de los Institutos Nacionales de Salud a J. K. Pritchard, JDW de una beca Alfred P. Sloan y MP de la subvención GM72861 de los Institutos Nacionales de Salud y una beca Alfred P. Sloan.

Akey, J. M., M. A. Eberle, M. J. Rieder, C. S. Carlson, M. D. Shriver, D. A. Nickerson y L. Kruglyak. 2004. La historia de la población y la selección natural dan forma a los patrones de variación genética en 132 genes. PLoS Biol. 2: e286

Andolfatto, P. y M. Przeworski. 2000. Una desviación de todo el genoma del modelo neutral estándar en poblaciones naturales de Drosophila. Genética. 156: 257 y # 150268. [Cita de PubMed]

Aquadro, C. F., V. Bauer DuMont y F. A. Reed. 2001. Variación de todo el genoma en humanos y moscas de la fruta: una comparación. Curr. Opin. Gineta. Dev. 11: 627 y # 150634. [Cita de PubMed]

Barton, N. H. 1998. El efecto del autostop en genealogías neutrales. Gineta. Res. 72: 123 y # 150133.

Beaumont, M. A. y D. J. Balding. 2004. Identificación de la divergencia genética adaptativa entre poblaciones a partir de exploraciones del genoma. Mol. Ecol. 13: 969 y # 150980. [Cita de PubMed]

Bersaglieri, T., P. C. Sabeti, N. Patterson, T. Vanderploeg, S. F. Schaffner, J. A. Drake, M. Rhodes, D. E. Reich y J. N. Hirschhorn. 2004. Firmas genéticas de una fuerte selección positiva reciente en el gen de la lactasa. Soy. J. Hum. Gineta. 74: 1111 y # 1501120. [Cita de PubMed]

Cherry, J. L. 2003. Selección en una población subdividida con extinción local y recolonización. Genética. 164: 789 y # 150795. [Cita de PubMed]

Colosimo, P. F., K. E. Hosemann, S. Balabhadra, G. Villarreal Jr, M. Dickson, J. Grimwood, J. Schmutz, R. M. Myers, D. Schluter y D. M. Kingsley. 2005. Evolución paralela generalizada en espinosos mediante la fijación repetida de alelos de Ectodysplasin. Ciencias. 307: 1928 y # 1501933.

Coop, G. y R. C. Griffiths. 2004. Inferencia ancestral sobre árboles genéticos bajo selección. Theor. Popul. Biol. 66: 219 y # 150232. [Cita de PubMed]

Ewens, W. J. 2004. Genética de poblaciones matemáticas. Springer Verlag, Nueva York.

Fay, J. C. y C. I. Wu. 2000. Autostop bajo la selección darwiniana positiva. Genética. 155: 1405 y # 1501413. [Cita de PubMed]

Frisse, L., R. R. Hudson, A. Bartoszewicz, J. D. Wall, J. Donfack y A. Di Rienzo. 2001. La conversión de genes y las diferentes historias de poblaciones pueden explicar el contraste entre los niveles de polimorfismo y desequilibrio de ligamiento. Soy. J. Hum. Gineta. 69: 831 y # 150843. [Cita de PubMed]

Glinka, S., L. Ometto, S. Mousset, W. Stephan y D. De Lorenzo. 2003. La demografía y la selección natural han dado forma a la variación genética en Drosophila melanogaster: un enfoque de múltiples locus. Genética. 165: 1269 y # 1501278. [Cita de PubMed]

Griffiths, R. C. 2003. El espectro de frecuencia de una mutación, y su edad, en un modelo de difusión general. Theor. Popul. Biol. 64: 241 y # 150251. [Cita de PubMed]

Hamblin, M. T. y A. Di Rienzo. 2000. Detección de la firma de la selección natural en humanos: evidencia del locus del grupo sanguíneo Duffy. Soy. J. Hum. Gineta. 66: 1669 y # 1501679. [Cita de PubMed]

Hamblin, M. T., E. E. Thompson y A. Di Rienzo. 2002. Firmas complejas de selección natural en el locus del grupo sanguíneo Duffy. Soy. J. Hum. Gineta. 70: 369 y # 150383. [Cita de PubMed]

Harr, B., M. Kauer y C. Schlotterer. 2002. Cartografía de autostop: una estrategia de cartografía fina basada en la población para mutaciones adaptativas en Drosophila melanogaster. Proc. Natl. Acad. Sci. ESTADOS UNIDOS. 99: 12949 y # 15012954. [Cita de PubMed]

Hermisson, J. y P. S. Pennings. 2005. Barridos suaves: genética de poblaciones moleculares de adaptación a partir de variación genética permanente. Genética. 169: 2335 y # 1502352. [Cita de PubMed]

Hudson, R. R. 1987. Estimación del parámetro de recombinación de un modelo de población finita sin selección. Gineta. Res. 50: 245 y # 150250. [Cita de PubMed]

Hudson, R. R. 1990. Genealogías genéticas y el proceso coalescente. Páginas. 1 y # 8211 44 ​​en D. Futuyma y J. Antonovics, eds. Encuestas de Oxford en Biología Evolutiva. Universidad de Oxford. Press, Oxford, Reino Unido

Hudson, R. R. 2001. Distribuciones de muestreo de dos locus y su aplicación. Genética. 159: 1805 & # 1501817. [Cita de PubMed]

Hudson, R. R. y N. L. Kaplan. 1988. El proceso de coalescencia en modelos con selección y recombinación. Genética. 120: 831 y # 150840. [Cita de PubMed]

Innan, H. e Y. Kim. 2004. Patrón de polimorfismo después de una fuerte selección artificial en un evento de domesticación. Proc. Natl. Acad. Sci. ESTADOS UNIDOS. 101: 10667 y # 15010672. [Cita de PubMed]

Kaplan, N. L., R. R. Hudson y C. H. Langley. 1989. El & # 8220 efecto autostop & # 8221 revisado. Genética. 123: 887 y # 150899. [Cita de PubMed]

Karlin, S. y H. M. Taylor. 1981. Un segundo curso en procesos estocásticos. Prensa académica, San Diego, CA.

Kauer, M. O., D. Dieringer y C. Schlotterer. 2003. Una pantalla de variabilidad de microsatélites para la selección positiva asociada con la expansión del hábitat & # 8220 fuera de África & # 8221 de Drosophila melanogaster. Genética. 165: 1137 y # 1501148. [Cita de PubMed]

Kayser, M., S. Brauer y M. Stoneking. 2003. Un escaneo del genoma para detectar regiones candidatas influenciadas por la selección natural local en poblaciones humanas. Mol. Biol. Evol. 20: 893 y # 150900. [Cita de PubMed]

Kim, Y. y R. Nielsen. 2004. Desequilibrio de ligamiento como firma de barridos selectivos. Genética. 167: 1513 y # 1501524. [Cita de PubMed]

Kim, Y. y W. Stephan. 2002. Detección de una firma local de autostop genético a lo largo de un cromosoma recombinante. Genética. 160: 765 y # 150777. [Cita de PubMed]

Lazzaro, B. P. y A. G. Clark. 2003. Genética de poblaciones moleculares de genes de péptidos antibacterianos inducibles en Drosophila melanogaster. Mol. Biol. Evol. 20: 914 y # 150923. [Cita de PubMed]

Lewin, R. y R. A. Foley. 2004. Principios de la evolución humana. Blackwell Publishing, Oxford, Reino Unido.

Li, W. H. y L. A. Sadler. 1991. Baja diversidad de nucleótidos en el hombre. Genética. 129: 513 y # 150523. [Cita de PubMed]

Maynard Smith, J. M. y J. Haigh. 1974. El efecto autostop de un gen favorable. Gineta. Res. 23: 23 & # 15035. [Cita de PubMed]

Moriyama, E. N. y J. R. Powell. 1996. Variación del ADN nuclear intraespecífico en Drosophila. Mol. Biol. Evol. 13: 261 y # 150277. [Cita de PubMed]

Nair, S., J. T. Williams, A. Brockman, L. Paiphun, M. Mayxay, P. N. Newton, J. P. Guthmann, F. M. Smithuis, T. T. Hien, N. J. White, F. Nosten y T. J. Anderson. 2003. Un barrido selectivo impulsado por el tratamiento con pirimetamina en los parásitos de la malaria del sudeste asiático. Mol. Biol. Evol. 20: 1526 y # 1501536. [Cita de PubMed]

Nielsen, R. 2001. Pruebas estadísticas de neutralidad selectiva en la era de la genómica. Herencia. 86: 641 y # 150647. [Cita de PubMed]

Nielsen, R., C. Bustamante, A. G. Clark, S. Glanowski, T. B. Sackton, M. J. Hubisz, A. Fledel-Alon, D. M. Tanenbaum, D. Civello, T. J. White, J. J. Sninsky, M. D. Adams y M. Cargill. 2005. Una exploración de genes seleccionados positivamente en los genomas de humanos y chimpancés. PLoS Biol. 3: 976 y # 150985.

Nordborg, M. 2001. Teoría coalescente. Páginas. 179 y # 8211212 en D. J. Balding, M. Bishop y C. Cannings, eds. Manual de genética estadística. John Wiley and Sons, West Sussex, Reino Unido.

Orr, H. A. y A. J. Betancourt. 2001. Tamiz de Haldane & # 039s y adaptación de la variación genética permanente. Genética. 157: 875 y # 150884. [Cita de PubMed]

Payseur, B. A., A. D. Cutter y M. W. Nachman. 2002. Búsqueda de pruebas de selección positiva en el genoma humano utilizando patrones de variabilidad de microsatélites. Mol. Biol. Evol. 19: 1143 y # 1501153. [Cita de PubMed]

Przeworski, M. 2002. La firma de la selección positiva en loci elegidos al azar. Genética. 160: 1179 y # 1501189. [Cita de PubMed]

Przeworski, M., R. R. Hudson y A. Di Rienzo. 2000. Ajuste del enfoque en la variación humana. Trends Genet. 16: 296 y # 150302. [Cita de PubMed]

Ray, N., M. Currat y L. Excoffier. 2003. Diversidad molecular intrademe en poblaciones en expansión espacial. Mol. Biol. Evol. 20: 76 y # 15086. [Cita de PubMed]

Roper, C., R. Pearce, S. Nair, B. Sharp, F. Nosten y T. Anderson. 2004. Propagación intercontinental del paludismo resistente a pirimetamina. Ciencias. 305: 1124

Santiago, E. y A. Caballero. 2005. Variación después de un barrido selectivo en una población subdividida. Genética. 169: 475 y # 150483. [Cita de PubMed]

Schofl, G. y C. Schlotterer. 2004. Los patrones de variabilidad de microsatélites entre los cromosomas X y los autosomas indican una alta frecuencia de mutaciones beneficiosas en D. simulans no africanos. Mol. Biol. Evol. 21: 1384 y # 1501390. [Cita de PubMed]

Simonsen, K. L., G. A. Churchill y C. F. Aquadro. 1995. Propiedades de las pruebas estadísticas de neutralidad para datos de polimorfismo de ADN. Genética. 141: 413 y # 150429. [Cita de PubMed]

Slatkin, M. y T. Wiehe. 1998. Autostop genético en una población subdividida. Gineta. Res. 71: 155 y # 150160. [Cita de PubMed]

Spencer, C. y G. Coop. 2004. SELSIM: programa para simular datos genéticos poblacionales con selección natural y recombinación. Bioinformática. 20: 3673 y # 1503675. [Cita de PubMed]

Stephan, W., T. H. E. Wiehe y M. Lenz. 1992. El efecto de sustituciones fuertemente seleccionadas sobre el polimorfismo neutro: resultados analíticos basados ​​en la teoría de la difusión. Theor. Popul. Biol. 41: 237 y # 150254.

Storz, J. F., B. A. Payseur y M. W. Nachman. 2004. Las exploraciones del genoma de la variabilidad del ADN en humanos revelan evidencia de barridos selectivos fuera de África. Mol. Biol. Evol. 21: 1800 & # 1501811. [Cita de PubMed]

Swanson, W. J. 2003. Evolución adaptativa de genes y familias de genes. Curr. Opin. Gineta. Dev. 13: 617 y # 150622. [Cita de PubMed]

Tajima, F. 1989. Método estadístico para probar la hipótesis de mutación neutra por polimorfismo de ADN. Genética. 123: 585 y # 150595. [Cita de PubMed]

Teshima, K. M. y M. Przeworski. 2005. Selección direccional sobre alelos de dominancia arbitraria. Genética En prensa.

Wall, J. D. 2000. Una comparación de estimadores de la tasa de recombinación de la población. Mol. Biol. Evol. 17: 156 y # 150163. [Cita de PubMed]

Watterson, G. A. 1975. Sobre el número de sitios segregantes en modelos genéticos sin recombinación. Theor. Popul. Biol. 7: 256 y # 150276. [Cita de PubMed]

Whitlock, M. C. 2003. Probabilidad y tiempo de fijación en poblaciones subdivididas. Genética. 164: 767 y # 150779. [Cita de PubMed]

Wright, S. I., I. V. Bi, S. G. Schroeder, M. Yamasaki, J. F. Doebley, M. D. McMullen y B. S. Gaut. 2005. Los efectos de la selección artificial sobre el genoma del maíz. Ciencias. 308: 1310 y # 1501314.

Yang, Z. y J. P. Bielawski. 2000. Métodos estadísticos para detectar la adaptación molecular. Tendencias Ecol. Evol. 15: 496 y # 150503. [Cita de PubMed]

TABLA 1. La media, varianza y rango de Tajima & # 039s D bajo un modelo de equilibrio neutral, un modelo de barrido selectivo estándar y un modelo de selección direccional positiva donde f & # 061 0.05. Se realizaron un total de 104 simulaciones para 100 cromosomas, con N & # 061 10 4 ys & # 061 0,05. El sitio seleccionado está a 10 kb de la región de evolución neutra de 10 kb. Con el locus neutral, la tasa de mutación de la población & theta & # 061 10 & minus3 por par de bases y la tasa de recombinación de la población & rho & # 061 4 Nr & # 061 10 & minus3 por par de bases. T es el tiempo transcurrido desde la fijación del alelo beneficioso. Note la gran variación en los valores D cuando f & # 061 0.05

TABLA 2. La media, varianza y rango de estimadores de & rho bajo un modelo de equilibrio neutral, un modelo de barrido selectivo estándar y un modelo de selección direccional positiva donde f & # 061 0.05. Los valores de los parámetros son los mismos que en la Tabla 1. Se presentan dos estimadores: W 00 (Wall 2000) y H 01 (Hudson 2001). Las probabilidades de W 00 se estimaron en una cuadrícula de 171 valores, que van de cero a 100, y las de H 01 en una cuadrícula de 197 valores que van de cero a 200.

HIGO . 1. Una posible genealogía de seis cromosomas en un locus neutral vinculado a un sitio donde un alelo beneficioso, A, ha alcanzado la fijación. En este ejemplo, A acaba de fijarse en la población (en el momento T & # 061 0), por lo que todos los linajes llevan el alelo favorito. Retrocediendo en el tiempo, A se ve favorecida de T a t s y luego evoluciona neutralmente de t s (cuando está en la frecuencia f) a t m. Las trayectorias de las fases seleccionada y neutra se muestran en negro y gris, respectivamente. La genealogía coalescente de los seis cromosomas se representa con líneas discontinuas, mientras que los eventos de recombinación entre clases alélicas se indican con flechas inclinadas. La mayoría de los eventos coalescentes ocurren cuando el alelo A tiene una frecuencia baja. Debido a que A está evolucionando de manera neutral de t s a t m, su tiempo de permanencia es más largo de lo que sería con un barrido estándar, lo que brinda más oportunidades para la recombinación. Tenga en cuenta que, en este ejemplo, el ancestro común más reciente no ha sido alcanzado hace 2500 generaciones.

HIGO . 2. Niveles medios de diversidad en función de la distancia desde el sitio seleccionado para diferentes valores de f, la frecuencia a la que el alelo se ve favorecido por primera vez. Los niveles de diversidad se resumen mediante la media & pi (discontinua), & theta W (gris) y & theta H (negro). Bajo el modelo de equilibrio neutral, las tres estadísticas son estimadores insesgados de & theta, la tasa de mutación de la población. (A) Parámetros plausibles para humanos. Se realizaron un total de 104 simulaciones para 100 cromosomas, con N & # 061 10 4, s & # 061 0,05 y & theta & # 061 & rho & # 061 10 & minus3 por par de bases (& rho & # 061 4 Nr ver Métodos para otras definiciones de parámetros). El tiempo transcurrido desde la fijación del alelo beneficioso es cero. Bajo el modelo de equilibrio neutral, E (& pi) & # 061 E (& theta W) & # 061 E (& theta H) & # 061 1 por kilobase. (B) Parámetros plausibles para Drosophila melanogaster. Se realizaron un total de 104 simulaciones para 100 cromosomas, con N & # 061 10 6, s & # 061 0,01, & theta & # 061 0,01 por par de bases y & rho & # 061 0,1 por par de bases. El tiempo transcurrido desde la fijación del alelo beneficioso es cero. Bajo el modelo de equilibrio neutral, E (& pi) & # 061 E (& theta W) & # 061 E (& theta H) & # 061 1 por 100 pb

HIGO . 3. Niveles de diversidad en una ventana deslizante de 5 kb (incrementada cada 1 kb) a lo largo de la secuencia bajo un modelo de selección direccional con f & # 061 0.05, un modelo de barrido selectivo estándar y un modelo de equilibrio neutral (de la fila superior a la inferior , respectivamente). Se proporcionan cuatro ejemplos simulados para cada modelo (consulte Métodos para obtener detalles de las simulaciones). La posición a lo largo de la secuencia (en kilobases) se muestra en el eje x, mientras que los valores de & pi (línea continua) y & theta W (línea discontinua) por kilobase se muestran en el eje y. Bajo el modelo de equilibrio neutral, E (& pi) & # 061 E (& theta W) & # 061 1 por kilobase. Cada simulación se ejecutó con 100 cromosomas, N & # 061 10 4 y s & # 061 0,05. El sitio seleccionado está en la posición 0 y & theta & # 061 & rho & # 061 0,001 por par de bases. El tiempo transcurrido desde la fijación del alelo beneficioso es cero.

HIGO . 4. El espectro de frecuencias alélicas bajo un modelo de selección direccional con f & # 061 0.05, un modelo de barrido selectivo estándar y un modelo de equilibrio neutro (de la fila superior a la inferior, respectivamente). Se proporcionan cinco ejemplos simulados para cada modelo (consulte Métodos para obtener detalles de las simulaciones). En el eje x están las frecuencias alélicas (en 10 contenedores) y en el eje y la proporción de sitios con una frecuencia alélica determinada. Cada simulación se ejecutó con 100 cromosomas N & # 061 104 y s & # 061 0,05. El sitio seleccionado está a 10 kb de la región de evolución neutra y & theta & # 061 & rho & # 061 10. El tiempo transcurrido desde la fijación del alelo beneficioso es cero.

HIGO . 5. La distribución de frecuencias alélicas condicionada a la fijación en la población. Suponemos que la selección actúa sobre un alelo derivado previamente neutro. En gris oscuro se muestra el espectro de frecuencias de los alelos neutrales en una población de apareamiento aleatorio de tamaño constante. En gris claro, la distribución de las frecuencias alélicas está condicionada a la fijación del alelo beneficioso. En este ejemplo, N & # 061 10 4 y 4 Ns & # 061 200. Como puede verse, condicionada a la fijación, la distribución de frecuencias alélicas tiene una menor proporción de alelos raros


Ver el vídeo: Anàlisi Real-FME: Conseqüències del Teorema de Dirichlet (Agosto 2022).