Desde la primera publicación de la secuencia del genoma humano en el año 2001, muchas de las lagunas en la secuencia original han sido rellenadas, lo que ha llevado a un entendimiento más detallado la regulación del genoma, su estructura y su función.

El primer borrador del genoma humano en el año 2001 fue publicado de manera simultánea por dos grupos independientes, el Consorcio Internacional para la Secuenciación del Genoma Humano (CISGH)1 y el equipo de J. Craig Venter2. Esto supuso un hito histórico ya que, por primera vez, los científicos pudieron estudiar amplios tramos de los cromosomas humanos, base a base.

Este conocimiento permitió empezar a entender como estaban ordenados los genes y como se organizaba la estructura de los ADNs no codificantes. Sin embargo, el genoma humano estaba aún incompleto, ya que faltaban más de 150 millones de bases por identificar.

Genoma Humano: Portadas de la revista Nature y Science publicadas en febrero de 2001
Portadas de la revista Nature y Science publicadas en febrero de 2001

Los avances tecnológicos en estos últimos años han permitido a los investigadores ir añadiendo bases a este borrador. Además de, alcanzar otro hito: la secuenciación de un cromosoma completo3.

Como resultado de todas estas investigaciones están empezado a aparecer nuevas partes del genoma humano, lo que a su vez está dando paso a un nuevo periodo de descubrimientos biológicos.

El borrador original del genoma humano contenía muchas regiones intergénicas previamente desconocidas. Pese a que incluía la mayor parte de los genes individuales. El CISGH estimo inicialmente que el genoma humano contenía alrededor de 30.000 a 40.000 genes codificantes de proteínas.

A posteriori, se publicó una actualización del genoma humano en 20044. Junto con la mejora en las herramientas de predicción de genes, provocó que la cifra se revisara a cerca de 20.000 (hoy sabemos que tenemos exactamente en el genoma de referencia 20.440 genes). La actualización de 2004 incluyó un mapa de alta resolución de 2.850 millones de nucleótidos de la eucromatina (regiones empaquetadas del ADN, enriquecidas en genes y que presentan aproximadamente el 92% del genoma humano).

Representación del gen ACE2 (EMBL)
Representación del gen ACE2 (EMBL)

La publicación de este genoma de referencia condujo a la comunidad científica a una era de exploración del genoma, desde los genes individuales hasta estudios genéricos del genoma completo.

A pesar de todo, seguía habiendo algunas lagunas en cada uno de los 23 pares de cromosomas del genoma humano. Las mayores lagunas se localizaban en regiones enriquecidas con ADN repetitivo o en secuencias en las que existen muchas copias idénticas cercanas. Estas regiones fueron al principio muy difíciles de clonar, secuenciar y ordenar correctamente.

Como resultado, el proyecto del genoma humano no representaba estas regiones repetitivas. Aunque los investigadores tenían una idea muy básica de la naturaleza de las secuencias en esas regiones, la alta resolución genómica permaneció sin concretarse.

comparación genoma humano 20 años después
  1. Lagunas existentes en el borrador del genoma humano del 2001.5
  2. Gracias a los avances en secuenciación y bioinformática, hoy es posible estudiar dichas lagunas, que incluyen las regiones teloméricas y subteloméricas en los extremos de los cromosomas, las estructuras centroméricas y los brazos acrocéntricos. Ahora también pueden analizarse las regiones en las que el ADN está duplicado, ya sea en una única localización o de forma segmentada.

En los primeros intentos de secuenciar esas lagunas del genoma se usaron lecturas de fragmentos largos para intentar abarcar las secuencias repetitivas. Pero estas secuencias tendían a dar muchos errores inicialmente.

En el 2010 se avanzó en la tecnología de secuenciación fragmentos largos6,7, que junto al desarrollo de herramientas bioinformáticas permitieron la secuenciación de fragmentos de decenas de kilobases, lo cual permitió el estudio de muchas de estas lagunas y dio a conocer la primera secuencia satélite subtelomérica. Del mismo modo, se resolvió un conjunto de duplicaciones segmentadas, donde muchas de ellas contenían genes previamente ausentes en el genoma de referencia. Sin embargo, muchas de las regiones más grandes ricas en repeticiones seguían siendo inabarcables.

En los últimos años, la combinación de la secuenciación de fragmentos ultra largos y la alta precisión en las lecturas de estos fragmentos ha resuelto la mayoría de estas regiones8. Lo cual revelaba, por primera vez, regiones muy largas de repeticiones en tándem y regiones enriquecidas en duplicaciones.

Al romper esas barreras tecnológicas, los científicos están ahora descubriendo extensas regiones repetitivas que cubren millones de bases, y secuenciando el brazo corto de los cromosomas.

Los investigadores aún no entienden completamente por qué algunas partes del genoma humano se organizan de esta manera. Alcanzar este conocimiento será muy valioso, porque estas secuencias altamente repetitivas se encuentran en zonas que son cruciales para la vida. Por ejemplo, el ADN repetitivo de los centrómeros es esencial para una adecuada segregación cromosómica durante la división celular9.

Estas largas regiones de ADN repetitivo se comportan de manera diferente al resto de regiones, en términos de organización genómica y evolución. Estas regiones de ADN están también sujetas a una diferente regulación epigenética (modificaciones del ADN asociada a proteínas que no afecta la secuencia de ADN). En la actualidad, los investigadores se han encontrado con un nuevo e inexplorado campo en el genoma humano.

Son muchos los beneficios que hemos podido obtener de la secuenciación del genoma humano. Pero también muchos dilemas éticos han aparecido por el camino. Uno de los resultados más tangibles ha sido poder diagnosticar genéticamente a muchos pacientes que antes quedaban sin diagnosticar, en especial todos aquellos afectados de alguna enfermedad rara congénita, de la que resultaba muy difícil establecer la causa molecular subyacente de la patología. El Consorcio Internacional de Investigación en Enfermedades Raras (IRDiRC) tiene entre su objetivos para 2027 lograr diagnosticar todos los pacientes de alguna enfermedad congénita conocida en menos de un año, tarea en la que actualmente invertimos unos cinco años de promedio en España.

La meta de alcanzar una secuenciación del genoma huumano más completa y exacta,mejorará el entendimiento de la estructura del genoma y su papel en las enfermedades humanas, y se alineará, de alguna manera, con el legado del Proyecto del Genoma Humano.

Referencias

  1. International Human Genome Sequencing Consortium. Nature 409, 860–921 (2001)
  2. Venter, J. C. et al. Science 291, 1304–1351 (2001).
  3. Miga, K. H. et al. Nature 585, 79–84 (2020).
  4. International Human Genome Sequencing Consortium. Nature 431, 931–945 (2004).
  5. Karen H. Miga. Breaking through the unknowns of the human reference genome. Nature 590, 217-218 (2021)
  6.  Koren, S. et al. Nature Biotechnol. 30, 693–700 (2012).
  7. Jain, M. et al. Nature Biotechnol. 36, 338–345 (2018).
  8. Bzikadze, A. V. & Pevzner, P. A. Nature Biotechnol. 38, 1309–1316 (2020)
  9. Schueler, M. G., Higgins, A. W., Rudd, M. K., Gustashaw, K. & Willard, H. F. Science 294, 109–115 (2001).

Artículos Relacionados