Estudio bioinformático del sobrelapamiento génico en procariontes

Cargando...
Miniatura
Fecha
2013
Profesor/a Guía
Idioma
es
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad Andrés Bello
Nombre de Curso
Licencia CC
Licencia CC
Resumen
La existencia de genes que comparten secuencias de ADN, a través de la codificación en diferentes marcos de lectura, ha sido firmemente establecida en muchos genomas, especialmente en virus pero también en especies procariontes. Hay 3 tipos de sobrelapamiento dependiendo de la orientación relativa de los genes, sin embargo, esta tesis solamente explora aquellos sobrelapamientos generados por genes convergentes , en donde ambos genes se ubican en hebras opuestas del ADN y comparten sus extremos 3' ( --7 ~ ). Los primeros intentos de detectar genes sobrelapados convergentes se vieron seriamente obstaculizados por la presencia de un número significativo de anotaciones incorrectas de genes en bases de datos públicas como la del National Center for Biotechnology lnformation (NCBI). Debido a esto, antes de proceder a un análisis a gran escala de genes sobrelapados , fue indispensable mejorar la anotación de genes existente, lo cual se volvió un eje fundamental de la tesis. El primer paso de esta tesis consistió en desarrollar una base de datos llamada AlterORF, que contuviera todos los genes anotados de más de 900 especies procariontes junto a la predicción de sus marcos de lectura abiertos (ORFs, "open reading trames") alternativos. Se predijeron los dominios conservados de todos los ORFs por medio de similitud de secuencias con registros provenientes de distintas bases de datos, y los resultados proporcionaron evidencia de genes no detectados previamente y evidencia de ORFs predichos incorrectamente. El segundo paso de esta tesis consistió en llevar la corrección de anotaciones de genomas procariontes al siguiente nivel, a través del desarrollo y validación de una herramienta de anotación automática propia (ORFminer). Las anotaciones generadas mediante esta herramienta mostraron en un aumento significativo de la predicción de ORFs, predicción de función para muchas proteínas hipotéticas, y reducción en el número de proteínas hipotéticas predichas. y comparten sus extremos 3' (3 t). El tercer paso de esta tesis consistió en el regreso al anál isis original del sobrelapamiento de genes. El anál isis llevó al sorprendente descubrimiento de que las Arqueas tienen , en promedio, frecuencias de sobrelapamiento convergente significativamente mayores que las Bacterias. Además, se detectó una asociación positiva entre frecuencias altas y especies que viven a altas temperaturas . Una evaluación adicional de ambos re inos por separado mostró que esta asociación se presentaba en especies de Bacterias termófilas (25% de ellas se ubican en el 10% • superior de las frecuencias de sobrelapamiento observadas), pero en menor grado que el observado en especies de Arqueas termófilas (87% de ellas se ubican en el 10% superior de las frecuencias de sobrelapamiento observadas). Luego, se seleccionó un grupo de genes sobrelapados que excluía proteínas hipotéticas y poseía un largo significativo de sobrelapamiento de al menos 30 nucleótidos. Su análisis mostró que para los sobrelapamientos convergentes más comunes, el marco de lectura relativo preferido es +1 /-3 (donde el segundo nucleótido de un codón coincide con el tercer nucleótido del codón opuesto). Una posible explicación por esta preferencia es que ese marco de lectura relativo es el que permite el mayor número de reemplazos de aminoácidos en la reg ión sobrelapante de un gen, sin afectar la secuencia aminoacídica de la región sobrelapada del otro gen. Además, el análisis de los dominios que más frecuentemente participan en sobrelapamientos mostró que ellos poseen funciones de regulación , transporte y transducción de señales. Finalmente, un par de genes sobrelapados fue seleccionado para examinar su potencial mecanismo de formación del sobrelapamiento. Los resultados permitieron la predicción de una sucesión de eventos evolutivos que podrían haber llevado a la formación del sobrelapamiento convergente. Aunque este análisis se restringió a un solo ejemplo , se propone que el mecanismo podría ser aplicado a todos los casos de sobrelapamiento convergente de genes.
The existence of genes that share DNA sequences through coding in different reading frames has been well established in many genomes, especially in viruses but also in prokaryotes. There are 3 kinds of overlaps, depending on the relative orientation of the genes, however, this thesis explores only those overlaps generated by convergent genes where both genes are located on opposite strands and share their 3' ends (-7 ~) . lnitial attempts to detect convergent overlapping genes were seriously hindered by the presence of a very significant number of incorrect gene annotations in the public databases such as the National Center for Biotechnology lnformation (NCBI). Consequently, before embarking on a full scale analysis of overlapping genes, it was imperative to improve the existing annotations of genes, which become a major thrust of the thesis. The first step of the thesis was to develop a database termed AlterORF that contained all existing annotated genes from more than 900 prokaryotic species, together with a prediction of their alternate open reading frames (ORFs). Conserved domains were predicted in all ORFs by sequence similarity to domains in different conserved domain databases, and the results provided evidence for previously undetected genes and incorrect ORF predictions. The second step of the thesis took the annotation correction process to the next level, with the development and validation of an automatic annotation tool (ORFminer). The annotations provided by ORFminer showed significantly increased ORF predictions , hypothetical proteins function predictions, and a reduction in the number of predicted hypothetical proteins. The third step of the thesis returned to the original analysis of overlapping genes. This analysis led to the surprising discovery that Archaea have, on average. significantly higher convergent overlapping frequencies than do Bacteria . Also, a positive association between high frequencies and species living at high temperatures was detected . An additional evaluation of both kingdoms showed that this association was also observed in thermophilic Bacteria (25% of them where in the top 10% of highest observed overlap frequencies) but not to the extent as observed for thermophilic Archa ea (87% of them where in the top 10% of highest observed overlap frequencies ). Next, a group of trusted convergent overlapping genes, that excluded hypothetical proteins and which had significant overlapping extensions of at least 30 nucleotides, was selected for additional analysis. The results showed that for most common convergent overlaps, the preferred relative reading frame was +1 /-3 (where the second nucleotide of one codon coincides with the th ird nucleotide of the opposite codon). A possible explanation to the preference of this relative reading frame is that it allows the biggest number of amino acid replacements in one gene's overlapping region , without affecting the amino acid sequence of the other gene's overlapping region . Also, the analysis of the most frequent domains that participate in overlaps showed that most of them have regulation, transport and signal transduction functions . Finally, one overlapping gene pair was selected to examine its potential overlapping formation mechanism . The results allowed a prediction of the succession of evolutionary events that could lead to the formation of the overlapping convergent genes. Although this analysis was restricted to one example, it is proposed that it could be applied to all cases of convergent gene overlaps.
Notas
Tesis (Doctor en Biotecnología)
Palabras clave
Genomas, Bioinformática
Citación
DOI
Link a Vimeo