|
Al principio fue el |
|
Verbo |
BIOINFORMÁTICA |
y del Verbo surgio un |
|
Organismo |
|
y del
Organismo surgió la |
|
Vida |
(Para el
establecimiento de patrones en la información biológica)
3.4 Búsqueda de secuencias similares
RECOMENDACIONES PARA TRABAJOS FUTUROS
ANEXOS
El hombre en su afán por entender el universo lo ha
clasificado y dividido según las propiedades de aquellos objetos que lo
conforman, hasta hace algunos años solo se consideraban la Materia y la Energía
como las propiedades básicas de la realidad, pero no hace mucho la Información
se sumó como un nuevo factor, dando nacimiento a la Informática o la ciencia
que se encarga del estudio de la información.
"Claude Shannon encargado de descifrar mensajes del
enemigo durante la segunda guerra mundial consideraba que la
información no solo son datos , noticias, hechos, sino una fuerza activa
que da forma y carácter a las cosas, aun a los
pensamientos"[1][2].
En muchas ocasiones la Informática se asocia
únicamente con las computadoras y si bien es cierto que en gran
medida su desarrollo se debió a la necesidad de manejar grandes
cantidades de información en tiempos mínimos, esto no quiere decir
que solamente a esto se limite, ya que eso sería equivalente a
pensar que la Biotecnología solo se limita a las técnicas de cultivo y
mantenimiento de los micro-organismos.
La Informática tiene grandes posibilidades y
potencialidades en todos los campos del que hacer humano ya que su
campo de estudio se centra en la información y ésta se presenta
prácticamente en cualquier área, por ejemplo en el caso de la Biología se
le ha vinculado directamente con todo aquello que implica los
sistemas de percepción de la realidad, y recientemente, mediante el
estudio de las formas y de su evolución se empieza a dar un giro a la
manera en la cual se estudian los fenómenos biológicos[3].
A continuación presentaremos algunos ejemplos en
donde la Informática se interrelaciona con la Biología.
Por ejemplo, en áreas como la Teoría de la
Información y de la comunicación de datos se busca que el espacio
que ocupa la información dependa de su nivel de importancia y de la
frecuencia con la que aparece[4], con lo cual los datos a ser
transmitidos requieren menos energía entre más importantes son, así
la primera prioridad que se establece es la de un mínimo espacio
necesario, esta idea se puede generalizar y podemos plantear que, entre
más sea usada una información o entre más importante sea para el
sistema conviene que sea menor su espacio de almacenaje.
De esta forma la energía necesaria para reproducir
dicha información es mínima, pudiendo el sistema, disponer fácilmente de
ella, con un gasto mínimo de energía.
Como otro ejemplo tenemos que para estudiar al código
genético es común que, primero se identifique la característica que
se quiere estudiar, después se aísla un organismo que exprese de manera
abundante dicha característica, se le extrae el ADN, se identifica y
aísla el gen de interés, después se secuencia éste, y se observa si
existe mutación, esta manera de estudiar al código genético equivale a
tratar de leer un libro fijándonos en cada una de las líneas que componen
a las letras que conforman las oraciones.
A nivel informático se cuenta con la Lingüística
Matemática[5][6][7]que es toda un área dedicada al estudio de los
lenguajes sean estos lenguajes matemáticos, químicos, o hablados, con el
auxilio de esta área se puede empezar a entender de una manera más
amplia al lenguaje natural más difundido "el código genético"
usando como si fuera piedra roseta a las proteínas ya que estas son el
concepto que a la larga se desea transmitir.
Por otra parte existe una gran cantidad de
información sobre secuenciación genética, en base a la cual
mediante un análisis comparativo se pueden ir encontrando patrones de
información, que a la larga sirvan para modelar desde un marco teórico
secuencias de genes de interés Desde hace más de quince años y
teniendo como pioneros a informáticos mexicanos se ha ido
desarrollando toda un área del conocimiento que se dedica al
estudio de la evolución en los sistemas[6][7], entendiéndose con la
palabra Evolución a los cambios que presentan los sistemas debido a los
flujos de materia, energía e información.
En base a lo anterior seria posible modelar la
evolución en sistemas biológicos, donde el principal vector de
cambio han sido las mutaciones en la información genética de los
organismos, permitiéndoles adaptarse mejor a su entorno.
Una de las áreas que más se ha desarrollado
últimamente es la Teoría de Caos y fractales[9][10].
A nivel biológico se habla de procesos de
diferenciación que dan origen a células altamente especializadas,
éstas por un proceso de desdiferenciación debido a la desregulación
de algunos de sus genes pueden derivar en cosas tan dañinas como lo es un
cáncer.
A nivel informático se hablaría de una misma
información que se encuentra sumergida en distintos espacios
caóticos, productos estos de la evolución del organismo de una
célula cigoto a un ser multicelular, entonces la desdiferenciación se
observaría como un cambio en los objetivos de la célula, debido ya sea a
que el espacio caótico en que se desarrolla cambio (las condiciones
exteriores de la célula) o porque la información en su interior fue
alterada.
De esta manera se puede empezar a visualizar cómo a
partir de conceptos informáticos se pueden modelar algunos
fenómenos biológicos, surgiendo una nueva rama del conocimiento que
conjugue ambas áreas y a la cual incluso muy bien podríamos llamar
Bioinformática[11][12].
Para el estudio de la información genética y proteica
se abren infinidad de posibilidades que van desde las más prácticas
como el diseño de mejores matrices para la purificación de proteínas
hasta la posibilidad de poder diseñar desde un plano teórico genes y
proteínas de nuestro interés, programando los genes de los
micro-organismos.
Hace poco tiempo se termino de decodificar el genoma
humano, pero como muchos han señalado esto apenas es el comienzo de
lo que muy bien puede llamarse el mayor descubrimiento en la historia de
la humanidad, el poder descifrar las instrucciones que hacen que un ser
humano sea un ser humano, pero para poder comprender como esto es
posible será necesario no solamente visualizar al genoma cómo un conjunto
de bases químicas ordenadas en una secuencia específica, si no más
bien como información que obedece patrones y reglas, los cuales todavía
falta descubrir y para ello será necesario analizar la información
biológica disponible de diversos organismos.
Por otra parte es común encontrarnos con que
los precios de el software existente para el análisis de procesos
biológicos suelen ser muy elevados, además que tienden a ser
extremadamente grandes y con la incomodidad de que como no poseemos los
programas fuentes no es factible que sean modificables para las
necesidades específicas del análisis que se pretenda
realizar 1.
Actualmente en todo el mundo y principalmente en
Europa se están creando centros de investigación y nuevas cátedras
en torno a la Bioinformática[11][12] , previendo la gran necesidad que habrá
de personas especializadas en esta área en los próximos años.
También existen en internet múltiples sitios
donde se pueden consultar las secuencias de los genes y las
proteínas conforme estos son liberados para su estudio y
utilización por parte de los investigadores y gente interesada en el
área[16], de esta manera al colocar en el buscador de internet
"Altavista" la palabra "bioinformatics" encontramos
más de 150 000 páginas relacionadas con el tema
Una de las formas en las cuales
estos sitios son utilizados es para lo que bien podríamos llamar
southern blot electrónico, el cual consiste en secuenciar un gen o
un fragmento de nucleótidos y en vez de realizar un empalme con una
secuencia conocida se suministran los datos a la red para que el blast
busque y compare en diversos bancos de genes a nivel mundial y
obtener de esta forma una identificación aproximada del gen o en dado
caso su posible afinidad con genes conocidos
Como primer paso se recopila información
en bancos de secuencias de proteínas y de genes, estos bancos se encuentran en
internet[15] y la primera parte del proyecto fue localizar su dirección
electrónica, después de buscar en internet se decidió utilizar el sitio del
Instituto Europeo de Bioinformática (European Bioinformatic Institute EBI) que se encuentra entrando a
internet con www.ebi.ac.uk
En el banco de proteínas que se utiliza,
para cada proteína se indica el tipo de enzima y el organismo del cual fue
aislada, por ejemplo si aparece AMY_BACSU indica que se trata de una amilasa
que se aíslo de Bacillus subtilis.
AMY |
BACSU |
Tipo de enzima
o proteína |
Organismo
del cual fue aislada
|
|
genero especie |
AMY Amilasas |
BAC SU |
|
Bacillus subtilis |
Otros abreviaturas de proteínas que aparecen en el
presente trabajo son:
Abreviatura |
Enzima o
proteína |
CYC |
Citocromo C
|
GUN |
Endoglucosidasas |
CGT |
Cyclomaltodextrin glucanasa |
MALT |
Maltasas |
En base a la secuencia de la proteína de
interés se realiza un análisis de Blast-p. El
Blast es un método que va comparando la secuencia suministrada con las otras
secuencias que se encuentran almacenadas en el banco de genes o proteínas y
selecciona aquellas que muestran homología con la secuencia suministrada,
mostrando también las zonas de homología, el blast-p es específico para el
análisis de secuencias de aminoácidos y el blast-x para el análisis de
secuencias de nucleótidos.
La
información es clasificada e integrada
con el fin de utilizarla para la búsqueda de patrones de comportamiento a nivel
genético y proteico, para lo cual se utilizan varias herramientas informáticas,
como por ejemplo: teoría de la información, lingüística matemática, sistemas
evolutivos, programación en lenguaje C.
En esta etapa lo primero que se realiza
es el establecimiento de la estructura
lingüística para la proteína o gen analizado. Para ilustrar lo anterior y como
ejemplo de los resultados obtenidos partiremos de la tabla 2.1 que muestra un
pequeño fragmento del Blast p realizado para citocromo C.
Citocromo C
(CYC) |
|
|||||||||||
Organismo |
Secuencia de
a.a |
|
||||||||||
|
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
|
EUGGR |
G |
D |
A |
E |
R |
G |
K |
K |
L |
F |
E |
|
EUGVI |
G |
D |
A |
E |
R |
G |
K |
K |
L |
F |
E |
|
MOUSE |
G |
D |
A |
E |
A |
G |
K |
K |
I |
F |
V |
|
EQUAS |
G |
D |
V |
E |
K |
G |
K |
K |
I |
F |
V |
|
HORSE |
G |
D |
V |
E |
K |
G |
K |
K |
I |
F |
V |
|
BOVIN |
G |
D |
V |
E |
K |
G |
K |
K |
I |
F |
V |
|
De la tabla 2.1 observamos como en todos
los CYC el primer aminoácido es G, el segundo es D, mientras en el tercero
observamos dos posibles a.a A y V en este lugar lo marcamos como x1,
donde la x indica que se tiene una variable y el 1 por ser el primer lugar
donde se presenta variación, lo mismo sucede en el 5° a.a. aquí lo marcamos
como x2 por ser el 2° sitio donde existen diversos a.a. para la
misma posición, de esta forma vamos obteniendo la estructura lingüística
G D
x1 E x2 G K K
x3 F x4
Mediante este proceso se ha desarrollado el análisis de cadenas de diferentes
tipos de proteínas, encontrando su estructura lingüística. Para el caso del
citocromo C pudimos establecer su estructura en base al análisis visual de su
blast-p ya que se trata de una proteína relativamente pequeña, pero cuando empezamos a tratar con los blast-p de
las celulasas el análisis se complicó al tener algunas de las proteínas
secuencias de más de 500 a.a. por lo cual nos vimos en la necesidad de crear
varios programas (ver anexos D)
Para
un mejor entendimiento de las propiedades lingüísticas de las proteínas
estudiadas es necesario comenzar un análisis a nivel de caracteres, donde cada aminoácido se visualiza como un caracter de una oración, en este sentido
se crearon programas que nos permitieran visualizar el porcentaje de aparición
de un aminoácido en un sitio determinado obteniendo resultados muy
interesantes.
Estos resultados nos permiten apreciar
entre otras cosas los patrones de variación en un sitio determinado de la
proteína, pudiéndose apreciar si los
aminoácidos que aparecen en un sitio determinado son todos del mismo tipo p. ej. 100%
neutros o
si existe combinaciones p ej. 70%
neutros 20% ácidos 10% básicos e incluso 30%
neutros-aromáticos 70% neutros no aromáticos
Finalmente se desarrolló otra
herramienta que conjugando lo anterior permite tanto el establecimiento de la
ecuación lingüística como el comparar ésta con secuencias de aminoácidos
de forma tal que selecciona
aquellas que cumplen la ecuación.
En el presente trabajo se utilizaron
como proteínas de estudio a las celulasas y amilasas debido a su importancia
económica, por su parte el modelo de citocromo C que obtengamos al analizar las
cadenas completas nos servirá de referencia para validar los otros modelos, ya
que existen suficientes estudios en base al citocromo C para comparar con
nuestros resultados. Cabe señalar que los procedimientos aquí utilizados pueden
ser aplicados para el análisis de proteínas y de ser el caso también para el
estudio de genes, ya que a las herramientas que creamos para poder analizar
nuestras secuencias les es indistinto, puesto que visualizan a las proteínas o
a los genes como una secuencia de caracteres.
Como se mencionó en la metodología la primera parte del proyecto consistió en
entrar a internet para localizar bancos de genes y proteínas que fuesen de
utilidad, de estos se decidió utilizar el sitio del Instituto Europeo de
Bioinformática (European Bioinformatic Institute EBI )[15] ya que posee varios bancos tanto de proteínas como
de genes, además mediante ligas se puede acceder a otros de estos bancos que se
encuentra en todo el mundo.
Dentro de los bancos de proteínas se
buscaron las secuencias de aminoácidos de las enzimas de nuestro interés,
encontrándose una gran cantidad de ejemplos, por lo que nos centraremos para el
análisis en los blast-p del citocromo C, endoglucanasas y amilasas.
Para buscar una endoglucosidasa que nos
sirviera para el estudio, entramos al banco de proteínas "Enzimes"
del EBI, encontrando que ahí se encuentran disponibles para su utilización las
secuencias de endoglucosidasas que se muestran en la tabla 3.1
Identificación |
Organismo |
Identificación |
Organismo
|
Identificación |
Organismo |
P40942 |
CEXY_CLOSR |
P54583 |
GUN1_ACICE |
P06566 |
GUN1_BACS4 |
P07983 |
GUN1_BACSU |
P20847 |
GUN1_BUTFI |
P17877 |
GUN1_CLOJO |
Q04469 |
GUN1_CRYFL |
Q12622 |
GUN1_HUMGR |
P05522 |
GUN1_PERAE |
P16216 |
GUN1_RUMAL |
P21833 |
GUN1_SCLSC |
P33682 |
GUN1_STRHA |
Q05156 |
GUN1_STRRE |
P13933 |
GUN1_STRSQ |
Q12714 |
GUN1_TRILO |
P07981 |
GUN1_TRIRE |
P54424 |
GUN1_USTMA |
P06565 |
GUN2_BACS4 |
P10475 |
GUN2_BACSU |
P37701 |
GUN2_CLOJO |
P23666 |
GUN2_PERAE |
P21834 |
GUN2_SCLSC |
P26222 |
GUN2_THEFU |
P07982 |
GUN2_TRIRE |
P19570 |
GUN3_BACS4 |
P23549 |
GUN3_BACSU |
P14250 |
GUN3_FIBSU |
Q07940 |
GUN4_RUMAL |
P26221 |
GUN4_THEFU |
P43316 |
GUN5_HUMIN |
Q01786 |
GUN5_THEFU |
P43317 |
GUN5_TRIRE |
P22699 |
GUN6_DICDI |
P37696 |
GUNA_ACEXY |
Q12679 |
GUNA_ASPAK |
P29719 |
GUNA_BACLA |
P22541 |
GUNA_BUTFI |
P22534 |
GUNA_CALSA |
P07984 |
GUNA_CELFI |
P17901 |
GUNA_CLOCE |
P54937 |
GUNA_CLOLO |
P04955 |
GUNA_CLOTM |
P23665 |
GUNA_FIBSU |
P26414 |
GUNA_MICBI |
P10476 |
GUNA_PSEFL |
P23660 |
GUNA_RUMAL |
P27035 |
GUNA_STRLI |
P19487 |
GUNA_XANCP |
P23550 |
GUNB_BACLA |
P10474 |
GUNB_CALSA |
P26225 |
GUNB_CELFI |
P28621 |
GUNB_CLOCL |
P04956 |
GUNB_CLOTM |
P46236 |
GUNB_FUSOX |
Q12647 |
GUNB_NEOPA |
P18126 |
GUNB_PSEFL |
P23661 |
GUNB_RUMAL |
P14090 |
GUNC_CELFI |
P37699 |
GUNC_CLOCE |
P28622 |
GUNC_CLOCL |
P23340 |
GUNC_CLOSF |
P07985 |
GUNC_CLOTM |
P46237 |
GUNC_FUSOX |
P27033 |
GUNC_PSEFL |
P50400 |
GUND_CELFI |
P25472 |
GUND_CLOCE |
P28623 |
GUND_CLOCL |
P04954 |
GUND_CLOTM |
P10477 |
GUNE_CLOTM |
Q05622 |
GUNE_RUMFL |
P37698 |
GUNF_CLOCE |
P26224 |
GUNF_CLOTM |
P46239 |
GUNF_FUSOX |
P37700 |
GUNG_CLOCE |
Q05332 |
GUNG_CLOTM |
P16218 |
GUNH_CLOTM |
Q02934 |
GUNI_CLOTM |
P45699 |
GUNK_FUSOX |
P55742 |
GUNM_CLOTM |
Q59394 |
GUNN_ERWCA |
P38686 |
GUNS_CLOTM |
P16630 |
GUNS_ERWCA |
Q47096 |
GUNV_ERWCA |
Q59395 |
GUNW_ERWCA |
P15329 |
GUNX_CLOTM |
P38534 |
GUNX_PRUPE |
P27032 |
GUNY_ERWCH |
P23659 |
GUNZ_CLOSR |
P07103 |
GUNZ_ERWCH |
P22669 |
GUN_ASPAC |
P23548 |
GUN_BACPO |
P06564 |
GUN_BACS1 |
P19424 |
GUN_BACS6 |
P29019 |
GUN_BACSP |
P17974 |
GUN_BURSO |
P18336 |
GUN_CELUD |
P15704 |
GUN_CLOAB |
P22503 |
GUN_PHAVU |
P23044 |
GUN_ROBSP |
P22533 |
MANB_CALSA |
|
|
|
|
También en el banco de proteínas
"Enzimes" del European Bioinformatic Institute se encuentran
disponibles para su utilización las secuencias de amilasas que se muestran en
la tabla 3.2 a continuación
Identificación |
Organismo |
Identificación |
Organismo |
Identificación |
Organismo |
|||
|
P27935 |
AM2A_oRYSA |
P04750 |
AMY6_HoRVU |
P30269 |
AMY_BUTFI |
||
|
P27932 |
AM3A_oRYSA |
P41131 |
AMYA_AERHY |
P23671 |
AMY_CLoAB |
||
|
P27937 |
AM3B_oRYSA |
Q02905 |
AMYA_ASpAW |
P49274 |
AMY_DERpT |
||
|
P27939 |
AM3C_oRYSA |
P56271 |
AMYA_ASpNG |
Q59006 |
AMY_METJA |
||
|
P27933 |
AM3D_oRYSA |
P10529 |
AMYA_ASpoR |
P49067 |
AMY_pYRFU |
||
|
P27934 |
AM3E_oRYSA |
P54215 |
AMYA_DRoMA |
P30270 |
AMY_STRGR |
||
|
P27940 |
AMC1_oRYSA |
P08144 |
AMYA_DRoME |
P08486 |
AMY_STRHY |
||
|
P27941 |
AMC2_oRYSA |
P51548 |
AMYA_DRoYA |
Q05884 |
AMY_STRLI |
||
|
P53354 |
AMY1_AEDAE |
P17859 |
AMYA_VIGMU |
P09794 |
AMY_STRLM |
||
|
P22630 |
AMY1_AERHY |
Q02906 |
AMYB_ASpAW |
P27350 |
AMY_STRTL |
||
|
P19269 |
AMY1_DEBoC |
P21543 |
AMYB_pAEpo |
P22998 |
AMY_STRVL |
||
|
P09961 |
AMY1_DICTH |
P19961 |
AMYC_HUMAN |
P56634 |
AMY_TENMo |
||
|
P25718 |
AMY1_ECoLI |
P04746 |
AMYp_HUMAN |
P29750 |
AMY_THECU |
||
|
P00693 |
AMY1_HoRVU |
P00688 |
AMYp_MoUSE |
P26827 |
AMY_THETU |
||
|
P17654 |
AMY1_oRYSA |
P00690 |
AMYp_pIG |
P09107 |
AMY_TRICA |
||
|
P21567 |
AMY1_SACFI |
P00689 |
AMYp_RAT |
P38939 |
ApU_THEET |
||
|
Q09840 |
AMY1_SCHpo |
P17692 |
AMYR_BACS8 |
P36905 |
ApU_THESA |
||
|
P14898 |
AMY2_DICTH |
P04745 |
AMYS_HUMAN |
P38536 |
ApU_THETU |
||
|
P26612 |
AMY2_ECoLI |
P00687 |
AMYS_MoUSE |
P16950 |
ApU_THETY |
||
|
P04063 |
AMY2_HoRVU |
P29957 |
AMY_ALTHA |
P00692 |
AMY_BACAM |
||
|
P26613 |
AMY2_SALTY |
P30292 |
AMY_ASpSH |
P08137 |
AMY_BACCI |
||
|
O14154 |
AMY2_SCHpo |
P08117 |
AMY3_WHEAT |
P06278 |
AMY_BACLI |
||
|
P14899 |
AMY3_DICTH |
P04748 |
AMY4_HoRVU |
P20845 |
AMY_BACME |
||
|
P04747 |
AMY3_HoRVU |
P04749 |
AMY5_HoRVU |
P06279 |
AMY_BACST |
||
|
|
|
|
|
P00691 |
AMY_BACSU |
||
De la tabla 3.2 se eligió a las amilasas del genero Bacillus (AMY_BAC*) ya que a nivel industrial es el genero más utilizado para la producción de amilasas
Como se mencionó en la metodología el
Blast-p es una forma de análisis que sirve para agrupar proteínas similares
esto funciona de la siguiente forma
*Se suministra
la secuencia de aminoácidos de interés
*El programa
compara las proteínas que existen en diversos bancos de proteínas y escoge
aquellas secuencias que muestren homología (semejanza) con la de interés
*Presenta una
lista con todas aquellas secuencias con las cuales el fragmento o la proteína
suministrada tuvo semejanza
*Esta lista está
ordenada en orden descendente con respecto a la homología existente entre la
secuencia suministrada y la listada
Cabe
señalar que al programa en ningún momento se le indica el tipo de proteína
suministrada
La primera proteína con la cual se
comenzó a trabajar fue la de citocromo C la cual presenta varias ventajas
*Se trata de una
proteína relativamente pequeña ( de 100 a 120 a.a)
*Se han
realizado varios estudios en base a ella con lo cual podemos comparar nuestros
resultados
En este caso se
buscó en el banco de proteínas "Siwssprot" del European Bioinformatic Institute y se seleccionó el citocromo C de Euglena
gracilis cuya secuencia es de 102 a.a., de peso molecular 11210 Daltons y
su secuencia de aminoácidos se muestra a continuación
GDAERGKKLF |
ESRAAQCHSA |
QKGVNSTGPS |
LWGVYGRTSG |
SVPGYAYSNA |
NKNAAIVWEE |
ETLHKFLENP |
KKYVPGTKMA |
FAGIKAKKDR |
QDIIAYMKTL |
KD |
|
|
|
|
Con esta secuencia se realizó un
análisis mediante blast-p, utilizando las herramientas (Tools) que se
encuentran en la página web del Instituto, las secuencias que tuvieron
alineamientos significativos con la secuencia de el citocromo C de
Euglena gracilis se muestran en la tabla 3.3
Tabla 3.3
Secuencias con alineamientos significativos
con
el citocromo C de Euglena gracilis
1 |
CYC_EUGGR |
7 |
CYC_BOVIN
|
13 |
CYC_HUMAN |
19 |
CYC_NEUCR |
2 |
CYC_EUGVI
|
8 |
CYC_CYPCA |
14 |
CYC_CANFA |
20 |
CYC_RANCA |
3 |
CYC _MOUSE
|
9 |
CYC_MACGI |
15 |
CYC_MIRLE |
21 |
CYC_MINSC |
4 |
CYC _RAT
|
10 |
CYC_HIPAM |
16 |
CYC_KATPE |
22 |
CYC_APTPA |
5 |
CYC_EQUAS
|
11 |
CYC_THELA |
17 |
CYC_MACMU |
23 |
CYC_ENTTR |
6 |
CYC_HORSE
|
12 |
CYC_CRIFA
|
18 |
CYC_ESCGI |
24 |
CYC_MOUSE |
Al observar la tabla 3.3 vemos como todas las secuencias que tuvieron correlación con la que nosotros suministramos son de citocromos, aquí cabe señalar lo anteriormente mencionado sobre que a este programa en ningún momento se le indicó que la secuencia suministrada para el análisis se trataba de un citocromo C
Al observar la parte final del blast-p
para citocromo C, que se muestra a continuación. resalta como al parecer la
información biológica se comporta según lo predicho por la Teoría de la
información, un ejemplo muy claro es que el
tamaño de los citocromos C tiende a ser menor conforme el organismo al cual
pertenece es más evolucionado, esto se relaciona con el hecho de que
entre más importante resulta una información para un sistema menor es el tamaño
que ocupa su almacenamiento, ya que la información tiende a condensarse y
eficientar el espacio que ocupa conforme va siendo utilizada.
2179893195563.WU-blastp.a |
100.0% |
I |
I |
A |
Y |
M |
K |
T |
L |
K |
D |
1 SWALL:CYC_EUGGR |
100.0% |
I |
I |
A |
Y |
M |
K |
T |
L |
K |
D |
2 SWALL:CYC_EUGVI
|
91.2% |
I |
I |
A |
Y |
M |
K |
T |
L |
K |
D |
3 SWALL:CYC2_MOUSE |
58.2% |
L |
I |
K |
Y |
L |
K |
|
|
|
|
4
SWALL:CYC2_RAT
|
58.2% |
L |
I |
Q |
Y |
L |
K |
|
|
|
|
5
SWALL:CYC_EQUAS
|
58.2% |
L |
I |
A |
Y |
L |
K |
|
|
|
|
6
SWALL:CYC_HORSE
|
58.2% |
L |
I |
A |
Y |
L |
K |
|
|
|
|
7
SWALL:CYC_BOVIN
|
58.2% |
L |
I |
A |
Y |
L |
K |
|
|
|
|
8
SWALL:CYC_CYPCA
|
51.5% |
L |
I |
A |
Y |
L |
K |
S |
|
|
|
9 SWALL:CYC_MACGI
|
57.1% |
L |
I |
A |
Y |
L |
K |
|
|
|
|
10
SWALL:CYC_HIPAM
|
58.2% |
L |
I |
A |
Y |
L |
K |
|
|
|
|
11
SWALL:CYC_THELA
|
57.1% |
L |
I |
T |
Y |
L |
K |
|
|
|
|
12
SWALL:CYC_CRIFA
|
56.4% |
V |
I |
A |
Y |
L |
E |
T |
L |
K |
|
13
SWALL:G298836
|
58.2% |
L |
I |
A |
Y |
L |
K |
|
|
|
|
14 SWALL:CYC_HUMAN
|
56.1% |
L |
I |
A |
Y |
L |
K |
|
|
|
|
15
SWALL:CYC_CANFA
|
57.1% |
L |
I |
A |
Y |
L |
K |
|
|
|
|
16
SWALL:CYC_MIRLE
|
57.1% |
L |
I |
A |
Y |
L |
K |
|
|
|
|
17
SWALL:CYC_KATPE
|
54.5% |
L |
V |
A |
Y |
L |
K |
S |
|
|
|
18
SWALL:CYC_MACMU
|
56.1% |
L |
I |
A |
Y |
L |
K |
|
|
|
|
19
SWALL:CYC_ESCGI
|
57.1% |
L |
I |
A |
Y |
L |
K |
|
|
|
|
20
SWALL:CYC_NEUCR
|
57.1% |
I |
I |
T |
F |
M |
K |
|
|
|
|
21
SWALL:CYC_RANCA
|
55.6% |
L |
I |
A |
Y |
L |
K |
S |
|
|
|
22
SWALL:CYC_MINSC
|
56.1% |
L |
I |
A |
Y |
L |
K |
|
|
|
|
23
SWALL:CYC_APTPA |
55.1% |
L |
I |
A |
Y |
L |
K |
|
|
|
|
24
SWALL:CYC_ENTTR
|
54.1% |
L |
I |
A |
Y |
L |
K |
|
|
|
|
25
SWALL:CYC_MOUSE
|
56.1% |
L |
I |
A |
Y |
L |
K |
|
|
|
|
De las endoglucanasas disponibles se
eligió la de Thermomonospora
fusca. cuya secuencia es de 880 a.a; 95202 MW, para realizar el análisis de
Blast-p se suministró la secuencia completa que se muestra a continuación
MSVTEPPPRR |
RGRHSRARRF |
LTSLGATAAL |
TAGMLGVPLA |
TGTAHAEPAF |
NYAEALQKSM |
FFYEAQRSGK |
LPENNRVSWR |
GDSGLNDGAD |
VGLDLTGGWY |
DAGDHVKFGF |
PMAFTATMLA |
WGAIESPEGY |
IRSGQMPYLK |
DNLRWVNDYF |
IKAHPSPNVL |
YVQVGDGDAD |
HKWWGPAEVM |
PMERPSFKVD |
PSCPGSDVAA |
ETAAAMAASS |
IVFADDDPAY |
AATLVQHAKQ |
LYTFADTYRG |
VYSDCVPAGA |
FYNSWSGYQD |
ELVWGAYWLY |
KATGDDSYLA |
KAEYEYDFLS |
TEQQTDLRSY |
RWTIAWDDKS |
YGYVLLAKE |
TGKQKYIDDA |
NRWLDYWTVG |
VNGQRVPYSP |
GMAVLDTWG |
ALRYAANTAF |
VALVYAKVID |
DPVRKQRYHD |
FAVRQINYAL |
GDNPRNSSYV |
VGFGNNPPRN |
PHHRTAHGSW |
TDSIASPAEN |
RHVLYGALVG |
GPGSPNDAYT |
DDRQDYVANE |
VATDYNAGFS |
SALAMLVEEY |
GGTPLADFPP |
TEEPDGPEIF |
VEAQINTPGT |
TFTEIKAMIR |
NQSGWPARML |
DKGTFRYWFT |
LDEGVDPADI |
TVSSAYNQCA |
TPEDVHHVSG |
DLYYVEIDCT |
GEKIFPGGQS |
EHRREVQFRI |
AGGPGWDPSN |
DWSFQGIGNEL |
APAPYIVLY |
DDGVPVWGTA |
PEEGEEPGGG |
EGPGGGEEPG |
EDVTPPSAPG |
SPAVRDVTST |
SAVLTWSASS |
DTGGSGVAGY |
DVFLRAGTGQ |
EQKVGSTTRT |
SFTLTGLEPD |
TTYIAAVVAR |
DNAGNVSQRS |
TVSFTTLAEN |
GGGPDASCTV |
GYSTNDWDSG |
FTASIRITYH |
GTAPLSSWEL |
SFTFPAGQQV |
THGWNATWRQ |
DGAAVTATPM |
SWNSSLAPGA |
TVEVGFNGSW |
SGSNTPPTDF |
TLNGEPCALA |
|
|
El balance general del análisis por
blast-p realizado para celulasas fue el siguiente
|
Identificación |
Descripción |
|
Identificación |
Descripción |
|
||||||||||||||||||||
1 |
O65186 |
celulasa. 8/98f98 |
51 |
Q42059 |
endoglucanasa 1 precursor |
|
||||||||||||||||||||
2 |
G3600052 |
2p3.1 proteína. |
52 |
G1836024 |
cel2=celulasa 2. 3/98 492 |
|
||||||||||||||||||||
3 |
O48766 |
supuesta celulasa. |
53 |
O65987 |
endoglucanasa h (fragmento). |
|
||||||||||||||||||||
4 |
O64889 |
supuesta celulasa |
54 |
G1836025 |
cel3=celulasa 3. 3/98 |
|
||||||||||||||||||||
5 |
G3341674 |
supuesta glicosil hidrolasa |
55 |
GUN2_PERAE |
endoglucanasa 2 (ec 3.2.1.4) |
|
||||||||||||||||||||
6 |
O64890 |
supuesta celulasa |
56 |
G1836028 |
cel6 = celulasa 6. 3/98 |
|
||||||||||||||||||||
7 |
G3341675 |
supuesta glicosil hidrolasa |
57 |
G3746670 |
endo-1,4-beta-glucanasa (ec 3.2 |
|
||||||||||||||||||||
8 |
G3341676 |
supuesta glicosil hidrolasa |
58 |
P71141 |
endoglucanasa (fragmento). 11/98 |
|
||||||||||||||||||||
9 |
G3341677 |
supuesta glicosil hidrolasa |
59 |
Q43750 |
celulasa (ec 3.2.1.4) (endogluca... |
|
||||||||||||||||||||
10 |
Q96546 |
endo-beta-1,4-glucanasa |
60 |
Q42151 |
relative to endoglucanasa 1 |
|
||||||||||||||||||||
11 |
Q42875 |
endo-1,4-beta-glucanasa precursor |
61 |
O50014 |
endo-1,4-beta-glucanasa fragmento |
|
||||||||||||||||||||
12 |
O64949 |
endo-1,4-beta glucanasa. 8/98 |
62 |
O24280 |
endo-beta-1,4-glucanasa |
|
||||||||||||||||||||
13 |
O22297 |
acidic celulasa. 11/98 |
63 |
Q43749. |
celulasa (ec 3.2.1.4) endoglucanasa. |
|
||||||||||||||||||||
14 |
O64402 |
endo-beta-1,4-glucanasa. 11/98 |
64 |
O24281 |
endo-beta-1,4-glucanasa |
|
||||||||||||||||||||
15 |
G3377800 |
t2h3.5
proteína. 10/98 |
65 |
Q39848 |
celulasa, endo-1,4-beta-... |
|
||||||||||||||||||||
16 |
Q40763 |
q40763 celulasa precursor. 11/98 |
66 |
GUNA_FIBSU |
endoglucanasa precursor |
|
||||||||||||||||||||
17 |
O64401 |
endo-beta-1,4-glucanasa. 11/98 |
67 |
Q52746 |
beta-glucanasa. 11/98 |
|
||||||||||||||||||||
18 |
P94114 |
endo-beta-1,4-glucanasa |
68 |
P77864 |
endoglucanasa d precursor |
|
||||||||||||||||||||
19 |
G3687887 |
endo-1,4-beta-glucanasa |
69 |
P94794 |
pbgb (fragmento). 11/98 |
|
||||||||||||||||||||
20 |
G3549291 |
endo-1,4-beta-glucanasa |
70 |
Q43146 |
endo 1,4-glucanasa (ec 3.2.1.4) |
|
||||||||||||||||||||
21 |
O23697 |
endo-1,4-beta-glucanasa. |
71 |
Q59442 |
endo-1,4-beta-d-glucanasa |
|
||||||||||||||||||||
22 |
Q43149 |
celulasa (ec 3.2.1.4) endoglucanasa |
72 |
GUND_CLOTM |
endoglucanasa d precursor |
|||||||||||||||||||||
23 |
O49296 |
t26j12.2 proteína |
73 |
P71326 |
endoglucanasa e. 11/98 |
|
||||||||||||||||||||
24 |
Q42660 |
beta-1,4-endoglicanohidrolasa |
74 |
Q59318 |
avicelase i (ec 3.2.1.4)
(cellula... |
|
||||||||||||||||||||
25 |
Q96545 |
celulasa (ec 3.2.1.4) |
75 |
|
gunc_butf> |
|
||||||||||||||||||||
26 |
P05522 |
gun1_perae endoglucanasa 1 |
76 |
P38534 |
gunx_prupe endoglucanasa |
|
||||||||||||||||||||
27 |
G547083 |
beta-1,4-glucanasa, celulasa |
77 |
D1029755 |
celulasa salivar (fragmento). ... |
|
||||||||||||||||||||
28 |
Q42872 |
endo-1,4-beta-glucanasa precursor |
78 |
O69308 |
celulasa 1,4-beta-celobiosidasa... |
|
||||||||||||||||||||
29 |
O23134 |
beta-glucanasa. 11/98 |
79 |
Q08166 |
celulasa 1 precursor (ec
3.2.1.4... |
|
||||||||||||||||||||
30 |
O04972 |
endo-1,4-beta-d-glucanasa |
80 |
Q38890 |
celulasa precursor. 11/98 |
|
||||||||||||||||||||
31 |
Q43105 |
celulasa (ec 3.2.1.4) (endogluca |
81 |
O50013 |
endo-1,4-beta-glucanasa fragmento |
|
||||||||||||||||||||
32 |
Q42871 |
endo-1,4-beta-glucanasa precursor |
82 |
O50011 |
endo-1,4-beta-glucanasa fragmento |
|
||||||||||||||||||||
33 |
P22503 |
gun_phavu endoglucanasa precursor |
83 |
Q02934 |
guni_clotm endoglucanasa 1 precursor |
|
||||||||||||||||||||
34 |
Q96547 |
celulasa (ec 3.2.1.4) endoglucanasa |
84 |
P26224 |
gunf_clotm endoglucanasa f precursor |
|
||||||||||||||||||||
35 |
O22298 |
basic celulasa. 11/98 |
85 |
Q55365 |
hypothetical 112.1 kd proteína. 11/98 |
|
||||||||||||||||||||
36 |
O23696 |
endo-1,4-beta-glucanasa. 11/98 |
86 |
O0447 |
f5i14.14. 11/98 |
|
||||||||||||||||||||
37 |
Q41012 |
endo-1,4-beta-glucanasa precursor. |
87 |
P23659 |
gunz_closr endoglucanasa z precursor |
|
||||||||||||||||||||
38 |
O23954 |
endo-1,4-beta-glucanasa |
88 |
Q38817 |
beta-glucanasa (fragmento). 11/98 |
|
||||||||||||||||||||
39 |
:D1034676 |
nteg precursor (ec 3.2.1.4). 10/98 |
89 |
P96311 |
endoglucanasa a (ec 3.2.1.4) |
|
||||||||||||||||||||
40 |
D1034677 |
precursor (ec 3.2.1.4). |
90 |
Q43751 |
celulasa (ec 3.2.1.4) (endogluca. |
|
||||||||||||||||||||
41 |
GUN4_THEFU |
endoglucanasa e-4 precursor |
91 |
O50012 |
endo-1,4-beta-glucanasa fragmento |
|
||||||||||||||||||||
42 |
GUNB_CELFI |
endoglucanasa b precursor |
92 |
P37700 |
gung_cloce endoglucanasa g precursor |
|
||||||||||||||||||||
43 |
D1032280 |
salivary celulasa. |
93 |
O64891 |
supuesta celulasa, 5' partial |
|
||||||||||||||||||||
44 |
GUNC_CLOCL |
endoglucanasa c (ec 3.2.1.4) |
94 |
P22699 |
gun6_dicdi endoglucanasa precursor |
|
||||||||||||||||||||
45 |
O50589 |
endo-1,4-beta-glucanasa |
95 |
Q39847 |
cmcase, celulasa, endo-1,4-beta-. |
|
||||||||||||||||||||
46 |
D1035025 |
endoglucanasa 2. 10/98 |
96 |
P22534 |
guna_calsa endoglucanasa a precursor |
|
||||||||||||||||||||
47 |
O04890 |
endo-1,4-beta-glucanasa |
97 |
Q39826 |
celulasa (fragmento). 11/98 |
|
||||||||||||||||||||
48 |
G1836027 |
cel5=celulasa 5. 3/98 |
98 |
G3493633 |
celulasa (ec 3.2.1.4). |
|
||||||||||||||||||||
49 |
G1836026 |
cel4=celulasa 4. 3/98 |
99 |
G3598956 |
celulasa (ec 3.2.1.4). |
|
||||||||||||||||||||
50 |
G1836023 |
cel1=celulasa 1. 3/98 |
100 |
Q59444 |
endo-1,4-beta-d-glucanasa |
|
||||||||||||||||||||
Lo cual se resume en la tabla 3.4, donde
se concentró la cantidad y el tipo de enzimas encontradas en este análisis
Enzima |
N° |
celulasa
(ec 3.2.1.4) endo-beta-1,4-glucanasa |
54 |
endo-1,4-beta-glucanasa
fragmento |
30 |
supuesta
celulasa. |
5 |
supuesta
glicosil hidrolasa |
4 |
proteína.
|
3 |
celulasa
1,4-beta-celobiosidasa.. |
1 |
beta-1,4-endoglicanohidrolasa
|
1 |
acidic
celulasa. |
1 |
basic
celulasa. |
1 |
En base a estos primeros resultados
obtenidos de la realización del blast-p a citocromos y a una endoglucanasa nos
dimos cuenta que, es posible que existan secuencias altamente conservadas en
las proteínas que ejercen la misma función pero en distintos organismos y
condiciones.
Se realizaron varios análisis de blast-p
en base a diversas secuencias de amilasas hasta encontrar uno que nos
permitiera el análisis adecuado para establecer posteriormente la ecuación
lingüística que detecte amilasas.
Primero se realizó el análisis de
blast-p utilizando la amilasa de Bacillus megaterium y se obtuvo
homología mayormente con varios tipos de glucosidasas, tales como xilanasas,
manasas y en menor medida amilasas. Cuando se utilizó la secuencia de Bacillus
circulans se obtuvo homología mayormente con cyclomaltodextrin
glucanotransferasas como se observa en la tabla 3.5 donde se resumió la lista
de secuencias que tuvieron alineamientos significativos con la amilasa de Bacillus
circulans
Enzima |
% |
Enzima |
% |
cyclomaltodextrin
glucanotransferasas |
23 |
Neopullulanase.
|
6 |
Amilasa
digestiva |
1 |
Cyclomaltodextrinase
|
2 |
Amilasa |
18 |
acid
alpha-amylase |
2 |
alfa amilasa Maltogenica |
2 |
Exo-Alpha-1,
4-Glucosidasa |
1 |
Amilasa
alcalina |
2 |
neutral
and basic amino acid transferasa |
2 |
amilasa
precrusor |
22 |
Amilopulanasa |
1 |
glycosyl
hydrolase, |
2 |
otros |
6 |
Al observar los resultados anteriores se
decidió volver a clasificar la información y realizar un nuevo blast-p
utilizando ahora como patrón de comparación la secuencia de la amilasa de Bacillus
subtilis reportada en el banco de enzimas del EBI con ID AMY_BACSU STANDARD siendo su secuencia de 660
A.A; 72799 MW y que se presenta a continuación
MFAKRFKTSL |
LPLFAGFLLL |
FHLVLAGPAA |
ASAETANKSN |
ELTAPSIKSG |
TILHAWNWSF |
NTLKHNMKDI |
HDAGYTAIQT |
SPINQVKEGN |
QGDKSMSNWY |
WLYQPTSYQI |
GNRYLGTEQE |
FKEMCAAAEE |
YGIKVIVDAV |
INHTTSDYAA |
ISNEVKSIPN |
WTHGNTQIKN |
WSDRWDVTQN |
SLLGLYDWNT |
QNTQVQSYLK |
RFLDRALNDG |
ADGFRFDAAK |
HIELPDDGSY |
GSQFWPNITN |
TSAEFQYGEIL |
QDSASRDAA |
YANYMDVTAS |
NYGHSIRSAL |
KNRNLGVSNI |
SHYASDVSAD |
KLVTWVESHD |
TYANDDEEST |
WMSDDDIRLG |
WAVIASRSGS, |
TPLFFSRPEG |
GGNGVRFPGK |
SQIGDRGSAL |
FEDQAITAVN |
RFHNVMAGQP |
EELSNPNGNN |
QIFMNQRGSH |
GVVLANAGSS |
SVSINTATKL |
PDGRYDNKAG |
AGSFQVNDGK |
LTGTINARSV |
AVLYPDDIAK |
APHVFLENYK |
TGVTHSFNDQ |
LTITLRADAN |
TTKAVYQINN |
GPDDRRLRME |
INSQSEKEIQ |
FGKTYTIMLK |
GTNSDGVTRT |
EKYSFVKRDP |
ASAKTIGYQN |
PNHWSQVNAY |
IYKHDGSRVI |
ELTGSWPGKP |
MTKNADGIYT |
LTLPADTDTT |
NAKVIFNNGS |
AQVPGQNQPG |
FDYVLNGLYN |
DSGLSGSLPH |
Las secuencias que tuvieron
alineamientos significativos con la amilasa de Bacillus subtilis se
presentan en la tabla 3.6
Tabla 3.6
Secuencias con alineamientos significativos
con la amilasa de Bacillus subtilis
Identificación (ID) |
Organismo |
Descripción
|
Amy_Bacsu |
Bacillus
subtilis |
(Amye)
Alpha-Amilasa |
Amy_Butfi |
Butyrivibrio
fibrisolvens |
(Amya)
Alpha-Amilasa |
Amy_Thecu
|
Thermomonospora
curvata |
(Tam)
Alpha-Amilasa |
Amy_Cloab |
Clostridium acetobutylicum |
Putative
Alpha-Amilasa |
Amy_Strlm |
Streptomyces
limosus |
(Aml)
Alpha-Amilasa |
Amy_Strgr |
Streptomyces
griseus |
(Amy)
Alpha-Amilasa |
Amy_Strvl |
Streptomyces
violaceus |
(Aml)
Alpha-Amilasa |
Amy_Strtl |
Streptomyces thermoviolaceus |
(Amy)Alpha-Amilasa |
Amya_Droya |
Drosophila yakuba |
Alpha-Amilasa |
Amya_Droma |
Drosophila
mauritiana |
(Amy-D..)Alpha-Amilasa |
Amya_Drome
|
Drosophila
melanogaster |
(Amy-D..)Alpha-Amilasa |
Amy_Strhy |
Streptomyces
hygroscopicus |
Alpha-Amilasa
. |
Amy_Aerhy |
Aeromonas
hydrophila |
Alpha-Amilasa
Precursor |
Amya_Aerhy |
Aeromonas
hydrophila |
(Amya)
Alpha-Amilasa |
Amy_Tenmo |
Tenebrio
molitor |
Alpha-Amilasa |
Amy_Altha |
Alteromonas
haloplanktis |
(Amy)
Alpha-Amilasa |
Amyp_Rat |
Rattus norvegicus |
Alpha-AmilasaPancreatica |
Amyp_Mouse |
Mus musculus |
Alpha-AmylasaPancreatica |
Amyp_Pig |
Sus scrofa |
Alpha-AmilasaPancreatica |
Amyc_Human |
Homo
sapiens |
(Amy
B) Alpha-Amilasa B |
Amyp_Human |
Homo sapiens |
Alpha-Amilasa
Pancreatica |
mys_Human |
Homo sapiens |
Alpha-AmilasaSalivar |
Amy
_Aedae |
Aedes aegypti |
(Amy ..) Alpha-Amilasa I |
Amy_Trica |
Tribolium castaneum |
Alpha-Amilasa
Precursor... |
Amyb_Paepo |
Paenibacillus
polymyxa |
Beta/Alpha-Amilasa |
Amy_Sacfi |
Saccharomycopsis
fibuligera |
(Alp)
Alpha-Amilasa |
Cdg_Paema |
Paenibacillus
macerans |
Cyclomaltodextrin
|
Cdgt_Bacoh
|
Bacillus ohbensis |
(Cgt) Cyclomaltodextrin |
Cdgt_Bacst |
Bacillus stearothermophilus |
(Cgt) Cyclomaltodextrin |
Cdgt_Bacci |
Bacillus circulan |
Cyclomaltodextrin Glucanasa |
Cdgt_Bacss |
Bacillus Sp. |
Cyclomaltodextrin Glucanasa |
Amys_Mouse |
Mus
musculus |
(Amy)
Alpha-Amilasa Salivar |
Amya_Aspaw |
Aspergillus
awamori |
(Amya)
Alpha-Amilasa A |
Amya_Aspor |
Aspergillus
oryzae |
Alpha-Amilasa |
Amyb_Aspaw |
Aspergillus
awamori |
(Amyb)
Alpha-Amilasa B |
Amy_Schpo |
Schizosaccharomyces pombe |
(Spac D . C)... |
Amy_Aspsh |
Aspergillus shirousami |
(Amy) Alpha-Amilasa ... |
Cdgt_Bacli |
Bacillus licheniformis |
Cyclomaltodextrin |
Cdgt_Klepn |
Klebsiella pneumoniae |
(Cgt) Cyclomaltodextrin |
Amy_Thetu |
Thermoanaerobacter
thermosulfurogenes |
Amilasa.. |
Amy_Schpo |
Schizosaccharomyces pombe |
(Spac A . ).. |
Ydd_Schpo |
Schizosaccharomyces pombe |
(Spac B . C) Hy |
Amya_Aspng |
Aspergillus
niger |
Acid
Alpha-Amilasa |
Amym_Bacst |
Bacillus stearothermophilus |
(Amym) Maltoge. |
Amy_Dicth |
Dictyoglomus thermophilum |
(Amyc) Alpha-Amy |
Amy_Bacme |
Bacillus megaterium |
Alpha-Amilasa
Precursor
|
Cdgu_Bacci |
Bacillus
circulans |
Cyclomaltodextrin
Glucanasa |
Cdg_Paema |
Paenibacillus
macerans |
(Cgtm)
Cyclomaltodextrin Glucanasa |
enzima |
n° |
% |
alpha-amilasa |
25 |
50 |
cyclomaltodextrin |
9 |
18 |
alpha-amilasa pancreatica |
4 |
8 |
(amy b) alpha-amilasa b |
4 |
8 |
alpha-amilasa precursor |
3 |
6 |
alpha-amilasa salivar |
2 |
4 |
acid alpha-amilasa |
1 |
2 |
supuesta alpha-amilasa |
1 |
2 |
maltogenasa. |
1 |
2 |
Las
amilasas poseen una gran divergencia, de tal forma que, dependiendo de la
amilasa utilizada para el análisis mediante blast-p es la semejanza que
presenta ésta con diferentes glucosidasas.
De las tablas 3.6 y 3.7 observamos que,
la mayoría de las secuencias que tuvieron alineación significativa cuando se
utilizó la secuencia de la amilasa de Bacillus subtilis son diferentes
tipos de amilasas, también observamos como la amilasa de Bacillus megaterium
- que fue una de las utilizadas en los anteriores blast-p - se encuentra en la
zona donde ya empieza a existir homología con otras glucosidasas, en base a
esto y a los otros blast-p podemos decir que, es
posible que la zona que se encarga de la hidrólisis de los enlaces de glucosa
sea similar en todas las glucosidasas y que exista otra zona que se encarga de
la fijación de la proteína al polisacárido, esto traducido a términos lingüísticos se podría entender como una zona que
establece el verbo "Cortar enlaces glucosídicos" y otra zona que
diferencía el sujeto sobre el cual se llevara a cabo la acción.
Lo anterior coincide con los resultados
de estudios que se han llevado a nivel molecular sobre el funcionamiento de
este tipo de enzimas, lo cual nos muestra que mediante
el análisis de la información obtenemos resultados equivalentes a los obtenidos
mediante otros tipos de análisis
Después de ordenar la información
procedente del blast-p se procedió a
realizar varios programas para poder comenzar con su análisis.
La
primera serie de programas se realizaron con la finalidad de poder establecer
la estructura lingüística general de la proteína, considerando
lo siguiente:
Para el establecimiento de la estructura
lingüística es necesario:
i) Identificar
distintos caracteres, en este caso estamos usando como carácter del lenguaje a
los distintos aminoácidos: A (Ala), R (Arg), N (Asn), D (Asp), B (Asx), C
(Cys), Q (Gln), E (Glu), Z (Glx), G (Gly), H (His), I (Ile), L (Leu), K (Lys),
M (Met), F (Phe), P (Pro), S (Ser), T (Thr), W (Trp), Y (Tyr), V (Val) (ver
anexos A)
ii) Identificar
distintas cadenas, donde una cadena es una serie de caracteres del lenguaje que
se está analizando, en este caso se trataría de una serie de aminoácidos p.
ej. AFDGC (Ala-Phe-Asp-Gly-Cys)
iii) Comparar
las cadenas y llevar un conteo de la similitud de sus caracteres
Además se tomaron las siguientes
premisas
1) Los datos en
base a los cuales se realizará el análisis se encuentran en un archivo
independiente al del programa
2) Los
resultados deben ser almacenados en un archivo independiente de los datos y del
programa
Así el primer programa que se realizó
permite leer caracteres de la pantalla, otro programa compara dos cadenas
distintas, una almacenada dentro del programa y otra suministrada mediante el
teclado y un programa que permitía abrir archivos y leer la información
almacenada en los mismos
Combinando esta serie de programas se obtuvo uno que nos permite establecer la
ecuación lingüística y la guarda en el archivo salebio.txt
Por ejemplo, si suministramos al
programa los siguientes datos
G |
D |
A |
E |
R |
G |
K |
K |
L |
F |
E |
G |
D |
A |
E |
R |
G |
K |
K |
L |
F |
E |
G |
D |
A |
E |
A |
G |
K |
K |
I |
F |
V |
G |
D |
V |
E |
K |
G |
K |
K |
I |
F |
V |
G |
D |
V |
E |
K |
G |
K |
K |
I |
F |
V |
G |
D |
V |
E |
K |
G |
K |
K |
I |
F |
V |
G D
x E x
G K K
x F x
Este resultado es la ecuación
lingüística asociada a este conjunto de cadenas de aminoácidos, donde se observa que cuando todos los elementos de la
columna son iguales la computadora nos entrega el aminoácido ubicado en dicha
columna, cuando en una columna los aminoácidos son diferentes, la computadora
imprime una "x"
El pseudocódigo del programa que realiza lo
anterior es el siguiente:
Abre el archivo
de entrada, donde se encuentran almacenadas las cadenas de aminoácidos y abre
el archivo de salida, donde almacenará la estructura lingüística (en este caso
salebio.txt)
Lee los datos
del archivo de entrada y los almacena en el arreglo "texto"
Compara los
caracteres de cada columna si todos son iguales guarda el carácter en
"textsal" si no almacena una "x" en esa posición
Imprime
"textsal" y lo guarda en salebio.txt
Cierra los
archivos y el sistema
El programa anterior se modificó para poder realizar el análisis en base a
homologías variables, poder salvar en el archivo que el usuario desee y
poder utilizar el símbolo de variación que uno desee en vez de la
"x", en caso de seguir usando x éstas se numeran automáticamente
partiendo del número que uno señale. Como se muestra en el siguiente ejemplo,
donde si suministramos los siguientes datos:
G |
D |
A |
E |
R |
G |
K |
K |
L |
F |
E |
G |
D |
A |
E |
A |
G |
K |
K |
I |
F |
V |
G |
D |
V |
E |
K |
G |
K |
K |
I |
F |
V |
G |
D |
V |
E |
K |
G |
K |
K |
I |
F |
V |
G |
D |
V |
E |
K |
G |
K |
K |
I |
F |
V |
Y le decimos al programa que queremos
que, el porcentaje de homología sea de 100%, el tipo de carácter sea x y el valor
inicial de x: sea 0, el programa dará como resultado
G D
x1 E x2 G K K
x3 F x4
Si el porcentaje de homología es de 80%,
el tipo de carácter es x y el valor inicial de x es 15 entonces el
programa dará como resultado
G D x16 E x17 G K K I F V
Si el porcentaje de homología es de 100%
y el tipo de caracter es un punto "." el resultado
del programa será
G D
. E .
G
K K . F .
Este nuevo programa nos facilita el
análisis de la información
A los programas anteriores se les
suministraron los datos del blast-p completo realizado al Citocromo C, obteniéndose la estructura lingüística para
los citocromos C, la cual quedo como a continuación se muestra:
GD x1 x2 x3 G x4 x5 x6
F x7 x8 x9 x10
x1 QCH x12
x13 x14 x15 G x16 x17 x18 x19 GP x20 L x21
G x22 x23 GR
x24 x25 G x26 x27 x28 G x29 x30 Y x31 x32 A x33 x34 x35 x36 x37 x38 x39 W x40 x41 x42 x43 L x44 x45 x46 L x47 x48 PKK x49 x50 PGTKM x51 F x52
G x53 K x54
x55 x56 x57 R x58 D x59 x60 x61 x62 x63 x64 x65 x66 x67
Simplificando lo
anterior :
GD x1-3GX4-6
F x7-11
QCH x12-15 G
x16-19 GP x20 L x21 G x22 x23 GR x24 x25 G x26-28 G x29 x30 Y x31 x32 A x33-39
W x40-43 L x44-46
L x47 x48
PKK x49 x50
PGTKM x51 F x52 G x53 K x54-57 R
x58 D x58... xN
Y para poder
visualizar mejor la estructura lingüística se cambian las x por . como se ve a
continuación
GD...G...F.....QCH....G....GP.L.G..GR..G...G..Y..A.......W....L...L..PKK..PG
TKM.F.G.K....R.D..........
En la ficha que describe al CYC de EUGGR presente en el banco de
proteínas "Enzyme" (ver anexos B) del EBI aparacen los siguientes datos sobre el grupo hemo
FT MOD_RES 1
1
ACETYLATION.
FT BINDING 17 17 HEME
(COVALENT).
FT METAL 18
18
IRON (HEME AXIAL LIGAND).
FT METAL 79
79
IRON (HEME AXIAL LIGAND).
FT MOD_RES 85 85
METHYLATION (TRI-).
O sea que el grupo hemo corresponde a
los aminoácidos que ocupan las posiciones 1, 17, 18, 79, 85 del citocromo C
Si numeramos los aminoácidos que
aparecen en la ecuación lingüística y coloreamos los a.a pertenecientes al
grupo hemo queda:
1 |
2 |
|
6 |
|
10 |
|
16 |
17 |
18 |
|
23 |
|
28 |
29 |
|
31 |
|
33 |
|
36 |
37 |
|
40 |
|
44 |
|
47 |
|
50 |
G |
D |
... |
G |
... |
F |
..... |
Q |
C |
H |
.... |
G |
.... |
G |
P |
. |
L |
. |
G |
.. |
G |
R |
.. |
G |
... |
G |
.. |
Y |
.. |
A |
|
58 |
|
63 |
|
67 |
|
70 |
71 |
72 |
|
75 |
76 |
77 |
78 |
79 |
|
81 |
|
83 |
|
85 |
|
90 |
|
92 |
|
....... |
W |
.... |
L |
... |
L |
.. |
P |
K |
K |
.. |
P |
G |
T |
K |
M |
. |
F |
. |
G |
. |
K |
.... |
R |
. |
D |
.......... |
Donde se observa que los aminoácidos
correspondientes al grupo hemo encontrados mediante análisis moleculares
mantienen sus posiciones en la ec.. lingüística
Si recordamos esta ecuación se encontró
a partir del análisis de las homologías existentes entre 25 Citocromos C y el
hecho que estos aminoácidos estén presentes en todos ellos manteniendo la misma
configuración relativa de unos con respecto a los otros nos indica que el grupo
hemo tiende a estar altamente conservado y que los resultados obtenidos
mediante técnicas lingüísticas son congruentes con los estudios moleculares
cotidianos
Se
suministró a los programas el blast-p completo para endoglucanasas y se
encontró la siguiente estructura lingüística
x1-52 Y x53-57
L x58-67 Q x68 SG x69 LP x70-75
WR x76 x77 S x78 L x79 D x80-86
L x87 GG x88 x89 DAGD x90 x91
KF x92 x93 P x94-102 W x103-144
V x144-148 D x149-151 Wx152-154
E x155-159 R x160-173 A x174-176
AAA x177-190 Y x191-193 L x194-229
DE x230 x231 W x232-234 W x235-237
A x238-252 Y x253-264 WD x265-317
G x318-369 Q x370 x372 Y x373
LG x374-378 S x379-381 G x382-386
Px388-390 HH x391-426 G x427-430
GP x431-433 D x434-436 D x437-444
E x445... xn
Para poder visualizar mejor la
estructura nuevamente cambiamos las x por . quedando la estructura lingüística de la endoglucanasa como sigue:
...........................Y...L..........Q.SG.LP......WR..S.L.D.......L.GG..DAGD..KF..
P.........W..........................................V.....D...W...E.....R..............A...AAA......
........Y...L....................................DE..W...W...A.....Y......................WD.........
............................................G....................................................Q..Y.LG......
S...G.....P...HH....................................G....GP...D...D........E.......
Y numeramos los a.a significativos
|
52 |
|
56 |
|
66 |
|
68 |
69 |
|
71 |
72 |
|
79 |
80 |
|
83 |
|
85 |
|
87 |
|
95 |
|
97 |
98 |
................. |
Y |
... |
L |
.......... |
Q |
. |
S |
G |
. |
L |
P |
...... |
W |
R |
.. |
S |
. |
L |
. |
D |
....... |
L |
. |
G |
G |
|
101 |
102 |
103 |
104 |
|
107 |
108 |
|
111 |
|
121 |
|
164 |
165 |
|
170 |
|
.. |
D |
A |
G |
D |
.. |
K |
F |
.. |
P |
......... |
W |
.......................................... |
V |
G |
..... |
D |
... |
174 |
|
178 |
|
184 |
|
194 |
195 |
|
199 |
|
203 |
204 |
205 |
|
220 |
|
224 |
|
261 |
262 |
263 |
W |
... |
E |
..... |
R |
......... |
P |
G |
....... |
A |
... |
A |
A |
A |
......... |
Y |
... |
L |
|
D |
E |
L |
|
265 |
|
269 |
|
273 |
|
279 |
|
302 |
303 |
|
357 |
... |
W |
... |
W |
... |
A |
..... |
Y |
...................... |
W |
D |
..................................................... |
G |
|
410 |
|
413 |
|
415 |
416 |
|
423 |
|
427 |
|
433 |
|
437 |
438 |
.................................................... |
Q |
.. |
Y |
. |
L |
G |
...... |
S |
... |
G |
..... |
P |
... |
H |
H |
|
475 |
|
480 |
481 |
|
485 |
|
489 |
|
498 |
|
.................................... |
G |
.... |
G |
P |
... |
D |
... |
D |
........ |
E |
...... |
También se estableció la ecuación lingüística para a-amilasa, con
el blast-p adecuado para su utilización y considerando una homología igual o
mayor al 90%
................................................G........................................................W.........
YQP......................G...........F...................G..........D........NH.....................I....
..........V.............L............GL.........................V.....L...........G.........G..R...DA
AKH......................................................................Y........V.............................
...................................V....H...D......................................................................
..........................................................NG................................................RG...
....................N.................................TLGY...................................G................
..........
En la ficha de identificación de la
proteína base utilizada que se tomó del banco de proteínas Enzime del EBI (ver anexos B) esta reportada la siguiente información
sobre los aminoácidos que forman parte del sitio activo
FT ACT_SITE 217
FT ACT_SITE 221
FT ACT_SITE 310
Numerando a los
a.a significativos que aparecen en la ecuación lingüística presentada
anteriormente y coloreando aquellos que son parte del sitio activo, queda:
|
74 |
|
78 |
79 |
|
81 |
82 |
|
99 |
|
103 |
104 |
105 |
|
............................................ |
G |
........... |
V |
Q |
. |
S |
P |
............ |
W |
....... |
Y |
Q |
P |
................... |
116 |
|
121 |
|
132 |
|
138 |
|
142 |
143 |
|
168 |
|
177 |
|
182 |
|
184 |
185 |
|
195 |
G |
..... |
F |
........... |
G |
..... |
D |
... |
N |
H |
.............. |
I |
....... |
V |
.... |
L |
. |
G |
L |
......... |
V |
|
203 |
|
210 |
|
213 |
|
215 |
|
217 |
218 |
219 |
220 |
221 |
|
262 |
|
...... |
L |
…… |
G |
......... |
G |
. |
R |
.. |
D |
A |
A |
K |
H |
.............................. |
Y |
........ |
267 |
|
306 |
|
309 |
310 |
|
V |
............................ |
V |
.... |
H |
D |
........................................................................…......... |
|
407 |
408 |
|
416 |
|
428 |
|
430 |
|
433 |
|
435 |
|
............ |
R |
G |
....... |
N |
............ |
T |
|
L |
|
G |
|
Y |
.............. |
Donde nuevamente notamos que en la ec.
lingüística el sitio activo corresponde a lo encontrado mediante análisis
moleculares. Ahora bien esta ecuación se encontró a partir del análisis de las
homologías existentes entre 50 proteínas que actúan como amilasas y el hecho
que estos aminoácidos estén presentes en más del 90% de ellas nos indica que el
sitio activo tiende a estar altamente conservado en este caso, aunque cabe
señalar que este puede encontrarse en posiciones distintas. ya que los tamaños
de las proteínas analizadas van desde 500 a.a hasta 660 a.a
A continuación se analizaron los blast-p completos realizados a las diferentes
proteínas, con el fin de establecer los porcentajes de aparición de un
aminoácido en un sitio específico de la proteína, y con el fin de poder
comparar con nuestros resultados anteriores se estableció nuevamente la
estructura lingüística
Para poder hacer esto se creó un
programa, al cual si le suministramos por ejemplo los siguientes datos
G |
D |
A |
E |
R |
G |
K |
K |
L |
F |
E |
G |
D |
A |
E |
A |
G |
K |
K |
I |
F |
V |
G |
D |
V |
E |
K |
G |
K |
K |
I |
F |
V |
G |
D |
V |
E |
K |
G |
K |
K |
I |
F |
V |
G |
D |
V |
E |
K |
G |
K |
K |
I |
F |
V |
Nos da como resultado la siguiente
tabla:
A |
0 |
0 |
40 |
0 |
20 |
0 |
0 |
0 |
0 |
0 |
0 |
B |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
C |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
D |
0 |
100 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
E |
0 |
0 |
0 |
100 |
0 |
0 |
0 |
0 |
0 |
0 |
20 |
F |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
100 |
0 |
G |
100 |
0 |
0 |
0 |
0 |
100 |
0 |
0 |
0 |
0 |
0 |
H |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
I |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
80 |
0 |
0 |
K |
0 |
0 |
0 |
0 |
60 |
0 |
100 |
100 |
0 |
0 |
0 |
L |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
20 |
0 |
0 |
M |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
N |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
P |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
Q |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
R |
0 |
0 |
0 |
0 |
20 |
0 |
0 |
0 |
0 |
0 |
0 |
S |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
T |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
V |
0 |
0 |
60 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
80 |
W |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
|
G |
D |
. |
E |
. |
G |
K |
K |
. |
F |
. |
En la cual, la computadora nos entrega
el análisis de la siguiente forma, en la primera columna imprime una lista de
todos los aminoácidos y al lado establece los porcentajes de aparición del
aminoácido para cada sitio específico de la proteína, abajo se va escribiendo
la ecuación lingüística
El programa que
realiza lo anterior es estabio1.c y su pseudocódigo es el siguiente:
Abre el archivo
de entrada, donde se encuentran almacenadas las cadenas de aminoácidos y abre
el archivo de salida, donde almacenará la tabla y la estructura lingüística
Lee los datos
del archivo de entrada y los almacena en el arreglo "texto"
Cuenta las veces
que aparece un carácter en una columna si todos son iguales guarda el carácter
en "textsal" si no almacena un "." en esa posición
Imprime una
lista de todos los aminoácidos y al lado los porcentajes de aparición del
aminoácido para cada sitio específico de la proteína, y va imprimiendo
"textsal" abajo de la columna correspondiente
guarda la impresión
en el archivo de salida
Cierra los
archivos y el sistema
Los arreglos resultantes se encuentran
en los anexos C, en estos se cambiaron lo ceros por comas para poder visualizar
mejor los resultados y algunas de las tablas fueron coloreadas en base al tipo
de aminoácido
A continuación
se muestran algunos de los resultados que obtuvimos de forma preliminar del
análisis de las tablas resultantes,
Al observar la primera tabla de variaciones de
citocromo C notamos que en el sitio 14 el 88% de los CYC analizados presentaban
Cisteína, mientras solo el 12% Alanina, al buscar otros sitios donde existiera
esa proporción en variación encontramos que tanto en el sitio 39 como en el 48
había una proporción 88-12% pero en estos casos la Timina estaba en el 88% de
los casos y la serina en 12%, como se ve a continuación:
|
A
|
B |
C |
D |
E |
F |
G |
H |
I |
K |
L |
M |
N |
P |
Q |
R |
S |
T |
V |
W |
Y
|
14 |
12 |
, |
88 |
, |
, |
, |
, |
, |
,
|
, |
, |
, |
, |
, |
, |
, |
, |
, |
, |
, |
, |
39 |
, |
, |
, |
, |
, |
, |
, |
, |
,
|
, |
, |
, |
, |
, |
, |
, |
12 |
88 |
, |
,
|
, |
48 |
, |
, |
, |
, |
, |
, |
, |
, |
, |
, |
, |
, |
, |
, |
, |
, |
12 |
88 |
, |
, |
, |
al ir al blast-p nos encontramos lo siguiente:
Organismo |
14 |
39 |
48 |
1 :CYC_EUGGR |
A |
S |
S |
2 :CYC_EUGVI
|
A |
S |
S |
3 :CYC2_MOUSE |
C |
T |
T |
4 :CYC2_RAT
|
C |
T |
T |
5 :CYC_EQUAS
|
C |
T |
T |
6 :CYC_HORSE
|
C |
T |
T |
7 :CYC_BOVIN
|
C |
T |
T |
8 :CYC_CYPCA
|
C |
T |
T |
9 :CYC_MACGI
|
C |
T |
T |
10
:CYC_HIPAM
|
C |
T |
T |
11
:CYC_THELA
|
C |
T |
T |
12
:CYC_CRIFA
|
A |
S |
S |
13
:G298836
|
C |
T |
T |
14
:CYC_HUMAN
|
C |
T |
T |
15
:CYC_CANFA
|
C |
T |
T |
16
:CYC_MIRLE
|
C |
T |
T |
17
:CYC_KATPE |
C |
T |
T |
18
:CYC_MACMU
|
C |
T |
T |
19
:CYC_ESCGI
|
C |
T |
T |
20
:CYC_NEUCR
|
C |
T |
T |
21
:CYC_RANCA
|
C |
T |
T |
22
:CYC_MINSC |
C |
T |
T |
23
:CYC_APTPA
|
C |
T |
T |
24 :CYC_ENTTR
|
C |
T |
T |
25
:CYC_MOUSE
|
C |
T |
T |
Al observar el
blast-p podemos dividir a los organismos en dos categorías, aquellos que tienen
cisteína en el lugar 17 y en los lugares 39 y 49 Timina y aquellos que tienen Alanina en el lugar 17 y en los
otros dos Serina, en base a estos resultados se puede decir que es posible que
la secuencia de a.a. CTT sea substituíble por ASS o en otras
palabras es posible que CTT y ASS actúen como sinónimos
Se realizó otro programa (estabio2.c)
(ver anexos D) encaminado a tratar de utilizar la ecuación lingüística para
identificar proteínas que cumplen con la estructura de la ecuación.
Si le suministramos a este programa los
siguientes datos para que establezca la ecuación
C |
D |
A |
E |
R |
G |
K |
K |
L |
F |
E |
G |
D |
A |
E |
A |
G |
K |
K |
I |
F |
V |
G |
D |
V |
E |
K |
G |
K |
K |
I |
F |
V |
G |
D |
V |
E |
K |
G |
K |
K |
I |
F |
V |
G |
D |
V |
E |
K |
G |
K |
K |
I |
F |
V |
y las siguientes secuencias, para que
vea cuales cumplen con la ecuación obtenida con los datos anteriores
G |
D |
A |
E |
R |
G |
K |
K |
L |
F |
E |
|
|
M |
L |
A |
E |
A |
H |
K |
K |
I |
F |
V |
|
|
F |
H |
G |
D |
V |
E |
K |
G |
K |
K |
I |
F |
V |
G |
D |
V |
E |
K |
G |
K |
K |
I |
F |
V |
L |
M |
G |
R |
V |
E |
R |
G |
K |
K |
I |
S |
V |
|
|
Nos da como resultado
La ecuación lingüística es
G D
. E .
G
K K . F .
y las secuencias que cumplieron con ella
fueron 3 de 5, las cuales son:
G |
D |
A |
E |
R |
G |
K |
K |
L |
F |
E |
|
|
F |
H |
G |
D |
V |
E |
K |
G |
K |
K |
I |
F |
V |
G |
D |
V |
E |
K |
G |
K |
K |
I |
F |
V |
L |
M |
La computadora nos entrega aquellas
secuencias que cumplieron con la ecuación lingüística independientemente que
esta ecuación estuviese en el centro de la secuencia, corrida a la derecha o a
la izquierda, se diseñó de esta forma tras observar en los blast-p que las
proteínas que realizan la misma función varían de tamaño, entonces a veces la
ecuación comienza al principio de la proteína y puede terminar con la proteína
o la proteína puede ser más grande, otras veces la ecuación comienza a
establecerse varios aminoácidos después del inicio de la proteína
El programa que
realiza lo anterior es estabio2.c y su pseudocódigo es el siguiente:
Abre el archivo
de entrada, donde se encuentran almacenadas las cadenas de aminoácidos en base
a las cuales establece la ec. lingüística y abre el archivo de salida, donde
almacenara los resultados
Lee los datos
del archivo de entrada y los almacena en el arreglo "texto"
Establece la
ecuación lingüística
Abre el archivo
donde se encuentran las cadenas a ser comparadas
Para cada una de
las cadenas a ser comparadas, ve si la ecuación lingüística se encuentra dentro
de la cadena
Imprime una
lista de todos las cadenas que cumplieron la ecuación lingüística y señala
cuantas secuencias había en el archivo y de ellas cuantas coincidieron con la
ecuación
guarda la
impresión en el archivo de salida
Cierra los
archivos y el sistema
Es posible encontrar estructuras
lingüísticas en base al análisis de la información proteica ya que en
diferentes enzimas que catalizan la misma reacción se encuentran zonas de a.a.
que se repiten independientemente del organismo del cual son extraídas la
enzimas
De lo observado en los resultados de los
diversos Blast-p realizados para amilasas podemos decir que es posible que
existan ciertas secuencias de aminoácidos que actúen como verbos y otra serie
de aminoácidos que actúen como sujeto y que al conjugarse logran la alta
especificidad en las enzimas Además en base a el análisis de las variaciones
del Citocromo C es posible que existan secuencias de aminoácidos equivalentes
que podrían actuar como sinónimos
Se Cumplieron los objetivos tanto
particulares como generales del proyecto al lograr obtener:
*Los análisis de Blast-p tales que nos
permitieron encontrar la estructura lingüística de las endoglucosidasas,
amilasas y del citocromo C
*El establecimiento de la estructura
lingüística para endoglucosidasas, amilasas y del citocromo C que a priori puede
ser considerada como un modelo bioinformático
*Una serie de programas que facilitan ir
estableciendo las diferentes características gramaticales de las secuencias de
las proteínas.
En base al análisis lingüístico se
determinó que al parecer los sitios activos, de las amilasas y el grupo hemo
del citocromo C tienden a ser altamente conservativos.
Así el posible sitio activo consenso en
el caso de las amilasas sería
x |
x+1 |
x+2 |
x+3 |
x+4 |
x+13 |
D |
A |
A |
K |
H |
D |
Y la posible conformación del grupo hemo
en los Citocromos C sería
1 |
17 |
18 |
79 |
85 |
|
||
x |
x+16 |
x+17 |
x+78 |
x+84 |
|||
G |
C |
H |
M |
K |
|
||
Donde x es el sitio del aminoácido donde comienza el sitio activo o el
grupo hemo según sea el caso
En base a lo anterior podemos decir que
se cumplieron con las expectativas que se tenían programadas
Recomendaciones para trabajos futuros
Como el área es prácticamente nueva existen
infinidad de espacios que faltan por explorar algunos trabajos que podrián
surgir como continuación del presente serían:
Como mencionamos en los resultados con
respecto al blast-p para las amilasas, existe una gran divergencia entre las
distintas amilasas por lo cual en posteriores investigaciones convendría
realizar nuevos análisis en base a los diferentes tamaños y propiedades de las
amilasas listadas en el blast-p utilizado.
Actualmente se han encontrado
comportamientos fractales en distintos fenómenos naturales que van desde la
estructura de las nubes , las montañas y las galaxias hasta en áreas como la
música y la pintura por lo que en
futuros trabajos se podría tratar de encontrar patrones de comportamiento tipo
fractal en la información proteica, los análisis de las frecuencias de
aparición de los distintos aminoácidos en los diferentes sitios de las
proteínas quizás podrían servir para ello.
Los patrones
fractales son patrones de comportamiento autosimilares, donde la autosimilaridad es una propiedad
común a múltiples fenómenos de la naturaleza y consiste básicamente en que, un fenómeno está formado por fenómenos
similares al fenómeno original, por ejemplo si se rompe una piedra se
observa que esta formada por piedras y las ramas de un árbol son similares al
árbol completo[9][10].
El último programa se podría utilizar
por ejemplo para ir creando un identificador de secuencias, de tal manera que
en vez de tener almacenadas las secuencias de múltiples proteínas solo se tenga
la ecuación lingüística de cada tipo de proteína y con ella se realice una
identificación primaria desde una computadora personal sin necesidad de acceder
a la red.
1. Fernando Galindo Soria, Marina Vicario
Solorzano, Rumbo a la Fundamentación
de la Informática Educativa, en Memorias del XII Simposio Internacional de
Computación en la Educación organizado por la SOMECE, Cd. de México, Octubre de
1996.
2. José Luis Carrillo Aguado, Entrevista
sobre Informática a Fernando Galindo Soria y Marina Vicario Solorzano, en la Revista Investigación hoy #79,
pag. 22 y 23, Cd. de México, Dic. de 1997.
3. El Origen de
las formas, edición especial de Mundo Científico #188, Barcelona, Marzo de
1998.
4. Jagjit Singh, Teoría de la
Información, del lenguaje y de la cibernética, Ed. Alianza Editorial AU-29,
Madrid, 1982
5. Fernando Galindo Soria, Algunas
propiedades matemáticas de los sistemas lingüísticos en: las Memorias sobre
"Sistemas Evolutivos" del ler Congreso Internacional de Investigación
en Ciencias Computacionales, Instituto Tecnológico de Toluca, Metepec Edo. de
México, Septiembre de 1994.
6. Fernando Galindo Soria, Sistemas
Evolutivos de Reescritura, en Memorias sobre "Sistemas
Evolutivos" del ler. Congreso Internacional de Investigación en Ciencias
Computacionales, Instituto Tecnológico de Toluca, Metepec Edo. de México,
Septiembre de 1994.
7. Fernando Galindo Soria, Sistemas
Evolutivos de Lenguajes de Trayectoria, En las Memorias de la VI Reunión
Nacional de Inteligencia Artificial, Ed. Limusa, Querétaro, Qro., Junio de
1989.
8. Rémi Jullien,
Robert Botet y Max Kolb, Los Agregados, en Mundo Científico vol. 6, #54, pag. 36, Ed.
Fontalba, S.A., Barcelona, España.
9. Eliezer Braun, Caos, Fractales y
cosas raras, Ed. FCE., México, 1996
10. Vicente Talanquer, Fractus, fracta, fractal, Ed. FCE., México, 1996
11. Gamma Z. Galindo Pérez y Patricia Rodríguez Pascual, Modelos Bioinformáticos, en las memorias del VIII Congreso Nacional
de Biotecnología y Bioingeniería y IV Congreso Latinoamericano de Biotecnología
y Bioingeniería, pag 599, Huatulco, Oaxaca, México, septiembre de 1999.
12. Lorenzo Segovia, Bioinformática: Análisis de la familia estructural de las
Beta-lactamasas, en las memorias del VIII Congreso Nacional de
Biotecnología y Bioingeniería y IV Congreso Latinoamericano de Biotecnología y
Bioingeniería, pag 598, Huatulco, Oaxaca, México, septiembre de 1999.
13. Albert
L. Lehninger, Biochemistry, 2. Edición, Nueva York,
1975
14. C.U.M: Smith, Biología Molecular, Ed, Alianza Editorial AU-7, Madrid 1971
15. www.ebi.ac.uk Página del Instituto Europeo de
Bioinformática