Abstract

  Resumen

 

 

 

 

 

    Al principio fue el

 

Verbo

BIOINFORMÁTICA

        y del Verbo surgio un

 

Organismo

 

y del Organismo surgió la

 

Vida

INTRODUCCIÓN

Justificación

Estado del campo

METODOLOGÍA

(Para el establecimiento de patrones en la información biológica)

RESULTADOS Y DISCUSIÓN

3.1 Blast-p

3.1.1Citocromo C

3.1.2 Endoglucanasas

3.1.3 Amilasas

3.2 Ecuación lingüística

3.2.1Citocromo C

3.2.2 Endoglucanasas

3.2.3 Amilasas

3.3 Frecuencias

3.4 Búsqueda de secuencias similares

CONCLUSIONES

RECOMENDACIONES PARA TRABAJOS FUTUROS

FUENTES DE INFORMACIÓN

ANEXOS

 

Introduccion

El hombre en su afán por entender el universo lo ha clasificado y dividido según las propiedades de aquellos objetos que lo conforman, hasta hace algunos años solo se consideraban la Materia y la Energía como las propiedades básicas de la realidad, pero no hace mucho la Información se sumó como un nuevo factor, dando nacimiento a la Informática o la ciencia que se encarga del estudio de la información.

"Claude Shannon encargado de descifrar mensajes del  enemigo durante la segunda guerra mundial  consideraba que la información no solo son datos ,  noticias, hechos, sino una fuerza activa que da forma y  carácter a las cosas, aun a los pensamientos"[1][2]. 

 En muchas ocasiones la Informática se asocia  únicamente con las computadoras y si bien es cierto  que en gran medida su desarrollo se debió a la  necesidad de manejar grandes cantidades de  información en tiempos mínimos, esto no quiere decir  que solamente a esto se limite, ya que eso sería  equivalente a pensar que la Biotecnología solo se  limita a las técnicas de cultivo y mantenimiento de los  micro-organismos.

  La Informática tiene grandes posibilidades y  potencialidades en todos los campos del que hacer  humano ya que su campo de estudio se centra en la  información y ésta se presenta prácticamente en  cualquier área, por ejemplo en el caso de la Biología se  le ha vinculado directamente con todo aquello que  implica los sistemas de percepción de la realidad, y  recientemente, mediante el estudio de las formas y de  su evolución se empieza a dar un giro a la manera en  la cual se estudian los fenómenos biológicos[3].

A continuación presentaremos algunos ejemplos en  donde la Informática se interrelaciona con la  Biología.

 Por ejemplo, en áreas como la Teoría de la  Información y de la comunicación de datos se busca  que el espacio que ocupa la información dependa de su  nivel de importancia y de la frecuencia con la que  aparece[4], con lo cual los datos a ser transmitidos  requieren menos energía entre más importantes son,  así la primera prioridad que se establece es la de un  mínimo espacio necesario, esta idea se puede  generalizar y podemos plantear que, entre más sea  usada una información o entre más importante sea  para el sistema conviene que sea menor su espacio de  almacenaje.

De esta forma la energía necesaria para  reproducir dicha información es mínima, pudiendo el  sistema, disponer fácilmente de ella, con un gasto  mínimo de energía.

Como otro ejemplo tenemos que para estudiar al código  genético es común que, primero se identifique la  característica que se quiere estudiar, después se aísla  un organismo que exprese de manera abundante  dicha característica, se le extrae el ADN, se identifica y  aísla el gen de interés, después se secuencia éste, y se  observa si existe mutación, esta manera de estudiar al  código genético equivale a tratar de leer un libro  fijándonos en cada una de las líneas que componen a  las letras que conforman las oraciones.

A nivel  informático se cuenta con la Lingüística  Matemática[5][6][7]que es toda un área dedicada al  estudio de los lenguajes sean estos lenguajes  matemáticos, químicos, o hablados, con el auxilio de  esta área se puede empezar a entender de una manera  más amplia al lenguaje natural más difundido "el  código genético" usando como si fuera piedra roseta a  las proteínas ya que estas son el concepto que a la  larga se desea transmitir.

  Por otra parte existe una gran cantidad de  información sobre secuenciación genética, en base a la  cual mediante un análisis comparativo se pueden ir  encontrando patrones de información, que a la larga  sirvan para modelar desde un marco teórico  secuencias de genes de interés  Desde hace más de quince años y teniendo como  pioneros a informáticos mexicanos se ha ido  desarrollando toda un área del conocimiento que se  dedica al estudio de la evolución en los sistemas[6][7],  entendiéndose con la palabra Evolución a los cambios  que presentan los sistemas debido a los flujos de  materia, energía e información.

 En base a lo anterior seria posible modelar la  evolución en sistemas biológicos, donde el principal  vector de cambio han sido las mutaciones en la  información genética de los organismos,  permitiéndoles adaptarse mejor a su entorno.

Una de las áreas que más se ha desarrollado  últimamente es la Teoría de Caos y fractales[9][10].

A  nivel biológico se habla de procesos de diferenciación  que dan origen a células altamente especializadas,  éstas por un proceso de desdiferenciación debido a la  desregulación de algunos de sus genes pueden derivar  en cosas tan dañinas como lo es un cáncer.

A nivel  informático se hablaría de una misma información  que se encuentra sumergida en distintos espacios  caóticos, productos estos de la evolución del organismo  de una célula cigoto a un ser multicelular, entonces la desdiferenciación se observaría como un cambio en los  objetivos de la célula, debido ya sea a que el espacio  caótico en que se desarrolla cambio (las condiciones  exteriores de la célula) o porque la información en su  interior fue alterada.

De esta manera se puede empezar a visualizar cómo a  partir de conceptos informáticos se pueden modelar  algunos fenómenos biológicos, surgiendo una nueva  rama del conocimiento que conjugue ambas áreas y a  la cual incluso muy bien podríamos llamar  Bioinformática[11][12].

   

Justificación  

Para el estudio de la información genética y proteica  se abren infinidad de posibilidades que van desde las  más prácticas como el diseño de mejores matrices para  la purificación de proteínas hasta la posibilidad de  poder diseñar desde un plano teórico genes y proteínas  de nuestro interés, programando los genes de los  micro-organismos.

Hace poco tiempo se termino de decodificar el  genoma humano,  pero como muchos han señalado esto apenas es el  comienzo de lo que muy bien puede llamarse el mayor  descubrimiento en la historia de la humanidad, el  poder descifrar las instrucciones que hacen que un ser  humano sea un ser humano, pero para poder  comprender como esto es posible será necesario no  solamente visualizar al genoma cómo un conjunto de  bases químicas ordenadas en una secuencia específica,  si no más bien como información que obedece patrones  y reglas, los cuales todavía falta descubrir y para ello  será necesario analizar la información biológica  disponible de diversos organismos.

  Por otra parte es común encontrarnos con que los  precios de el software existente para el análisis de  procesos biológicos suelen ser muy elevados, además  que tienden a ser extremadamente grandes y con la  incomodidad de que como no poseemos los programas  fuentes no es factible que sean modificables para las  necesidades específicas del análisis que se pretenda  realizar   1.

 

Estado Del Campo 

 Actualmente en todo el mundo y principalmente en  Europa se están creando centros de investigación y  nuevas cátedras en torno a la Bioinformática[11][12] , previendo la gran necesidad que habrá  de personas especializadas en esta área en los próximos  años.

  También existen en internet múltiples sitios donde se  pueden consultar las secuencias de los genes y las  proteínas conforme estos son liberados para su estudio  y utilización por parte de los investigadores y gente  interesada en el área[16], de esta manera al colocar  en el buscador de internet "Altavista" la palabra  "bioinformatics" encontramos más de 150 000 páginas  relacionadas con el tema

  Una de las formas en las cuales estos sitios son  utilizados es para lo que bien podríamos llamar  southern blot electrónico, el cual consiste en secuenciar  un gen o un fragmento de nucleótidos y en vez de  realizar un empalme con una secuencia conocida se  suministran los datos a la red para que el blast busque  y compare en diversos bancos de genes a nivel mundial  y obtener de esta forma una identificación  aproximada del gen o en dado caso su posible  afinidad con genes conocidos

 

 

METODOLOGÍA

 

Como primer paso se recopila información en bancos de secuencias de proteínas y de genes, estos bancos se encuentran en internet[15] y la primera parte del proyecto fue localizar su dirección electrónica, después de buscar en internet se decidió utilizar el sitio del Instituto Europeo de Bioinformática (European Bioinformatic Institute  EBI) que se encuentra entrando a internet con  www.ebi.ac.uk

 

En el banco de proteínas que se utiliza, para cada proteína se indica el tipo de enzima y el organismo del cual fue aislada, por ejemplo si aparece AMY_BACSU indica que se trata de una amilasa que se aíslo de Bacillus subtilis.

 

Donde la interpretación de las siglas AMY_BACSU se presenta a continuación

 

AMY

BACSU

Tipo de enzima o proteína

Organismo del cual fue aislada

 

genero         especie

AMY   Amilasas

BAC              SU

 

Bacillus          subtilis

 

Otros abreviaturas  de proteínas que aparecen en el presente trabajo son:

 

Abreviatura

Enzima o proteína

CYC

Citocromo C

GUN

Endoglucosidasas

CGT

Cyclomaltodextrin glucanasa

MALT

Maltasas

 

En base a la secuencia de la proteína de interés se realiza un análisis de Blast-p. El Blast es un método que va comparando la secuencia suministrada con las otras secuencias que se encuentran almacenadas en el banco de genes o proteínas y selecciona aquellas que muestran homología con la secuencia suministrada, mostrando también las zonas de homología, el blast-p es específico para el análisis de secuencias de aminoácidos y el blast-x para el análisis de secuencias de nucleótidos.

 

La información es clasificada e integrada con el fin de utilizarla para la búsqueda de patrones de comportamiento a nivel genético y proteico, para lo cual se utilizan varias herramientas informáticas, como por ejemplo: teoría de la información, lingüística matemática, sistemas evolutivos, programación en lenguaje C.

 

En esta etapa lo primero que se realiza es el establecimiento de la estructura lingüística para la proteína o gen analizado. Para ilustrar lo anterior y como ejemplo de los resultados obtenidos partiremos de la tabla 2.1 que muestra un pequeño fragmento del Blast p realizado para citocromo C.

 

Tabla 2.1. Fragmento del blast-p realizado a citocromo C

Citocromo C (CYC)

 

Organismo

Secuencia de a.a

 

 

1

2

3

4

5

6

7

8

9

10

11

EUGGR

G

D

A

E

R

G

K

K

L

F

E

EUGVI

G

D

A

E

R

G

K

K

L

F

E

MOUSE

G

D

A

E

A

G

K

K

I

F

V

EQUAS

G

D

V

E

K

G

K

K

I

F

V

HORSE

G

D

V

E

K

G

K

K

I

F

V

BOVIN

G

D

V

E

K

G

K

K

I

F

V

 

De la tabla 2.1 observamos como en todos los CYC el primer aminoácido es G, el segundo es D, mientras en el tercero observamos dos posibles a.a A y V en este lugar lo marcamos como x1, donde la x indica que se tiene una variable y el 1 por ser el primer lugar donde se presenta variación, lo mismo sucede en el 5° a.a. aquí lo marcamos como x2 por ser el 2° sitio donde existen diversos a.a. para la misma posición, de esta forma vamos obteniendo la estructura lingüística

 

G  D  x1  E  x2  G  K  K  x3   F x4

 

Mediante este proceso se ha desarrollado el análisis de cadenas de diferentes tipos de proteínas, encontrando su estructura lingüística. Para el caso del citocromo C pudimos establecer su estructura en base al análisis visual de su blast-p ya que se trata de una proteína relativamente pequeña, pero cuando empezamos a tratar con los blast-p de las celulasas el análisis se complicó al tener algunas de las proteínas secuencias de más de 500 a.a. por lo cual nos vimos en la necesidad de crear varios programas (ver anexos D)

 

Para un mejor entendimiento de las propiedades lingüísticas de las proteínas estudiadas es necesario comenzar un análisis a nivel de caracteres, donde cada aminoácido se visualiza como un caracter de una oración, en este sentido se crearon programas que nos permitieran visualizar el porcentaje de aparición de un aminoácido en un sitio determinado obteniendo resultados muy interesantes.

 

Estos resultados nos permiten apreciar entre otras cosas los patrones de variación en un sitio determinado de la proteína, pudiéndose apreciar si los aminoácidos que aparecen en un sitio determinado son todos del mismo tipo p. ej. 100% neutros o si existe combinaciones p ej. 70% neutros 20% ácidos 10% básicos e incluso 30% neutros-aromáticos 70% neutros no aromáticos

 

Finalmente se desarrolló otra herramienta que conjugando lo anterior permite tanto el establecimiento de la ecuación lingüística como el comparar ésta con secuencias de aminoácidos de  forma tal que selecciona aquellas que cumplen la ecuación.

 

En el presente trabajo se utilizaron como proteínas de estudio a las celulasas y amilasas debido a su importancia económica, por su parte el modelo de citocromo C que obtengamos al analizar las cadenas completas nos servirá de referencia para validar los otros modelos, ya que existen suficientes estudios en base al citocromo C para comparar con nuestros resultados. Cabe señalar que los procedimientos aquí utilizados pueden ser aplicados para el análisis de proteínas y de ser el caso también para el estudio de genes, ya que a las herramientas que creamos para poder analizar nuestras secuencias les es indistinto, puesto que visualizan a las proteínas o a los genes como una secuencia de caracteres.

 

 

RESULTADOS Y DISCUSIÓN

 

Como se mencionó en la metodología la primera parte del proyecto consistió en entrar a internet para localizar bancos de genes y proteínas que fuesen de utilidad, de estos se decidió utilizar el sitio del Instituto Europeo de Bioinformática (European Bioinformatic Institute  EBI )[15] ya que posee varios bancos tanto de proteínas como de genes, además mediante ligas se puede acceder a otros de estos bancos que se encuentra en todo el mundo.

 

Dentro de los bancos de proteínas se buscaron las secuencias de aminoácidos de las enzimas de nuestro interés, encontrándose una gran cantidad de ejemplos, por lo que nos centraremos para el análisis en los blast-p del citocromo C, endoglucanasas y amilasas.

 

Para buscar una endoglucosidasa que nos sirviera para el estudio, entramos al banco de proteínas "Enzimes" del EBI, encontrando que ahí se encuentran disponibles para su utilización las secuencias de endoglucosidasas que se muestran en la tabla 3.1

 

Tabla 3.1 Endoglucanasas disponibles en el banco "Enzimes" del EBI

Identificación

Organismo

Identificación

Organismo

Identificación

Organismo

   P40942

CEXY_CLOSR

P54583

GUN1_ACICE

P06566

GUN1_BACS4

   P07983

GUN1_BACSU

P20847

GUN1_BUTFI

P17877

GUN1_CLOJO

   Q04469

GUN1_CRYFL

Q12622

GUN1_HUMGR

P05522

GUN1_PERAE

   P16216

GUN1_RUMAL

P21833

GUN1_SCLSC

P33682

GUN1_STRHA

   Q05156

GUN1_STRRE

P13933

GUN1_STRSQ

Q12714

GUN1_TRILO

   P07981

GUN1_TRIRE

P54424

GUN1_USTMA

P06565

GUN2_BACS4

   P10475

GUN2_BACSU

P37701

GUN2_CLOJO

P23666

GUN2_PERAE

   P21834

GUN2_SCLSC

P26222

GUN2_THEFU

P07982

GUN2_TRIRE

   P19570

GUN3_BACS4

P23549

GUN3_BACSU

P14250

GUN3_FIBSU

   Q07940

GUN4_RUMAL

P26221

GUN4_THEFU

P43316

GUN5_HUMIN

   Q01786

GUN5_THEFU

P43317

GUN5_TRIRE

P22699

GUN6_DICDI

   P37696

GUNA_ACEXY

Q12679

GUNA_ASPAK

P29719

GUNA_BACLA

   P22541

GUNA_BUTFI

P22534

GUNA_CALSA

P07984

GUNA_CELFI

   P17901

GUNA_CLOCE

P54937

GUNA_CLOLO

P04955

GUNA_CLOTM

   P23665

GUNA_FIBSU

P26414

GUNA_MICBI

P10476

GUNA_PSEFL

   P23660

GUNA_RUMAL

P27035

GUNA_STRLI

P19487

GUNA_XANCP

   P23550

GUNB_BACLA

P10474

GUNB_CALSA

P26225

GUNB_CELFI

   P28621

GUNB_CLOCL

P04956

GUNB_CLOTM

P46236

GUNB_FUSOX

   Q12647

GUNB_NEOPA

P18126

GUNB_PSEFL

P23661

GUNB_RUMAL

   P14090

GUNC_CELFI

P37699

GUNC_CLOCE

P28622

GUNC_CLOCL

   P23340

GUNC_CLOSF

P07985

GUNC_CLOTM

P46237

GUNC_FUSOX

   P27033

GUNC_PSEFL

P50400

GUND_CELFI

P25472

GUND_CLOCE

   P28623

GUND_CLOCL

P04954

GUND_CLOTM

P10477

GUNE_CLOTM

   Q05622

GUNE_RUMFL

P37698

GUNF_CLOCE

P26224

GUNF_CLOTM

   P46239

GUNF_FUSOX

P37700

GUNG_CLOCE

Q05332

GUNG_CLOTM

   P16218

GUNH_CLOTM

Q02934

GUNI_CLOTM

P45699

GUNK_FUSOX

   P55742

GUNM_CLOTM

Q59394

GUNN_ERWCA

P38686

GUNS_CLOTM

   P16630

GUNS_ERWCA

Q47096

GUNV_ERWCA

Q59395

GUNW_ERWCA

   P15329

GUNX_CLOTM

P38534

GUNX_PRUPE

P27032

GUNY_ERWCH

   P23659

GUNZ_CLOSR

P07103

GUNZ_ERWCH

P22669

GUN_ASPAC

   P23548

GUN_BACPO

P06564

GUN_BACS1

P19424

GUN_BACS6

   P29019

GUN_BACSP

P17974

GUN_BURSO

P18336

GUN_CELUD

   P15704

GUN_CLOAB

P22503

GUN_PHAVU

P23044

GUN_ROBSP

   P22533

MANB_CALSA

 

 

 

 

 

También en el banco de proteínas "Enzimes" del European Bioinformatic Institute se encuentran disponibles para su utilización las secuencias de amilasas que se muestran en la tabla 3.2  a continuación

 

Tabla 3.2 Amilasas disponibles en el banco "Enzimes" del EBI

Identificación

Organismo

Identificación

Organismo

Identificación

Organismo

 

P27935

AM2A_oRYSA

P04750

AMY6_HoRVU

P30269

AMY_BUTFI

 

P27932

AM3A_oRYSA

P41131

AMYA_AERHY

P23671

AMY_CLoAB

 

P27937

AM3B_oRYSA

Q02905

AMYA_ASpAW

P49274

AMY_DERpT

 

P27939

AM3C_oRYSA

P56271

AMYA_ASpNG

Q59006

AMY_METJA

 

P27933

AM3D_oRYSA

P10529

AMYA_ASpoR

P49067

AMY_pYRFU

 

P27934

AM3E_oRYSA

P54215

AMYA_DRoMA

P30270

AMY_STRGR

 

P27940

AMC1_oRYSA

P08144

AMYA_DRoME

P08486

AMY_STRHY

 

P27941

AMC2_oRYSA

P51548

AMYA_DRoYA

Q05884

AMY_STRLI

 

P53354

AMY1_AEDAE

P17859

AMYA_VIGMU

P09794

AMY_STRLM

 

P22630

AMY1_AERHY

Q02906

AMYB_ASpAW

P27350

AMY_STRTL

 

P19269

AMY1_DEBoC

P21543

AMYB_pAEpo

P22998

AMY_STRVL

 

P09961

AMY1_DICTH

P19961

AMYC_HUMAN

P56634

AMY_TENMo

 

P25718

AMY1_ECoLI

P04746

AMYp_HUMAN

P29750

AMY_THECU

 

P00693

AMY1_HoRVU

P00688

AMYp_MoUSE

P26827

AMY_THETU

 

P17654

AMY1_oRYSA

P00690

AMYp_pIG

P09107

AMY_TRICA

 

P21567

AMY1_SACFI

P00689

AMYp_RAT

P38939

ApU_THEET

 

Q09840

AMY1_SCHpo

P17692

AMYR_BACS8

P36905

ApU_THESA

 

P14898

AMY2_DICTH

P04745

AMYS_HUMAN

P38536

ApU_THETU

 

P26612

AMY2_ECoLI

P00687

AMYS_MoUSE

P16950

ApU_THETY

 

P04063

AMY2_HoRVU

P29957

AMY_ALTHA

P00692

AMY_BACAM

 

P26613

AMY2_SALTY

P30292

AMY_ASpSH

P08137

AMY_BACCI

 

O14154

AMY2_SCHpo

P08117

AMY3_WHEAT

P06278

AMY_BACLI

 

P14899

AMY3_DICTH

P04748

AMY4_HoRVU

P20845

AMY_BACME

 

P04747

AMY3_HoRVU

P04749

AMY5_HoRVU

P06279

AMY_BACST

 

 

 

 

 

P00691

AMY_BACSU

 

De la tabla 3.2 se eligió a las amilasas del genero Bacillus (AMY_BAC*) ya que a nivel industrial es el genero más utilizado para la producción de amilasas

 

 

Blast-P

 

Como se mencionó en la metodología el Blast-p es una forma de análisis que sirve para agrupar proteínas similares esto funciona de la siguiente forma

 

*Se suministra la secuencia de aminoácidos de interés

*El programa compara las proteínas que existen en diversos bancos de proteínas y escoge aquellas secuencias que muestren homología (semejanza) con la de interés

*Presenta una lista con todas aquellas secuencias con las cuales el fragmento o la proteína suministrada tuvo semejanza

*Esta lista está ordenada en orden descendente con respecto a la homología existente entre la secuencia suministrada y la listada

 

Cabe señalar que al programa en ningún momento se le indica el tipo de proteína suministrada

 

 

Citocromo C

 

La primera proteína con la cual se comenzó a trabajar fue la de citocromo C la cual presenta varias ventajas

 

*Se trata de una proteína relativamente pequeña ( de 100 a 120 a.a)

*Se han realizado varios estudios en base a ella con lo cual podemos comparar nuestros resultados

 

En este caso se buscó en el banco de proteínas "Siwssprot" del European Bioinformatic Institute y se seleccionó el citocromo C de Euglena gracilis cuya secuencia es de 102 a.a., de peso molecular 11210 Daltons y su secuencia de aminoácidos se muestra a continuación

 

GDAERGKKLF

ESRAAQCHSA

QKGVNSTGPS

LWGVYGRTSG

SVPGYAYSNA

NKNAAIVWEE

ETLHKFLENP

KKYVPGTKMA

FAGIKAKKDR

QDIIAYMKTL

KD

 

 

 

 

 

 

Con esta secuencia se realizó un análisis mediante blast-p, utilizando las herramientas (Tools) que se encuentran en la página web del Instituto, las secuencias que tuvieron alineamientos significativos con la secuencia de el citocromo C de Euglena gracilis se muestran en la tabla 3.3

 

Tabla 3.3 Secuencias con alineamientos significativos

        con el citocromo C de Euglena gracilis

1      

CYC_EUGGR          

7

CYC_BOVIN           

13 

CYC_HUMAN      

19

CYC_NEUCR      

2

CYC_EUGVI            

8

CYC_CYPCA         

14

CYC_CANFA    

20

CYC_RANCA     

3

CYC _MOUSE             

9

CYC_MACGI      

15

CYC_MIRLE      

21

CYC_MINSC       

4

CYC _RAT                  

10

CYC_HIPAM     

16

CYC_KATPE      

22

CYC_APTPA      

5

CYC_EQUAS                

11

CYC_THELA      

17

CYC_MACMU     

23

CYC_ENTTR       

6

CYC_HORSE             

12

CYC_CRIFA           

18

CYC_ESCGI      

24

CYC_MOUSE

 

Al observar la tabla 3.3 vemos como todas las secuencias que tuvieron correlación con la que nosotros suministramos son de citocromos, aquí cabe señalar lo anteriormente mencionado sobre que a este programa en ningún momento se le indicó que la secuencia suministrada para el análisis se trataba de un citocromo C

 

Al observar la parte final del blast-p para citocromo C, que se muestra a continuación. resalta como al parecer la información biológica se comporta según lo predicho por la Teoría de la información, un ejemplo muy claro es que el tamaño de los citocromos C tiende a ser menor conforme el organismo al cual pertenece es más evolucionado, esto se relaciona con el hecho de que entre más importante resulta una información para un sistema menor es el tamaño que ocupa su almacenamiento, ya que la información tiende a condensarse y eficientar el espacio que ocupa conforme va siendo utilizada.

 

 2179893195563.WU-blastp.a     

100.0%

I

I

A

Y

M

K

T

L

K

D

 1 SWALL:CYC_EUGGR          

100.0%

I

I

A

Y

M

K

T

L

K

D

 2 SWALL:CYC_EUGVI           

91.2%

I

I

A

Y

M

K

T

L

K

D

 3 SWALL:CYC2_MOUSE          

58.2%

L

I

K

Y

L

K

 

 

 

 

 4 SWALL:CYC2_RAT            

58.2%

L

I

Q

Y

L

K

 

 

 

 

 5 SWALL:CYC_EQUAS           

58.2%

L

I

A

Y

L

K

 

 

 

 

 6 SWALL:CYC_HORSE           

58.2%

L

I

A

Y

L

K

 

 

 

 

 7 SWALL:CYC_BOVIN           

58.2%

L

I

A

Y

L

K

 

 

 

 

 8 SWALL:CYC_CYPCA           

51.5%

L

I

A

Y

L

K

S

 

 

 

 9 SWALL:CYC_MACGI           

57.1%

L

I

A

Y

L

K

 

 

 

 

10 SWALL:CYC_HIPAM           

58.2%

L

I

A

Y

L

K

 

 

 

 

11 SWALL:CYC_THELA           

57.1%

L

I

T

Y

L

K

 

 

 

 

12 SWALL:CYC_CRIFA           

56.4%

V

I

A

Y

L

E

T

L

K

 

13 SWALL:G298836                       

58.2%

L

I

A

Y

L

K

 

 

 

 

14 SWALL:CYC_HUMAN           

56.1%

L

I

A

Y

L

K

 

 

 

 

15 SWALL:CYC_CANFA             

57.1%

L

I

A

Y

L

K

 

 

 

 

16 SWALL:CYC_MIRLE              

57.1%

L

I

A

Y

L

K

 

 

 

 

17 SWALL:CYC_KATPE           

54.5%

L

V

A

Y

L

K

S

 

 

 

18 SWALL:CYC_MACMU           

56.1%

L

I

A

Y

L

K

 

 

 

 

19 SWALL:CYC_ESCGI           

57.1%

L

I

A

Y

L

K

 

 

 

 

20 SWALL:CYC_NEUCR           

57.1%

I

I

T

F

M

K

 

 

 

 

21 SWALL:CYC_RANCA           

55.6%

L

I

A

Y

L

K

S

 

 

 

22 SWALL:CYC_MINSC           

56.1%

L

I

A

Y

L

K

 

 

 

 

23 SWALL:CYC_APTPA            

55.1%

L

I

A

Y

L

K

 

 

 

 

24 SWALL:CYC_ENTTR           

54.1%

L

I

A

Y

L

K

 

 

 

 

25 SWALL:CYC_MOUSE           

56.1%

L

I

A

Y

L

K

 

 

 

 

 

Endoglucanasas

 

De las endoglucanasas disponibles se eligió la de  Thermomonospora fusca. cuya secuencia es de 880 a.a; 95202 MW, para realizar el análisis de Blast-p se suministró la secuencia completa que se muestra a continuación

 

MSVTEPPPRR

RGRHSRARRF

LTSLGATAAL

TAGMLGVPLA

TGTAHAEPAF

NYAEALQKSM

FFYEAQRSGK

LPENNRVSWR

GDSGLNDGAD

VGLDLTGGWY

DAGDHVKFGF

PMAFTATMLA

WGAIESPEGY

IRSGQMPYLK

DNLRWVNDYF

IKAHPSPNVL

YVQVGDGDAD

HKWWGPAEVM

PMERPSFKVD

PSCPGSDVAA

ETAAAMAASS

IVFADDDPAY

AATLVQHAKQ

LYTFADTYRG

VYSDCVPAGA

FYNSWSGYQD

ELVWGAYWLY

KATGDDSYLA

KAEYEYDFLS

TEQQTDLRSY

RWTIAWDDKS

YGYVLLAKE

TGKQKYIDDA

NRWLDYWTVG

VNGQRVPYSP

GMAVLDTWG

ALRYAANTAF

VALVYAKVID

DPVRKQRYHD

FAVRQINYAL

GDNPRNSSYV

VGFGNNPPRN

PHHRTAHGSW

TDSIASPAEN

RHVLYGALVG

GPGSPNDAYT

DDRQDYVANE

VATDYNAGFS

SALAMLVEEY

GGTPLADFPP

TEEPDGPEIF

VEAQINTPGT

TFTEIKAMIR

NQSGWPARML

DKGTFRYWFT

LDEGVDPADI

TVSSAYNQCA

TPEDVHHVSG

DLYYVEIDCT

GEKIFPGGQS

EHRREVQFRI

AGGPGWDPSN

DWSFQGIGNEL

APAPYIVLY

DDGVPVWGTA

PEEGEEPGGG

EGPGGGEEPG

EDVTPPSAPG

SPAVRDVTST

SAVLTWSASS

DTGGSGVAGY

DVFLRAGTGQ

EQKVGSTTRT

SFTLTGLEPD

TTYIAAVVAR

DNAGNVSQRS

TVSFTTLAEN

GGGPDASCTV

GYSTNDWDSG

FTASIRITYH

GTAPLSSWEL

SFTFPAGQQV

THGWNATWRQ

DGAAVTATPM

SWNSSLAPGA

TVEVGFNGSW

SGSNTPPTDF

TLNGEPCALA

 

 

 

El balance general del análisis por blast-p realizado para celulasas fue el siguiente

 

 

Identificación

Descripción

 

Identificación

Descripción

 

1

O65186

celulasa. 8/98f98

51

Q42059

endoglucanasa 1 precursor

 

2

G3600052

2p3.1 proteína.

52

G1836024

cel2=celulasa 2. 3/98 492

 

3

O48766

supuesta celulasa.

53

O65987

endoglucanasa h (fragmento).

 

4

O64889

supuesta celulasa

54

G1836025

cel3=celulasa 3. 3/98

 

5

G3341674

supuesta glicosil hidrolasa

55

GUN2_PERAE

endoglucanasa 2 (ec 3.2.1.4)

 

6

O64890

supuesta celulasa

56

G1836028

cel6 = celulasa 6. 3/98

 

7

G3341675

supuesta glicosil hidrolasa

57

G3746670

endo-1,4-beta-glucanasa (ec 3.2

 

8

G3341676

supuesta glicosil hidrolasa

58

P71141

endoglucanasa (fragmento). 11/98

 

9

G3341677

supuesta glicosil hidrolasa

59

Q43750

celulasa (ec 3.2.1.4) (endogluca...

 

10

Q96546

endo-beta-1,4-glucanasa

60

Q42151

relative to endoglucanasa 1

 

11

Q42875

endo-1,4-beta-glucanasa precursor

61

O50014

endo-1,4-beta-glucanasa fragmento

 

12

O64949

endo-1,4-beta glucanasa. 8/98

62

O24280

endo-beta-1,4-glucanasa

 

13

O22297

acidic celulasa. 11/98

63

Q43749.

celulasa (ec 3.2.1.4) endoglucanasa.

 

14

O64402

endo-beta-1,4-glucanasa. 11/98

64

O24281

endo-beta-1,4-glucanasa

 

15

G3377800

t2h3.5 proteína. 10/98

65

Q39848

celulasa, endo-1,4-beta-...

 

16

Q40763

q40763 celulasa precursor. 11/98

66

GUNA_FIBSU

endoglucanasa precursor

 

17

O64401

endo-beta-1,4-glucanasa. 11/98

67

Q52746

beta-glucanasa. 11/98

 

18

P94114

endo-beta-1,4-glucanasa

68

P77864

endoglucanasa d precursor

 

19

G3687887

endo-1,4-beta-glucanasa

69

P94794

pbgb (fragmento). 11/98

 

20

G3549291

endo-1,4-beta-glucanasa

70

Q43146

endo 1,4-glucanasa (ec 3.2.1.4)

 

21

O23697

endo-1,4-beta-glucanasa.

71

Q59442

endo-1,4-beta-d-glucanasa

 

22

Q43149

celulasa (ec 3.2.1.4) endoglucanasa

72

GUND_CLOTM

endoglucanasa d precursor 

23

O49296

t26j12.2 proteína

73

P71326

endoglucanasa e. 11/98

 

24

Q42660

beta-1,4-endoglicanohidrolasa

74

Q59318

avicelase i (ec 3.2.1.4) (cellula... 

 

25

Q96545

celulasa (ec 3.2.1.4)

75

 

gunc_butf>

 

26

P05522

gun1_perae endoglucanasa 1

76

P38534

gunx_prupe endoglucanasa

 

27

G547083

beta-1,4-glucanasa, celulasa

77

D1029755

celulasa salivar (fragmento). ... 

 

28

Q42872

endo-1,4-beta-glucanasa precursor

78

O69308

celulasa 1,4-beta-celobiosidasa...

 

29

O23134

beta-glucanasa. 11/98

79

Q08166

celulasa 1 precursor (ec 3.2.1.4... 

 

30

O04972

endo-1,4-beta-d-glucanasa

80

 Q38890

celulasa precursor. 11/98     

 

31

Q43105

celulasa (ec 3.2.1.4) (endogluca

81

O50013

endo-1,4-beta-glucanasa fragmento

 

32

Q42871

endo-1,4-beta-glucanasa precursor

82

O50011

endo-1,4-beta-glucanasa fragmento

 

33

P22503

gun_phavu endoglucanasa precursor

83

Q02934

guni_clotm endoglucanasa 1 precursor

 

34

Q96547

celulasa (ec 3.2.1.4) endoglucanasa

84

P26224

gunf_clotm endoglucanasa f precursor

 

35

O22298

basic celulasa. 11/98

85

Q55365

hypothetical 112.1 kd proteína. 11/98

 

36

O23696

endo-1,4-beta-glucanasa. 11/98

86

O0447

f5i14.14. 11/98       

 

37

Q41012

endo-1,4-beta-glucanasa precursor.

87

P23659

gunz_closr endoglucanasa z precursor

 

38

O23954

endo-1,4-beta-glucanasa

88

Q38817

beta-glucanasa (fragmento). 11/98

 

39

:D1034676

nteg precursor (ec 3.2.1.4). 10/98

89

P96311

endoglucanasa a (ec 3.2.1.4)

 

40

D1034677

precursor (ec 3.2.1.4).

90

Q43751

celulasa (ec 3.2.1.4) (endogluca.

 

41

GUN4_THEFU 

endoglucanasa e-4 precursor

91

O50012

endo-1,4-beta-glucanasa fragmento

 

42

GUNB_CELFI

endoglucanasa b precursor

92

P37700

gung_cloce endoglucanasa g precursor

 

43

D1032280

salivary celulasa.   

93

O64891

supuesta celulasa, 5' partial

 

44

GUNC_CLOCL

endoglucanasa c (ec 3.2.1.4)

94

P22699

gun6_dicdi endoglucanasa precursor

 

45

O50589

endo-1,4-beta-glucanasa

95

Q39847

cmcase, celulasa, endo-1,4-beta-.

 

46

D1035025

endoglucanasa 2. 10/98

96

P22534

guna_calsa endoglucanasa a precursor

 

47

O04890

endo-1,4-beta-glucanasa

97

Q39826

celulasa (fragmento). 11/98

 

48

G1836027

cel5=celulasa 5. 3/98

98

G3493633

celulasa (ec 3.2.1.4).

 

49

G1836026

cel4=celulasa 4. 3/98

99

G3598956

celulasa (ec 3.2.1.4).

 

50

G1836023

cel1=celulasa 1. 3/98

100

Q59444

endo-1,4-beta-d-glucanasa

 

 

 

Lo cual se resume en la tabla 3.4, donde se concentró la cantidad y el tipo de enzimas encontradas en este análisis

 

Tabla 3.4

Enzima

celulasa (ec 3.2.1.4) endo-beta-1,4-glucanasa

54

endo-1,4-beta-glucanasa fragmento

30

supuesta celulasa.

5

supuesta glicosil hidrolasa

4

proteína.

3

celulasa 1,4-beta-celobiosidasa..

1

beta-1,4-endoglicanohidrolasa

1

acidic celulasa.

1

basic celulasa.

1

 

En base a estos primeros resultados obtenidos de la realización del blast-p a citocromos y a una endoglucanasa nos dimos cuenta que, es posible que existan secuencias altamente conservadas en las proteínas que ejercen la misma función pero en distintos organismos y condiciones.

 

 

Amilasas

 

Se realizaron varios análisis de blast-p en base a diversas secuencias de amilasas hasta encontrar uno que nos permitiera el análisis adecuado para establecer posteriormente la ecuación lingüística que detecte amilasas.

 

Primero se realizó el análisis de blast-p utilizando la amilasa de Bacillus megaterium y se obtuvo homología mayormente con varios tipos de glucosidasas, tales como xilanasas, manasas y en menor medida amilasas. Cuando se utilizó la secuencia de Bacillus circulans se obtuvo homología mayormente con cyclomaltodextrin glucanotransferasas como se observa en la tabla 3.5 donde se resumió la lista de secuencias que tuvieron alineamientos significativos con la amilasa de Bacillus circulans

 

Tabla 3.5

Enzima

%

Enzima

%

cyclomaltodextrin glucanotransferasas

23

Neopullulanase.

6

Amilasa digestiva

1

Cyclomaltodextrinase

2

Amilasa

18

acid alpha-amylase

2

 alfa amilasa Maltogenica

2

Exo-Alpha-1, 4-Glucosidasa

1

Amilasa alcalina

2

neutral and basic amino acid transferasa

2

amilasa precrusor

22

Amilopulanasa

1

glycosyl hydrolase,

2

otros

6

 

Al observar los resultados anteriores se decidió volver a clasificar la información y realizar un nuevo blast-p utilizando ahora como patrón de comparación la secuencia de la amilasa de Bacillus subtilis reportada en el banco de enzimas del EBI con ID AMY_BACSU  STANDARD siendo su secuencia de 660 A.A; 72799 MW y que se presenta a continuación

 

MFAKRFKTSL

LPLFAGFLLL

FHLVLAGPAA

ASAETANKSN

ELTAPSIKSG

TILHAWNWSF

 NTLKHNMKDI

HDAGYTAIQT

SPINQVKEGN

QGDKSMSNWY

 WLYQPTSYQI

GNRYLGTEQE

 FKEMCAAAEE

YGIKVIVDAV

INHTTSDYAA

ISNEVKSIPN

WTHGNTQIKN

WSDRWDVTQN

SLLGLYDWNT

QNTQVQSYLK

RFLDRALNDG

ADGFRFDAAK

HIELPDDGSY

GSQFWPNITN

TSAEFQYGEIL

 QDSASRDAA

YANYMDVTAS

 NYGHSIRSAL

KNRNLGVSNI

SHYASDVSAD

KLVTWVESHD

TYANDDEEST

WMSDDDIRLG

WAVIASRSGS,

TPLFFSRPEG

GGNGVRFPGK 

SQIGDRGSAL

FEDQAITAVN

RFHNVMAGQP

EELSNPNGNN

QIFMNQRGSH

GVVLANAGSS

 SVSINTATKL

PDGRYDNKAG

AGSFQVNDGK

LTGTINARSV

AVLYPDDIAK

APHVFLENYK

TGVTHSFNDQ

LTITLRADAN

TTKAVYQINN

GPDDRRLRME

INSQSEKEIQ

FGKTYTIMLK

 GTNSDGVTRT

EKYSFVKRDP

ASAKTIGYQN

PNHWSQVNAY

 IYKHDGSRVI

ELTGSWPGKP

MTKNADGIYT

LTLPADTDTT

NAKVIFNNGS

AQVPGQNQPG

 FDYVLNGLYN

 DSGLSGSLPH

 

Las secuencias que tuvieron alineamientos significativos con la amilasa de Bacillus subtilis se presentan en la tabla 3.6

 

Tabla 3.6 Secuencias con alineamientos significativos

 con la amilasa de Bacillus subtilis

Identificación (ID)

Organismo

Descripción

 Amy_Bacsu

Bacillus subtilis

(Amye) Alpha-Amilasa

Amy_Butfi

Butyrivibrio fibrisolvens

(Amya) Alpha-Amilasa

Amy_Thecu

Thermomonospora curvata

(Tam) Alpha-Amilasa

Amy_Cloab

Clostridium acetobutylicum

Putative Alpha-Amilasa

Amy_Strlm

Streptomyces limosus

(Aml) Alpha-Amilasa

Amy_Strgr

Streptomyces griseus

(Amy) Alpha-Amilasa

Amy_Strvl

Streptomyces violaceus

(Aml) Alpha-Amilasa

Amy_Strtl

Streptomyces thermoviolaceus

(Amy)Alpha-Amilasa

Amya_Droya

Drosophila yakuba

Alpha-Amilasa

Amya_Droma

Drosophila mauritiana

(Amy-D..)Alpha-Amilasa

Amya_Drome

Drosophila melanogaster

(Amy-D..)Alpha-Amilasa

Amy_Strhy

Streptomyces hygroscopicus

Alpha-Amilasa .

Amy_Aerhy

Aeromonas hydrophila

Alpha-Amilasa Precursor

Amya_Aerhy

Aeromonas hydrophila

(Amya) Alpha-Amilasa

Amy_Tenmo

Tenebrio molitor

Alpha-Amilasa

Amy_Altha

Alteromonas haloplanktis

(Amy) Alpha-Amilasa

Amyp_Rat

Rattus norvegicus

Alpha-AmilasaPancreatica

Amyp_Mouse

Mus musculus

Alpha-AmylasaPancreatica

Amyp_Pig

Sus scrofa

Alpha-AmilasaPancreatica

Amyc_Human

Homo sapiens

(Amy B) Alpha-Amilasa B

Amyp_Human

Homo sapiens

Alpha-Amilasa Pancreatica

 mys_Human

Homo sapiens

Alpha-AmilasaSalivar

Amy _Aedae

Aedes aegypti

(Amy ..) Alpha-Amilasa I

Amy_Trica

Tribolium castaneum

Alpha-Amilasa Precursor...

Amyb_Paepo

Paenibacillus polymyxa

Beta/Alpha-Amilasa

Amy_Sacfi

Saccharomycopsis fibuligera

(Alp) Alpha-Amilasa

Cdg_Paema

Paenibacillus macerans

Cyclomaltodextrin

Cdgt_Bacoh

Bacillus ohbensis

(Cgt) Cyclomaltodextrin

Cdgt_Bacst

Bacillus stearothermophilus

(Cgt) Cyclomaltodextrin

Cdgt_Bacci

Bacillus circulan

Cyclomaltodextrin Glucanasa

Cdgt_Bacss

Bacillus Sp.

Cyclomaltodextrin Glucanasa

Amys_Mouse

Mus musculus

(Amy) Alpha-Amilasa Salivar

Amya_Aspaw

Aspergillus awamori

(Amya) Alpha-Amilasa A

Amya_Aspor

Aspergillus oryzae

Alpha-Amilasa

Amyb_Aspaw

Aspergillus awamori

(Amyb) Alpha-Amilasa B

Amy_Schpo

Schizosaccharomyces pombe

(Spac D . C)...

Amy_Aspsh

Aspergillus shirousami

(Amy) Alpha-Amilasa ...

Cdgt_Bacli

Bacillus licheniformis

Cyclomaltodextrin

Cdgt_Klepn

Klebsiella pneumoniae

(Cgt) Cyclomaltodextrin

Amy_Thetu

Thermoanaerobacter thermosulfurogenes

Amilasa..

Amy_Schpo

Schizosaccharomyces pombe

(Spac A . )..

Ydd_Schpo

Schizosaccharomyces pombe

(Spac B . C) Hy

Amya_Aspng

Aspergillus niger

Acid Alpha-Amilasa

Amym_Bacst

Bacillus stearothermophilus

(Amym) Maltoge.

Amy_Dicth

Dictyoglomus thermophilum

(Amyc) Alpha-Amy

Amy_Bacme

Bacillus megaterium

Alpha-Amilasa Precursor

Cdgu_Bacci

Bacillus circulans

Cyclomaltodextrin Glucanasa

Cdg_Paema

Paenibacillus macerans

(Cgtm) Cyclomaltodextrin Glucanasa

 

Tabla 3.7 Resumen de los resultados de la tabla 3.6

enzima

%

alpha-amilasa

25

50

cyclomaltodextrin

9

18

alpha-amilasa pancreatica

4

8

(amy b) alpha-amilasa b

4

8

alpha-amilasa precursor

3

6

alpha-amilasa salivar

2

4

acid alpha-amilasa

1

2

supuesta alpha-amilasa

1

2

 maltogenasa.

1

2

 

Las amilasas poseen una gran divergencia, de tal forma que, dependiendo de la amilasa utilizada para el análisis mediante blast-p es la semejanza que presenta ésta con diferentes glucosidasas.

 

De las tablas 3.6 y 3.7 observamos que, la mayoría de las secuencias que tuvieron alineación significativa cuando se utilizó la secuencia de la amilasa de Bacillus subtilis son diferentes tipos de amilasas, también observamos como la amilasa de Bacillus megaterium - que fue una de las utilizadas en los anteriores blast-p - se encuentra en la zona donde ya empieza a existir homología con otras glucosidasas, en base a esto y a los otros blast-p podemos decir que, es posible que la zona que se encarga de la hidrólisis de los enlaces de glucosa sea similar en todas las glucosidasas y que exista otra zona que se encarga de la fijación de la proteína al polisacárido, esto traducido a términos lingüísticos se podría entender como una zona que establece el verbo "Cortar enlaces glucosídicos" y otra zona que diferencía el sujeto sobre el cual se llevara a cabo la acción.

 

Lo anterior coincide con los resultados de estudios que se han llevado a nivel molecular sobre el funcionamiento de este tipo de enzimas, lo cual nos muestra que mediante el análisis de la información obtenemos resultados equivalentes a los obtenidos mediante otros tipos de análisis

 

 

 Ecuación lingüística

 

Después de ordenar la información procedente del blast-p se procedió a realizar varios programas para poder comenzar con su análisis.

 

La primera serie de programas se realizaron con la finalidad de poder establecer la estructura lingüística general de la proteína, considerando lo siguiente:

 

Para el establecimiento de la estructura lingüística es necesario:

 

i) Identificar distintos caracteres, en este caso estamos usando como carácter del lenguaje a los distintos aminoácidos: A (Ala), R (Arg), N (Asn), D (Asp), B (Asx), C (Cys), Q (Gln), E (Glu), Z (Glx), G (Gly), H (His), I (Ile), L (Leu), K (Lys), M (Met), F (Phe), P (Pro), S (Ser), T (Thr), W (Trp), Y (Tyr), V (Val) (ver anexos A)

 

ii) Identificar distintas cadenas, donde una cadena es una serie de caracteres del lenguaje que se está analizando, en este caso se trataría de una serie de aminoácidos p. ej.  AFDGC (Ala-Phe-Asp-Gly-Cys)

 

iii) Comparar las cadenas y llevar un conteo de la similitud de sus caracteres

 

Además se tomaron las siguientes premisas

 

1) Los datos en base a los cuales se realizará el análisis se encuentran en un archivo independiente al del programa

 

2) Los resultados deben ser almacenados en un archivo independiente de los datos y del programa

 

Así el primer programa que se realizó permite leer caracteres de la pantalla, otro programa compara dos cadenas distintas, una almacenada dentro del programa y otra suministrada mediante el teclado y un programa que permitía abrir archivos y leer la información almacenada en los mismos

 

Combinando esta serie de programas se obtuvo uno que nos permite establecer la ecuación lingüística y la guarda en el archivo salebio.txt

 

Por ejemplo, si suministramos al programa los siguientes datos

 

G

D

A

E

R

G

K

K

L

F

E

G

D

A

E

R

G

K

K

L

F

E

G

D

A

E

A

G

K

K

I

F

V

G

D

V

E

K

G

K

K

I

F

V

G

D

V

E

K

G

K

K

I

F

V

G

D

V

E

K

G

K

K

I

F

V

 

El programa nos da como resultado

 

G  D  x  E  x  G  K  K  x   F x

 

 Este resultado es la ecuación lingüística asociada a este conjunto de cadenas de aminoácidos, donde se observa que cuando todos los elementos de la columna son iguales la computadora nos entrega el aminoácido ubicado en dicha columna, cuando en una columna los aminoácidos son diferentes, la computadora imprime una "x"

 

El pseudocódigo del programa que realiza lo anterior es el siguiente:

 

Abre el archivo de entrada, donde se encuentran almacenadas las cadenas de aminoácidos y abre el archivo de salida, donde almacenará la estructura lingüística (en este caso salebio.txt)

 

Lee los datos del archivo de entrada y los almacena en el arreglo "texto"

 

Compara los caracteres de cada columna si todos son iguales guarda el carácter en "textsal" si no almacena una "x" en esa posición

 

Imprime "textsal" y lo guarda en salebio.txt

 

Cierra los archivos y el sistema

 

El programa anterior se modificó para poder realizar el análisis en base a homologías variables, poder salvar en el archivo que el usuario desee y poder utilizar el símbolo de variación que uno desee en vez de la "x", en caso de seguir usando x éstas se numeran automáticamente partiendo del número que uno señale. Como se muestra en el siguiente ejemplo, donde si suministramos los siguientes datos:

 

G

D

A

E

R

G

K

K

L

F

E

G

D

A

E

A

G

K

K

I

F

V

G

D

V

E

K

G

K

K

I

F

V

G

D

V

E

K

G

K

K

I

F

V

G

D

V

E

K

G

K

K

I

F

V

 

Y le decimos al programa que queremos que, el porcentaje de homología sea de 100%, el tipo de carácter sea x y el valor inicial de x: sea 0, el programa dará como resultado

 

G  D  x1  E  x2  G  K  K  x3   F x4

 

Si el porcentaje de homología es de 80%, el tipo de carácter es x y el valor inicial de x es 15 entonces el programa dará como resultado

 

G  D  x16  E  x17  G  K  K  I   F V

 

Si el porcentaje de homología es de 100% y el tipo de caracter es un punto "." el resultado del programa será

G  D  .  E  .  G  K  K  .   F .

 

Este nuevo programa nos facilita el análisis de la información

 

 

Citocromo C

 

A los programas anteriores se les suministraron los datos del blast-p completo realizado al Citocromo C, obteniéndose la estructura lingüística para los citocromos C, la cual quedo como a continuación se muestra:

 

GD x1  x2  x3 G x4  x5  x6 F x7  x8  x9  x10  x1 QCH x12  x13  x14  x15 G x16  x17  x18  x19 GP x20 L x21 G x22  x23 GR x24  x25 G x26  x27  x28 G x29  x30 Y x31  x32 A x33  x34  x35  x36  x37  x38  x39 W x40  x41  x42  x43 L x44  x45  x46 L x47  x48 PKK x49  x50 PGTKM x51 F x52 G x53 K x54  x55  x56  x57 R x58 D x59  x60  x61  x62  x63  x64  x65  x66 x67

 

Simplificando lo anterior :

 

GD x1-3GX4-6 F  x7-11 QCH  x12-15  G  x16-19 GP x20 L x21 G x22  x23 GR x24  x25 G x26-28  G x29  x30 Y x31  x32 A x33-39 W  x40-43 L x44-46 L x47  x48 PKK x49  x50 PGTKM x51 F x52 G x53 K x54-57  R  x58 D x58... xN

 

Y para poder visualizar mejor la estructura lingüística se cambian las x por . como se ve a continuación

 

GD...G...F.....QCH....G....GP.L.G..GR..G...G..Y..A.......W....L...L..PKK..PG TKM.F.G.K....R.D..........

 

En la ficha que describe al CYC de EUGGR presente en el banco de proteínas "Enzyme" (ver anexos B) del EBI  aparacen los siguientes datos sobre el grupo hemo

 

FT   MOD_RES       1      1       ACETYLATION.

FT   BINDING      17     17       HEME (COVALENT).

FT   METAL        18     18       IRON (HEME AXIAL LIGAND).

FT   METAL        79     79       IRON (HEME AXIAL LIGAND).

FT   MOD_RES      85     85       METHYLATION (TRI-).

 

O sea que el grupo hemo corresponde a los aminoácidos que ocupan las posiciones 1, 17, 18, 79, 85 del citocromo C

 

Si numeramos los aminoácidos que aparecen en la ecuación lingüística y coloreamos los a.a pertenecientes al grupo hemo queda:

 

1

2

 

6

 

10

 

16

17

18

 

23

 

28

29

 

31

 

33

 

36

37

 

40

 

44

 

47

 

50

G

D

...

G

...

F

.....

Q

C

H

....

G

....

G

P

.

L

.

G

..

G

R

..

G

...

G

..

Y

..

A

 

 

58

 

63

 

67

 

70

71

72

 

75

76

77

78

79

 

81

 

83

 

85

 

90

 

92

 

.......

W

....

L

...

L

..

P

K

K

..

P

G

T

K

M

.

F

.

G

.

K

....

R

.

D

..........

 

Donde se observa que los aminoácidos correspondientes al grupo hemo encontrados mediante análisis moleculares mantienen sus posiciones en la ec.. lingüística

Si recordamos esta ecuación se encontró a partir del análisis de las homologías existentes entre 25 Citocromos C y el hecho que estos aminoácidos estén presentes en todos ellos manteniendo la misma configuración relativa de unos con respecto a los otros nos indica que el grupo hemo tiende a estar altamente conservado y que los resultados obtenidos mediante técnicas lingüísticas son congruentes con los estudios moleculares cotidianos

 

 

Endoglucanasas

 

Se suministró a los programas el blast-p completo para endoglucanasas y se encontró la siguiente estructura lingüística

 

x1-52 Y x53-57 L x58-67 Q x68 SG x69 LP x70-75 WR x76 x77 S x78 L x79 D x80-86 L x87 GG x88 x89 DAGD x90 x91 KF x92 x93 P x94-102 W x103-144 V x144-148 D x149-151 Wx152-154 E x155-159 R x160-173 A x174-176 AAA x177-190 Y x191-193 L x194-229 DE x230 x231 W x232-234 W x235-237 A x238-252 Y x253-264 WD x265-317 G x318-369 Q x370 x372 Y x373 LG x374-378 S x379-381 G x382-386 Px388-390 HH x391-426 G x427-430 GP x431-433 D x434-436 D x437-444 E x445...  xn

 

Para poder visualizar mejor la estructura nuevamente cambiamos las x por . quedando la estructura lingüística de la endoglucanasa como sigue:

 

...........................Y...L..........Q.SG.LP......WR..S.L.D.......L.GG..DAGD..KF.. P.........W..........................................V.....D...W...E.....R..............A...AAA...... ........Y...L....................................DE..W...W...A.....Y......................WD......... ............................................G....................................................Q..Y.LG...... S...G.....P...HH....................................G....GP...D...D........E.......

 

Y numeramos los a.a significativos

 

 

52

 

56

 

66

 

68

69

 

71

72

 

79

80

 

83

 

85

 

87

 

95

 

97

98

.................

Y

...

L

..........

Q

.

S

G

.

L

P

......

W

R

..

S

.

L

.

D

.......

L

.

G

G

 

 

101

102

103

104

 

107

108

 

111

 

121

 

164

165

 

170

 

..

D

A

G

D

..

K

F

..

P

.........

W

..........................................

V

G

.....

D

...

 

174

 

178

 

184

 

194

195

 

199

 

203

204

205

 

220

 

224

 

261

262

263

W

...

E

.....

R

.........

P

G

.......

A

...

A

A

A

.........

Y

...

L

 

D

E

L

 

 

265

 

269

 

273

 

279

 

302

303

 

357

...

W

...

W

...

A

.....

Y

......................

W

D

.....................................................

G

 

 

410

 

413

 

415

416

 

423

 

427

 

433

 

437

438

....................................................

Q

..

Y

.

L

G

......

S

...

G

.....

P

...

H

H

 

 

475

 

480

481

 

485

 

489

 

498

 

....................................

G

....

G

P

...

D

...

D

........

E

......

 

 

Amilasas

 

También se estableció la ecuación lingüística para a-amilasa, con el blast-p adecuado para su utilización y considerando una homología igual o mayor al 90%

 

................................................G........................................................W......... YQP......................G...........F...................G..........D........NH.....................I.... ..........V.............L............GL.........................V.....L...........G.........G..R...DA AKH......................................................................Y........V............................. ...................................V....H...D...................................................................... ..........................................................NG................................................RG... ....................N.................................TLGY...................................G................ ..........

 

 

En la ficha de identificación de la proteína base utilizada que se tomó del banco de proteínas Enzime del  EBI (ver anexos B)  esta reportada la siguiente información sobre los aminoácidos que forman parte del sitio activo

 

FT   ACT_SITE    217   

FT   ACT_SITE    221         

FT   ACT_SITE    310          

 

 Numerando a los a.a significativos que aparecen en la ecuación lingüística presentada anteriormente y coloreando aquellos que son parte del sitio activo, queda:

 

 

74

 

78

79

 

81

82

 

99

 

103

104

105

 

............................................

G

...........

V

Q

.

S

P

............

W

.......

Y

Q

P

...................

 

116

 

121

 

132

 

138

 

142

143

 

168

 

177

 

182

 

184

185

 

195

G

.....

F

...........

G

.....

D

...

N

H

..............

I

.......

V

....

L

.

G

L

.........

V

 

 

203

 

210

 

213

 

215

 

217

218

219

220

221

 

262

 

......

L

……

G

.........

G

.

R

..

D

A

A

K

H

..............................

Y

........

 

267

 

306

 

309

310

 

V

............................

V

....

H

D

........................................................................….........

 

 

407

408

 

416

 

428

 

430

 

433

 

435

 

............

R

G

.......

N

............

T

 

L

 

G

 

Y

..............

 

Donde nuevamente notamos que en la ec. lingüística el sitio activo corresponde a lo encontrado mediante análisis moleculares. Ahora bien esta ecuación se encontró a partir del análisis de las homologías existentes entre 50 proteínas que actúan como amilasas y el hecho que estos aminoácidos estén presentes en más del 90% de ellas nos indica que el sitio activo tiende a estar altamente conservado en este caso, aunque cabe señalar que este puede encontrarse en posiciones distintas. ya que los tamaños de las proteínas analizadas van desde 500 a.a hasta 660 a.a

 

 

 

FRECUENCIAS

 

A continuación se analizaron los blast-p completos realizados a las diferentes proteínas, con el fin de establecer los porcentajes de aparición de un aminoácido en un sitio específico de la proteína, y con el fin de poder comparar con nuestros resultados anteriores se estableció nuevamente la estructura lingüística

 

Para poder hacer esto se creó un programa, al cual si le suministramos por ejemplo los siguientes datos

 

G

D

A

E

R

G

K

K

L

F

E

G

D

A

E

A

G

K

K

I

F

V

G

D

V

E

K

G

K

K

I

F

V

G

D

V

E

K

G

K

K

I

F

V

G

D

V

E

K

G

K

K

I

F

V

 

Nos da como resultado la siguiente tabla:

 

A

0

0

40

0

20

0

0

0

0

0

0

B

0

0

0

0

0

0

0

0

0

0

0

C

0

0

0

0

0

0

0

0

0

0

0

D

0

100

0

0

0

0

0

0

0

0

0

E

0

0

0

100

0

0

0

0

0

0

20

F

0

0

0

0

0

0

0

0

0

100

0

G

100

0

0

0

0

100

0

0

0

0

0

H

0

0

0

0

0

0

0

0

0

0

0

I

0

0

0

0

0

0

0

0

80

0

0

K

0

0

0

0

60

0

100

100

0

0

0

L

0

0

0

0

0

0

0

0

20

0

0

M

0

0

0

0

0

0

0

0

0

0

0

N

0

0

0

0

0

0

0

0

0

0

0

P

0

0

0

0

0

0

0

0

0

0

0

Q

0

0

0

0

0

0

0

0

0

0

0

R

0

0

0

0

20

0

0

0

0

0

0

S

0

0

0

0

0

0

0

0

0

0

0

T

0

0

0

0

0

0

0

0

0

0

0

V

0

0

60

0

0

0

0

0

0

0

80

W

0

0

0

0

0

0

0

0

0

0

0

 

G

D

.

E

.

G

K

K

.

F

.

 

 

En la cual, la computadora nos entrega el análisis de la siguiente forma, en la primera columna imprime una lista de todos los aminoácidos y al lado establece los porcentajes de aparición del aminoácido para cada sitio específico de la proteína, abajo se va escribiendo la ecuación lingüística

 

 

El programa que realiza lo anterior es estabio1.c y su pseudocódigo es el siguiente:

 

Abre el archivo de entrada, donde se encuentran almacenadas las cadenas de aminoácidos y abre el archivo de salida, donde almacenará la tabla y la estructura lingüística

 

Lee los datos del archivo de entrada y los almacena en el arreglo "texto"

 

Cuenta las veces que aparece un carácter en una columna si todos son iguales guarda el carácter en "textsal" si no almacena un "." en esa posición

 

Imprime una lista de todos los aminoácidos y al lado los porcentajes de aparición del aminoácido para cada sitio específico de la proteína, y va imprimiendo "textsal" abajo de la columna correspondiente

 

guarda la impresión en el archivo de salida

 

Cierra los archivos y el sistema

 

Los arreglos resultantes se encuentran en los anexos C, en estos se cambiaron lo ceros por comas para poder visualizar mejor los resultados y algunas de las tablas fueron coloreadas en base al tipo de aminoácido

 

A continuación se muestran algunos de los resultados que obtuvimos de forma preliminar del análisis de las tablas resultantes,

 

Al observar la primera tabla de variaciones de citocromo C notamos que en el sitio 14 el 88% de los CYC analizados presentaban Cisteína, mientras solo el 12% Alanina, al buscar otros sitios donde existiera esa proporción en variación encontramos que tanto en el sitio 39 como en el 48 había una proporción 88-12% pero en estos casos la Timina estaba en el 88% de los casos y la serina en 12%, como se ve a continuación:

 

 

A

B

C

D

E

F

G

H

I

K

L

M

N

P

Q

R

S

T

V

W

Y

 14

12

 ,

 88

 ,

 ,

 ,

 ,

 ,

,

 ,

 ,

 ,

 ,

 ,

 ,

 ,

 ,

 ,

,

 ,

,

 39

 ,

 ,

 ,

,

 ,

 ,

 ,

 ,

,

 ,

 ,

 ,

 ,

 ,

,

 ,

 12

 88

 ,

,

 ,

 48

 ,

 ,

 ,

 ,

 ,

 ,

 ,

 ,

,

 ,

,

 ,

 ,

 ,

 ,

 ,

 12

 88

 ,

,

 ,

 

 

al ir al blast-p nos encontramos lo siguiente:

 

Organismo

14

39

48

 1 :CYC_EUGGR          

A

S

S

 2 :CYC_EUGVI           

A

S

S

 3 :CYC2_MOUSE          

C

T

T

 4 :CYC2_RAT            

C

T

T

 5 :CYC_EQUAS            

C

T

T

 6 :CYC_HORSE           

C

T

T

 7 :CYC_BOVIN           

C

T

T

 8 :CYC_CYPCA           

C

T

T

 9 :CYC_MACGI           

C

T

T

10 :CYC_HIPAM           

C

T

T

11 :CYC_THELA           

C

T

T

12 :CYC_CRIFA           

A

S

S

13 :G298836                       

C

T

T

14 :CYC_HUMAN           

C

T

T

15 :CYC_CANFA             

C

T

T

16 :CYC_MIRLE              

C

T

T

17 :CYC_KATPE            

C

T

T

18 :CYC_MACMU           

C

T

T

19 :CYC_ESCGI           

C

T

T

20 :CYC_NEUCR           

C

T

T

21 :CYC_RANCA           

C

T

T

22 :CYC_MINSC

C

T

T

23 :CYC_APTPA           

C

T

T

24 :CYC_ENTTR           

C

T

T

25 :CYC_MOUSE           

C

T

T

 

Al observar el blast-p podemos dividir a los organismos en dos categorías, aquellos que tienen cisteína en el lugar 17 y en los lugares 39 y 49  Timina y aquellos que tienen Alanina en el lugar 17 y en los otros dos Serina, en base a estos resultados se puede decir que es posible que la secuencia de a.a. CTT sea substituíble por ASS o en otras palabras es posible que CTT y ASS actúen como sinónimos

 

 

 

BÚSQUEDA DE SECUENCIAS SIMILARES

 

Se realizó otro programa (estabio2.c) (ver anexos D) encaminado a tratar de utilizar la ecuación lingüística para identificar proteínas que cumplen con la estructura de la ecuación.

 

Si le suministramos a este programa los siguientes datos para que establezca la ecuación

 

 

C

D

A

E

R

G

K

K

L

F

E

G

D

A

E

A

G

K

K

I

F

V

G

D

V

E

K

G

K

K

I

F

V

G

D

V

E

K

G

K

K

I

F

V

G

D

V

E

K

G

K

K

I

F

V

 

y las siguientes secuencias, para que vea cuales cumplen con la ecuación obtenida con los datos anteriores

 

G

D

A

E

R

G

K

K

L

F

E

 

 

M

L

A

E

A

H

K

K

I

F

V

 

 

F

H

G

D

V

E

K

G

K

K

I

F

V

G

D

V

E

K

G

K

K

I

F

V

L

M

G

R

V

E

R

G

K

K

I

S

V

 

 

 

Nos da como resultado

 

La ecuación lingüística es

 

G  D  .  E  .  G  K  K  .   F .

 

y las secuencias que cumplieron con ella fueron 3 de 5, las cuales son:

 

 

G

D

A

E

R

G

K

K

L

F

E

 

 

F

H

G

D

V

E

K

G

K

K

I

F

V

G

D

V

E

K

G

K

K

I

F

V

L

M

 

 

La computadora nos entrega aquellas secuencias que cumplieron con la ecuación lingüística independientemente que esta ecuación estuviese en el centro de la secuencia, corrida a la derecha o a la izquierda, se diseñó de esta forma tras observar en los blast-p que las proteínas que realizan la misma función varían de tamaño, entonces a veces la ecuación comienza al principio de la proteína y puede terminar con la proteína o la proteína puede ser más grande, otras veces la ecuación comienza a establecerse varios aminoácidos después del inicio de la proteína

 

 

El programa que realiza lo anterior es estabio2.c y su pseudocódigo es el siguiente:

 

Abre el archivo de entrada, donde se encuentran almacenadas las cadenas de aminoácidos en base a las cuales establece la ec. lingüística y abre el archivo de salida, donde almacenara los resultados

 

Lee los datos del archivo de entrada y los almacena en el arreglo "texto"

 

Establece la ecuación lingüística

 

Abre el archivo donde se encuentran las cadenas a ser comparadas

 

Para cada una de las cadenas a ser comparadas, ve si la ecuación lingüística se encuentra dentro de la cadena

 

Imprime una lista de todos las cadenas que cumplieron la ecuación lingüística y señala cuantas secuencias había en el archivo y de ellas cuantas coincidieron con la ecuación

 

guarda la impresión en el archivo de salida

 

Cierra los archivos y el sistema

 

 

 

CONCLUSIONES

 

Es posible encontrar estructuras lingüísticas en base al análisis de la información proteica ya que en diferentes enzimas que catalizan la misma reacción se encuentran zonas de a.a. que se repiten independientemente del organismo del cual son extraídas la enzimas

 

De lo observado en los resultados de los diversos Blast-p realizados para amilasas podemos decir que es posible que existan ciertas secuencias de aminoácidos que actúen como verbos y otra serie de aminoácidos que actúen como sujeto y que al conjugarse logran la alta especificidad en las enzimas Además en base a el análisis de las variaciones del Citocromo C es posible que existan secuencias de aminoácidos equivalentes que podrían actuar como sinónimos

 

Se Cumplieron los objetivos tanto particulares como generales del proyecto al lograr obtener:

 

*Los análisis de Blast-p tales que nos permitieron encontrar la estructura lingüística de las endoglucosidasas, amilasas y del citocromo C

 

*El establecimiento de la estructura lingüística para endoglucosidasas, amilasas y del citocromo C que a priori puede ser considerada como un modelo bioinformático

 

*Una serie de programas que facilitan ir estableciendo las diferentes características gramaticales de las secuencias de las proteínas.

 

 

En base al análisis lingüístico se determinó que al parecer los sitios activos, de las amilasas y el grupo hemo del citocromo C tienden a ser altamente conservativos.

 

Así el posible sitio activo consenso en el caso de las amilasas sería

 

x

x+1

x+2

x+3

x+4

x+13

D

A

A

K

H

D

 

 

Y la posible conformación del grupo hemo en los Citocromos C sería

 

1

17

18

79

85

 

x

x+16

x+17

x+78

x+84

G

C

H

M

K

 

 

Donde x es  el sitio del aminoácido donde comienza el sitio activo o el grupo hemo según sea el caso

 

 

En base a lo anterior podemos decir que se cumplieron con las expectativas que se tenían programadas

 

 

Recomendaciones para trabajos futuros

 

Como el área es prácticamente nueva existen infinidad de espacios que faltan por explorar algunos trabajos que podrián surgir como continuación del presente serían:

 

Como mencionamos en los resultados con respecto al blast-p para las amilasas, existe una gran divergencia entre las distintas amilasas por lo cual en posteriores investigaciones convendría realizar nuevos análisis en base a los diferentes tamaños y propiedades de las amilasas listadas en el blast-p utilizado.

 

Actualmente se han encontrado comportamientos fractales en distintos fenómenos naturales que van desde la estructura de las nubes , las montañas y las galaxias hasta en áreas como la música y la pintura  por lo que en futuros trabajos se podría tratar de encontrar patrones de comportamiento tipo fractal en la información proteica, los análisis de las frecuencias de aparición de los distintos aminoácidos en los diferentes sitios de las proteínas quizás podrían servir para ello.

 

Los patrones fractales son patrones de comportamiento autosimilares, donde la autosimilaridad es una propiedad común a múltiples fenómenos de la naturaleza y consiste básicamente en que, un fenómeno está formado por fenómenos similares al fenómeno original, por ejemplo si se rompe una piedra se observa que esta formada por piedras y las ramas de un árbol son similares al árbol completo[9][10].

 

El último programa se podría utilizar por ejemplo para ir creando un identificador de secuencias, de tal manera que en vez de tener almacenadas las secuencias de múltiples proteínas solo se tenga la ecuación lingüística de cada tipo de proteína y con ella se realice una identificación primaria desde una computadora personal sin necesidad de acceder a la red.

 

 

 

FUENTES DE INFORMACIÓN

 

1.  Fernando Galindo Soria, Marina Vicario Solorzano, Rumbo a la Fundamentación de la Informática Educativa, en Memorias del XII Simposio Internacional de Computación en la Educación organizado por la SOMECE, Cd. de México, Octubre de 1996.

2.  José Luis Carrillo Aguado, Entrevista sobre Informática a Fernando Galindo Soria y Marina Vicario Solorzano, en la Revista Investigación hoy #79, pag. 22 y 23, Cd. de México, Dic. de 1997.

3.  El Origen de las formas, edición especial de Mundo Científico #188, Barcelona, Marzo de 1998.

4.  Jagjit Singh, Teoría de la Información, del lenguaje y de la cibernética, Ed. Alianza Editorial AU-29, Madrid, 1982

5.  Fernando Galindo Soria, Algunas propiedades matemáticas de los sistemas lingüísticos en: las Memorias sobre "Sistemas Evolutivos" del ler Congreso Internacional de Investigación en Ciencias Computacionales, Instituto Tecnológico de Toluca, Metepec Edo. de México, Septiembre de 1994.

6.  Fernando Galindo Soria, Sistemas Evolutivos de Reescritura, en Memorias sobre "Sistemas Evolutivos" del ler. Congreso Internacional de Investigación en Ciencias Computacionales, Instituto Tecnológico de Toluca, Metepec Edo. de México, Septiembre de 1994.

7.  Fernando Galindo Soria, Sistemas Evolutivos de Lenguajes de Trayectoria, En las Memorias de la VI Reunión Nacional de Inteligencia Artificial, Ed. Limusa, Querétaro, Qro., Junio de 1989.

8.  Rémi Jullien, Robert Botet y Max Kolb, Los Agregados, en Mundo Científico vol. 6, #54, pag. 36, Ed. Fontalba, S.A., Barcelona, España.

9.  Eliezer Braun, Caos, Fractales y cosas raras, Ed. FCE., México, 1996

10.     Vicente Talanquer, Fractus, fracta, fractal, Ed. FCE., México, 1996

11.     Gamma Z. Galindo Pérez y Patricia Rodríguez Pascual, Modelos Bioinformáticos, en las memorias del VIII Congreso Nacional de Biotecnología y Bioingeniería y IV Congreso Latinoamericano de Biotecnología y Bioingeniería, pag 599, Huatulco, Oaxaca, México, septiembre de 1999.

12.     Lorenzo Segovia, Bioinformática: Análisis de la familia estructural de las Beta-lactamasas, en las memorias del VIII Congreso Nacional de Biotecnología y Bioingeniería y IV Congreso Latinoamericano de Biotecnología y Bioingeniería, pag 598, Huatulco, Oaxaca, México, septiembre de 1999.

13.     Albert L. Lehninger, Biochemistry, 2. Edición, Nueva York, 1975

14.     C.U.M: Smith, Biología Molecular, Ed, Alianza Editorial AU-7, Madrid 1971

15.    www.ebi.ac.uk  Página del Instituto Europeo de Bioinformática