Modelos  Lingüísticos Bioinformáticos

Gamma Zaratustra Galindo Pérez1

1 IPN – UPIBI, , Ciudad de México

 zaratustra@universo.com

Resumen En este proyecto se aplica la Informática para encontrar patrones lingüísticos en secuencias de proteínas, para lo cual se tomó como base la información presente en bancos de secuencias de proteínas y se empezaron a buscar patrones de comportamiento que permitieron plantear ecuaciones lingüísticas de las proteínas analizadas, para hacer esto posible se creó una serie de herramientas (programas en C) que nos permiten analizar la información tanto proteica como genética.

1  Introducción

Existe una gran cantidad de información de secuencias de genes y proteínas en la red,  que constantemente esta en aumento, al decodificarse nuevas proteínas y genes en todo el mundo, esto abre grandes necesidades que van desde su clasificación y almacenamiento, hasta comprender su significado y relevancia biológica..

Es necesario diseñar y desarrollar herramientas  que no solo faciliten el almacenaje de la información y la minería de datos, si no también contribuyan a encontrar patrones en la información biológica, que a la larga nos permitan modelar secuencias de genes y/o proteínas de interés.

Esto abriría múltiples posibilidades que van desde las mas practicas, como el diseño de mejores matrices para la purificación de proteínas, hasta la posibilidad de poder diseñar genes y proteínas de nuestro interés, programando los genes de los micro organismos ( m.o.).

 Como ejemplo de lo anterior en este proyecto se pretende  encontrar patrones de comportamiento en secuencias de genes y de proteínas mediante la aplicación de la Informática.

2  Metodología

Primero se recopiló información en bancos de secuencias de proteínas y de secuencias de genes, esta información fué clasificada e integrada para la búsqueda de patrones de comportamiento a nivel genético, para lo cual se utilizaron herramientas de la Lingüística Matemática.

En el presente trabajo se utilizaron como proteínas de estudio a las celulasas y amilasas debido a su importancia económica, también se incluyó al citocromo C (CYC) ya que el modelo que se obtiene al analizarlos sirve de referencia para validar los otros modelos, puesto que existen suficientes estudios sobre la base del citocromo C  para comparar con nuestros resultados.

Cabe señalar que los procedimientos aquí utilizados pueden ser aplicados para el análisis de proteínas y de ser el caso también para el estudio de genes, ya que las herramientas que creamos para poder analizar nuestras secuencias visualizan a las proteínas o a los genes como una secuencia de caracteres.

3 Resultados y Discusión

Como primer paso se recopiló información en bancos de secuencias de proteínas y de genes, estos bancos se encuentran en Internet, la primera parte del proyecto fué localizar su dirección electrónica, después de buscar se decidió utilizar el sitio del Instituto Europeo de Bioinformática (European Bioinformatic Institute  EBI) que se encuentra en   www.ebi.ac.uk[11].

La primera proteína con la cual se comenzó a trabajar fué el citocromo C la cual presenta varias ventajas:

Se trata de una proteína relativamente pequeña ( de 100 a 120 aminoácidos).

Se han realizado varios estudios en base al citocromo C con los cuales podemos comparar nuestros resultados.

En este caso se buscó en el banco de proteínas  "Siwssprot" del European Bioinformatic Institute y se seleccionó el citocromo C de Euglena gracilis  (CYC_ EUGGR)  su secuencia es de 102 aminoácidos (a.a.) y se muestra a continuación:

 

GDAERGKKLF ESRAAQCHSA QKGVNSTGPS LWGVYGRTSG SVPGYAYSNA NKNAAIVWEE    ETLHKFLENP    KKYVPGTKMA  FAGIKAKKDR    QDIIAYMKTL KD

 

Con esta secuencia se realizó un análisis mediante Blast-p, utilizando las herramientas (Tools) que se encuentran en la página web del Instituto[11], las secuencias que tuvieron alineamientos significativos con la secuencia del citocromo C de Euglena gracilis fuéron las siguientes:

 

1  CYC_EUGGR 

7    CYC_BOVIN 

13   CYC_HUMAN

19  CYC_NEUCR

2  CYC_EUGVI            

8    CYC_CYPCA         

14   CYC_CANFA    

20  CYC_RANCA     

3  CYC _MOUSE             

9    CYC_MACGI      

15   CYC_MIRLE      

21  CYC_MINSC       

4  CYC _RAT                  

10  CYC_HIPAM     

16   CYC_KATPE      

22  CYC_APTPA      

5  CYC_EQUAS                

11  CYC_THELA       

17   CYC_MACMU     

23  CYC_ENTTR      

6   CYC_HORSE             

12  CYC_CRIFA           

18   CYC_ESCGI      

24  CYC_MOUSE      

 

Al observar lo anterior vemos como todas las secuencias que tuvieron correlación con la que nosotros suministramos son de citocromos, aquí cabe señalar que a este programa en ningún momento se le indicó que la secuencia suministrada para el análisis se trataba de un citocromo C.

Para el caso de las amilasas se realizaron varios análisis de Blast-p en base a diversas secuencias de amilasas hasta encontrar uno que nos permitiera el análisis adecuado para establecer posteriormente la ecuación lingüística que detecte amilasas.

Primero se realizó el análisis de Blast-p utilizando la amilasa de Bacillus megaterium  y se obtuvo homología mayormente con varios tipos de glucosidasas, tales como xilanasas, manasas y en menor medida amilasas, cuando se utilizó la secuencia de Bacillus circulans esta presento mayor homología con cyclomaltodextrin glucanotransferasas.

Al observar los resultados anteriores se decidió volver a clasificar la información y realizar el nuevo Blast-p utilizando ahora como patrón de comparación la secuencia de la amilasa de Bacillus subtilis reportada en el banco de enzimas del European Bioinformatic Institute con ID  AMY_BACSU  STANDARD;  siendo su secuencia de   660 a.a.

 

MFAKRFKTSL

LPLFAGFLLL

FHLVLAGPAA

ASAETANKSN

ELTAPSIKSG

TILHAWNWSF

NTLKHNMKDI

HDAGYTAIQT

SPINQVKEGN

QGDKSMSNWY

WLYQPTSYQI

GNRYLGTEQE

FKEMCAAAEE

YGIKVIVDAV

INHTTSDYAA

ISNEVKSIPN

WTHGNTQIKN

WSDRWDVTQN

SLLGLYDWNT

QNTQVQSYLK

RFLDRALNDG

ADGFRFDAAK

HIELPDDGSY

GSQFWPNITN

TSAEFQYGEIL

QDSASRDAA

YANYMDVTAS

 NYGHSIRSAL

KNRNLGVSNI

SHYASDVSAD

KLVTWVESHD

TYANDDEEST

WMSDDDIRLG

WAVIASRSGS

TPLFFSRPEG

GGNGVRFPGK

 SQIGDRGSAL

FEDQAITAVN

RFHNVMAGQP

EELSNPNGNN

QIFMNQRGSH

GVVLANAGSS

SVSINTATKL

PDGRYDNKAG

AGSFQVNDGK

LTGTINARSV

AVLYPDDIAK

APHVFLENYK

TGVTHSFNDQ

LTITLRADAN

TTKAVYQINN

GPDDRRLRME

INSQSEKEIQ

FGKTYTIMLK

GTNSDGVTRT

EKYSFVKRDP

ASAKTIGYQN

PNHWSQVNAY

 IYKHDGSRVI

ELTGSWPGKP

MTKNADGIYT

LTLPADTDTT

NAKVIFNNGS

AQVPGQNQPG

 FDYVLNGLYN

DSGLSGSLPH

 

 

 

 

 

Esta secuencia se sometió a un análisis de Blast-p y los resultados se presentan resumidos a continuación la tabla 1:

Tabla 1. Resumen del Blast-p realizado con la secuencia de AMY_BACSU

Enzima

%

alpha-amilasa

25

50

cyclomaltodextrin

9

18

alpha-amilasa pancreática

4

8

(amy b) alpha-amilasa b

4

8

alpha-amilasa precursor

3

6

alpha-amilasa salivar

2

4

acid alpha-amilasa

1

2

supuesta alpha-amilasa

1

2

 maltogenasa.

1

2

 

Después la información procedente de los Blast-p fué  clasificada e integrada  con el fin de utilizarla para la búsqueda de patrones de comportamiento lingüístico para lo cual se desarrollaron y utilizaron varias herramientas informáticas basadas en lingüística matemática y sistemas evolutivos.

En esta etapa lo primero que se realizó  fué el establecimiento de la estructura lingüística para la proteína o gen analizado. Para ilustrar lo anterior y como ejemplo de los resultados obtenidos partiremos de la tabla 2 que muestra un pequeño fragmento del Blast-p realizado para citocromo C.

Tabla 2. Fragmento del Blast-p realizado a citocromo C

citocromo C (CYC)

 

Organismo

Secuencia de aminoácidos (a.a)

 

 

1

2

3

4

5

6

7

8

9

10

11

EUGGR

G

D

A

E

R

G

K

K

L

F

E

EUGVI

G

D

A

E

R

G

K

K

L

F

E

MOUSE

G

D

A

E

A

G

K

K

I

F

V

EQUAS

G

D

V

E

K

G

K

K

I

F

V

HORSE

G

D

V

E

K

G

K

K

I

F

V

BOVIN

G

D

V

E

K

G

K

K

I

F

V

 

De la tabla 2 observamos como en todos los CYC el primer aminoácido es G, el segundo es D, mientras en el tercero observamos dos posibles a.a A y V este lugar lo marcamos como x1, donde la x indica que se tiene una variable y el 1 por ser el primer lugar donde se presenta variación, lo mismo sucede en el 5° a.a. aquí lo marcamos como x2 por ser el 2° sitio donde existen diversos a.a. para la misma posición, de esta forma vamos obteniendo la estructura lingüística:

 

G  D  x1  E  x2  G  K  K  x3   F x4

 

Mediante este proceso se ha desarrollado el análisis de cadenas de diferentes tipos de proteínas, encontrando su estructura lingüística.

Para facilitar el establecimiento de la ecuación lingüística creamos varios programas cuyo pseudocódigo base es :  

 

-  Abrir el archivo de entrada, donde se encuentran almacenadas las cadenas de aminoácidos y abrir el archivo de salida, donde almacenará la estructura lingüística (en este caso salebio.txt).

-   Lee los datos del archivo de entrada y los almacena en el arreglo "texto".

-  Compara los caracteres de cada columna si todos son iguales guarda el carácter en "textsal" si no almacena una "x" en esa posición.

-  Imprime "textsal" y lo guarda en salebio.txt.

-  Cierra los archivos y el sistema.

 

A los programas anteriores se les suministraron los datos del Blast-p completo realizado al citocromo C (25 CYC de  entre 95 y 102 a.a) y el Blast-p completo de las amilasas (50 proteínas de 620-660 a.a ) obteniéndose las siguientes estructuras lingüísticas:

 Estructura lingüística para los citocromos C:

 

GD...G...F.....QCH....G....GP.L.G..GR..G...G..Y..A.......W....L...L..PKK..PGTKM.F.G.K....R.D..........

 

Donde las letras indican que en todos los casos analizados se presenta ese aminoácido en esa posición y los puntos indican que en esa posición se presentan diferentes aminoácidos.

 

Estructura lingüística para a-amilasa:

.

................................................G........................................................W.........YQP......................G...........F.......................................N...............................................................................................................G.........G...R................H......................................................................Y........V................................................................V....H...D................................................................................................................................NG................................................RG.......................N.................................TLGY...................................G..........................

 

De las fichas de identificación de la proteínas base utilizadas (CYC_ EUGGR y AMY_BACSU  ) que se encuentran en el banco de proteínas del  EBI [11]  se supo cuales eran los aminoácidos que forman parte del grupo hemo y del sitio activo, al comparar con las ecuaciones lingüísticas  se encontró que todos los a.a. estaban presentes. En base a este análisis lingüístico se determinó que al parecer los sitios activos, de las amilasas y el grupo hemo del citocromo C tienden a ser altamente conservativos.

 

La posible conformación del grupo hemo en los citocromos C sería:

 

1

17

18

79

85

 

x

x+16

x+17

x+78

x+84

G

C

H

M

K

 

 

Y el posible sitio activo en el caso de las amilasas sería:

 

x

x+1

x+2

x+3

x+4

x+13

D

A

A

K

H

D

 

Donde x es  el sitio del aminoácido donde comienza el sitio activo o el grupo hemo según sea el caso.

 

Para un mejor entendimiento de las propiedades lingüísticas de las proteínas estudiadas fué necesario comenzar un análisis a nivel de caracteres, donde cada aminoácido se visualizo como un carácter de una oración, en este sentido se crearon programas que nos permitieran visualizar el porcentaje de aparición de un aminoácido en un sitio determinado obteniendo resultados muy interesantes.

Para poder hacer esto se creó un programa en C, al cual sí le suministramos por ejemplo los datos de la tabla 2 nos da como resultado la Tabla 3:

Tabla 3. Salida de las variaciones porcentuales de a.a. en base a los datos de la Tabla 2.

a.a./

Porcentaje de aparición

 sitio

1

2

3

4

5

6

7

8

9

10

11

A

0

0

40

0

20

0

0

0

0

0

0

B

0

0

0

0

0

0

0

0

0

0

0

C

0

0

0

0

0

0

0

0

0

0

0

D

0

100

0

0

0

0

0

0

0

0

0

E

0

0

0

100

0

0

0

0

0

0

20

F

0

0

0

0

0

0

0

0

0

100

0

G

100

0

0

0

0

100

0

0

0

0

0

H

0

0

0

0

0

0

0

0

0

0

0

I

0

0

0

0

0

0

0

0

80

0

0

K

0

0

0

0

60

0

100

100

0

0

0

L

0

0

0

0

0

0

0

0

20

0

0

M

0

0

0

0

0

0

0

0

0

0

0

N

0

0

0

0

0

0

0

0

0

0

0

P

0

0

0

0

0

0

0

0

0

0

0

Q

0

0

0

0

0

0

0

0

0

0

0

R

0

0

0

0

20

0

0

0

0

0

0

S

0

0

0

0

0

0

0

0

0

0

0

T

0

0

0

0

0

0

0

0

0

0

0

V

0

0

60

0

0

0

0

0

0

0

80

W

0

0

0

0

0

0

0

0

0

0

0

 

G

D

.

E

.

G

K

K

.

F

.

 

En la Tabla 3, la computadora nos entrega el análisis de la siguiente forma, en la primera columna imprime una lista de todos los aminoácidos y al lado establece los porcentajes de aparición del aminoácido para cada sitio específico de la proteína, en el ultimo renglón se va escribiendo la ecuación lingüística.

Por ejemplo, en la primera columna todos los citocromos C de la Tabla 2 tienen Glicina (G), por lo que en la Tabla 3 se pone junto a la G del sitio1 el numero  “100”, indicando 100% de aparición para G en ese sitio y en el ultimo renglón se escribe G, en el tercer  sitio observamos como existen 40 % de Alanina (A) y 60 % de Valina (V) por lo que en el ultimo renglón se imprime “.” indicando que en este sitio se presentan variaciones.

El pseudocódigo del programa que realiza lo anterior es el siguiente:

 

-  Abre el archivo de entrada, donde se encuentran almacenadas las cadenas de aminoácidos y abre el archivo de salida, donde almacenará la tabla y la estructura lingüística.

Lee los datos del archivo de entrada y los almacena en el arreglo "texto"

-   Cuenta las veces que aparece un carácter en una columna si todos son iguales guarda el carácter en "textsal" si no almacena un "." en esa posición.

-  Imprime una lista de todos los aminoácidos y al lado los porcentajes de aparición del aminoácido para cada sitio específico de la proteína, y va imprimiendo "textsal" abajo de la columna correspondiente.

-   Guarda la impresión en el archivo de salida.

-   Cierra los archivos y el sistema.

 

 

Estos resultados nos permiten apreciar entre otras cosas los patrones de variación en un sitio determinado de la proteína, pudiéndose apreciar si los aminoácidos que aparecen en un sitio determinado son todos del mismo tipo p. ej. 100% neutros o si existe combinaciones p ej. 70% neutros 20% ácidos 10% básicos e incluso 30% neutros-aromáticos 70% neutros no aromáticos.

A continuación se muestran algunos de los resultados que obtuvimos de forma preliminar del análisis de las tablas completas resultantes.

Al observar la primera tabla de variaciones de citocromo C notamos que en el sitio 14 el 88% de los CYC analizados presentaban Cisteína, mientras solo el 12% Alanina, al buscar otros sitios donde existiera esa proporción en variación encontramos que tanto en el sitio 39 como en el 48 había una proporción 88-12% pero en estos casos la Timina estaba en el 88% de los casos y la serina en 12%, como se ve en la tabla 4, al ir al Blast-p nos encontramos lo que se muestra en la tabla 5.

 

Tabla 4. Fragmento del análisis de variaciones en los CYC

 

Tabla 5. Fragmento del análisis Blast-p realizado a los CYC

a.a.

sitio

 

Organismo

sitio

 14

 39

 48

 

14

39

48

A

12

 ,

 ,

 

 1 :CYC_EUGGR          

A

S

S

B

 ,

 ,

 ,

 

 2 :CYC_EUGVI           

A

S

S

C

 88

 ,

 ,

 

 3 :CYC2_MOUSE          

C

T

T

D

 ,

,

 ,

 

 4 :CYC2_RAT            

C

T

T

E

 ,

 ,

 ,

 

 5 :CYC_EQUAS           

C

T

T

F

 ,

 ,

 ,

 

 6 :CYC_HORSE           

C

T

T

G

 ,

 ,

 ,

 

 7 :CYC_BOVIN           

C

T

T

H

 ,

 ,

 ,

 

 8 :CYC_CYPCA           

C

T

T

I

,

,

,

 

 9 :CYC_MACGI           

C

T

T

K

 ,

 ,

 ,

 

10 :CYC_HIPAM           

C

T

T

L

 ,

 ,

,

 

11 :CYC_THELA           

C

T

T

M

 ,

 ,

 ,

 

12 :CYC_CRIFA           

A

S

S

N

 ,

 ,

 ,

 

13 :G298836                       

C

T

T

P

 ,

 ,

 ,

 

14 :CYC_HUMAN           

C

T

T

Q

 ,

,

 ,

 

15 :CYC_CANFA             

C

T

T

R

 ,

 ,

 ,

 

16 :CYC_MIRLE              

C

T

T

S

 ,

 12

 12

 

17 :CYC_KATPE           

C

T

T

T

 ,

 88

 88

 

18 :CYC_MACMU           

C

T

T

V

,

 ,

 ,

 

19 :CYC_ESCGI           

C

T

T

W

 ,

,

,

 

20 :CYC_NEUCR           

C

T

T

Y

,

 ,

 ,

 

21 :CYC_RANCA           

C

T

T

 

 

 

 

 

22 :CYC_MINSC

C

T

T

 

 

 

 

 

23 :CYC_APTPA           

C

T

T

 

 

 

 

 

24 :CYC_ENTTR           

C

T

T

 

 

 

 

 

25 :CYC_MOUSE           

C

T

T

 

 

Al observar el Blast-p podemos dividir a los organismos en dos categorías, aquellos que tienen Cisteína en el lugar 14 y en los lugares 39 y 48  Timina y aquellos que tienen Alanina en el lugar 14 y en los otros dos Serina, en base a estos resultados se puede decir que es posible que la secuencia de a.a. CTT sea substituíble por ASS o en otras palabras es posible que CTT y ASS actúen como sinónimos.

 

Finalmente se desarrolló otra herramienta que junto con lo anterior permite, tanto el establecimiento de la ecuación lingüística como el comparar ésta con secuencias de aminoácidos, de  forma tal que, selecciona aquellas que cumplen con la ecuación, su pseudocódigo es el siguiente:

 

-   Abre el archivo de entrada, donde se encuentran almacenadas las cadenas de aminoácidos en base a las cuales establece la ec. lingüística y abre el archivo de salida, donde almacenara los resultados.

-    Lee los datos del archivo de entrada y los almacena en el arreglo "texto".

-    Establece la ecuación lingüística.

-    Abre el archivo donde se encuentran las cadenas a ser comparadas.

-   Para cada una de las cadenas a ser comparadas, ve si la ecuación lingüística se encuentra dentro de la cadena.

-   Imprime una lista de todos las cadenas que cumplieron la ecuación lingüística y señala cuantas secuencias había en el archivo y de ellas cuantas coincidieron con la ecuación.

-    Guarda la impresión en el archivo de salida.

-    Cierra los archivos y el sistema.

 

Este programa se podría utilizar por ejemplo para ir creando un identificador de secuencias, de tal manera que en vez de tener almacenadas las secuencias de múltiples proteínas solo se tenga la ecuación lingüística de cada tipo de proteína y con ella se realice una identificación primaria.

4   Conclusiones

Es posible encontrar estructuras lingüísticas en base al análisis de la información proteica, ya que, en diferentes enzimas que catalizan la misma reacción se encuentran zonas de a.a. que se repiten independientemente del organismo del cual son extraídas la enzimas.

De lo observado en los resultados de los diversos Blast-p realizados para amilasas, podemos decir que, es posible que existan ciertas secuencias de aminoácidos que actúen como verbos y otra serie de aminoácidos que actúen como sujeto y que al conjugarse logran la alta especificidad en las enzimas Además en base a el análisis de las variaciones del citocromo C es posible que existan secuencias de aminoácidos equivalentes que podrían actuar como sinónimos.

Es posible el desarrollo de programas que facilitan ir estableciendo las diferentes características gramaticales de las secuencias de las proteínas y /o genes.

Referencias

1. El Origen de las formas, edición especial de Mundo Científico #188, Barcelona (Marzo de 1998)

2. Singh, Jagjit,: Teoría de la Información, del lenguaje y de la cibernética, Ed. Alianza Editorial AU-29, Madrid (1982)

3. Galindo, S.F.: Algunas propiedades matemáticas de los sistemas lingüísticos en: las Memorias sobre Sistemas Evolutivos del ler Congreso Internacional de Investigación en Ciencias Computacionales, Instituto Tecnológico de Toluca, Metepec Edo. de México (1994)

4. Galindo, S.F.: Sistemas Evolutivos de Reescritura, en Memorias sobre Sistemas Evolutivos del ler. Congreso Internacional de Investigación en Ciencias Computacionales, Instituto Tecnológico de Toluca, Metepec Edo. de México (1994)

5. Galindo, S.F.: Sistemas Evolutivos de Lenguajes de Trayectoria, En las Memorias de la VI Reunión Nacional de Inteligencia Artificial, Ed. Limusa, Querétaro, Qro. (1989)

6. Jullien, Remi, Botet, Robert, y Kolb, M.: Los Agregados, en Mundo Científico vol. 6, #54, pag. 36, Ed. Fontalba, S.A., Barcelona, España

7. Galindo, P.G.Z.. y Rodríguez, P.P.: Modelos Bioinformáticos, en las memorias del VIII Congreso Nacional de Biotecnología y Bioingeniería y IV Congreso Latinoamericano de Biotecnología y Bioingeniería, pag 599, Huatulco, Oaxaca, México (1999)

8. Segovia, L.: Bioinformática: Análisis de la familia estructural de las Beta-lactamasas, en las memorias del VIII Congreso Nacional de Biotecnología y Bioingeniería y IV Congreso Latinoamericano de Biotecnología y Bioingeniería, pag 598, Huatulco, Oaxaca, México (1999)

9. Lehninger, A.: Biochemistry, 2. Edición, Nueva York (1975)

10. Smith, C.U.M.: Biología Molecular, Ed, Alianza Editorial AU-7, Madrid (1971)

11.    www.ebi.ac.uk  Página del Instituto Europeo de Bioinformática

12.