Concatenación y Desconcatenación: Operaciones Fundamentales de la Lingüística

Notas

Fernando Galindo Soria       13 jun 96

 

-Concatenación (definiciones básicas)

. alfabeto/ elementos palabras

. concatenación

. cadena

. concatenación entre alfabetos

. A2

. transitividad de la concatenación

. An

. longitud de la cadena

. cadena vacía

.  A+

. A*  =| vocabulario V

. Lenguaje subconjunto o igual de V

. Si alfa pertenece a L, alfa es una oración

. concatenación entre cadenas

. subcadena

. unidad léxica

- Ejemplos de concatenación

el perro ladra

   Concatenación de mapas de bits: .juegos por computadora, navegantes en realidad virtual

[FIGURA ONDA DE SONIDO] el perro ladra

 

- Desconcatenación

. dada una cadena separarla en subcadenas

. puede desconcatenarse de múltiples formas

Ejemplo

el perro ladra

el    perro   ladra

el perro      ladra

el p   err  o la   dra

. separada por blancos

En general el blanco no existe

.Buenos Aires

.corrector ortográfico

de cuatro en cuatro

etc.

 

=>

Algunos tipos de desconcatenación deseable

por elementos comunes

por unidades léxicas (cadena con significado propio)

Ejemplo

Dibuja un Árbol y una nube

    =>                PALABRA   SIGNIFICADO   ETIQUETA

                         Dibuja           ignora                i

                          un                ignora                 i

     X                   árbol          rutina árbol         a

                          y                  ignora                i

                          una              ignora                i

      =>                 nube          rutina nube         n

 

i  i  a i i n

 

=>

 

Y

 

*****   ***** 

Desconcatena palabra por palabra (separada por blancos) y la sustituye por su significado

Concatena significados

 

-Concatenador de mapas de bits (para juegos, etc.)

-Concatenador de voces

   hola /\/\_____/\_

   como /\__/\/\_

  estas __/\/\/\/\/\

 

hola como estas =>  X  => /\/\_____/\_/\__/\/\___/\/\/\/\/\

 

 

-Complejidad del problema de la desconcatenación

Dibuja un árbol (desconcatena palabras separadas por blanco)

el perro ladra (reconocedor de caracteres, delimita (desconcatena) mapa de bits (palabras) )

 

separadas por el fondo (blanco)

 

reconocedor de voz delimita (desconcatena) palabras separadas por silencios

 

señal donde aparentemente no existe un blanco (un motor funcionando, electrocardiograma, etc.) (en algunos casos se puede encontrar un “blanco” pero no siempre)

 

Señales que integran a varias (las señales se solapan)

 

Algunas herramientas de desconcatenación

-separación por blanco

-delimitación de la cadena

a) Explicita: cursor variable

Voy a Buenos Aires con Juan Manuel

(se marca la cadena: de donde empieza a donde termina y se corta)

b) Delimitador Variable (Jesús M. Olivares) explícitamente se delimita la cadena y se corta

 

Herramienta básica: cortar y pegar

delimitación implícita de la cadena

-por blancos

-Por el fondo. el sistema busca una cadena y la delimita por el fondo

- por silencios, el sistema corta cadenas separadas por silencios

 

Por patrones conocidos (matcheo)

Buenos Aires    A

Juan Manuel     B

 

El sistema busca las subcadenas dentro de cadenas ya conocidas y corta por esos puntos.

 

Estoy en Buenos Aires llamando a Juan Manuel en Bogota

 

=>

 

Estoy en A llamando a B en Bogota

 

donde A y B son puntos de corte

 

-Método de Cuitlahuac Cantú

frecuencia de elementos

frecuencia de subcadenas

Método de Cuitlahuac

 

Resta de patrones conocidos

señal

 cloro

=>

señal sin cloro

 

Introducción a desconcatenación de cadenas

a) Cadenas en ASCII

Primera opción: aceptar el blanco

marcar la cadena (buscar siempre de mayor a menor)

b) letras separadas

cursor variable de Jesús M. Olivares

 

c) letra manuscrita

d) palabras o frases cerradas

 

-Desconcatenación de señales en general (trucos)

.Cursor Variable

.Rejilla (Cuitlahuac)

n x m   

movible permanentemente (izq./ der./ arriba/ abajo/ inclinándose/ etc.)

(aleatoriamente en espacio controlado

libremente)

=> siempre acumula los valores

 

-Problema del desconcatenamiento

.Desconcatenar cadena

el perro corre

a) por letras   e l  p e r r o   c o r r e

b) por palabras separadas por blanco   el    perro    corre

los componentes de una cadena se llaman subcadenas

c) En general el blanco no es un separador

 

En Buenos Aires se estudia Música

-Concepto de Unidad léxica

Una unidad léxica es una cadena de caracteres (o una señal o una subcadena) con significado propio

Dado que se tiene un conjunto de Unidades Léxicas, yo puedo representar cada unidad léxica por una etiqueta y dada una cadena puedo sustituir las unidades léxicas por sus etiquetas.

=>

oración canónica

 

Ejemplo:

 

Dadas las siguientes oraciones

O-> el perro blanco

O-> el perro negro

O-> el gato blanco

=>

puedo proponer las siguientes unidades léxicas y sustituciones

 

A-> el

B-> perro

C-> blanco

D->negro

E->gato

O->ABC

O->ABD

O->AEB

 

En lingüística se acostumbra poner primero las oraciones

O->ABC

O->ABD

O->AEB

A-> el

B-> perro

C-> blanco

D->negro

E->gato

 

sistema de reescritura con unidades léxicas

 

ABC

oración canónica

 

En general representar el lenguaje como cadenas de unidades léxicas es mas compacto que las oraciones explicitas

 

Ejercicio

 

Oraciones => X    cadenas                 =>   Y    =>  Oraciones

                              de unidades

                              léxicas

 

Hacer un programa que me genera el sistema de reescritura de unidades léxicas

 

Hacer un programa que a partir del sistema de reescritura de unidades léxicas genera oraciones

Los síntomas de un sistema experto se pueden ver como un conjunto de vectores

 

Sintoma1 peso1 Sintoma2 peso2  ... Sintomam pesom

S1 P1 S2 P2 S3 P3 . . . Sm Pm -> Diagnostico

y si se grafican dan una curva (firma) característica

 

(El numero del síntoma se puede ver como un ángulo y el peso como una magnitud ¿o al revez?)

y cada grafica de un color representa un diagnostico

 

Se puede normalizar dividiendo entre el numero de acumulados antes de graficar.