Resumen |
La constitución de los nombres hispanos presupone en muchos casos un grado de ambigüedad. La estructura de las secuencias denominativas en países hispanos conlleva a la presencia de cinco problemas fundamentales que obstaculizan su interpretación: (1) la doble deducción de sexo en nombres personales, por ejemplo 'Guadalupe'; (2) la asociación de nombres y/o apellidos en un solo elemento, como en 'Jorge Luis', cuyos constituyentes existen aisladamente; (3) la composición de los elementos mediante un conectivo; (4) la dualidad nombre/apellido; y (5) la omisión permitida de alguno de los elementos en la secuencia denominativa. Nuestro estudio está orientado a detectar y analizar la ambigüedad mencionada de manera automática. Se desarrolló una gramática formal que determina las interpretaciones válidas de las cadenas nominales, por medio de un etiquetado automático de todos los elementos que la componen. Además, se presentan gráficas que muestran la distribución de los nombres y apellidos, de lo cual, el hallazgo más importante es que la frecuencia de estos cumple con la ley de Zipf. Se utilizó como fuente de conocimiento un corpus con 745.084 registros personales, de los cuales se extrajeron 93.998 nombres y 13.779 apellidos únicos, entre simples, compuestos y asociados. Partiendo de estos, se detectaron 77.162 fuentes de ambigüedad en nombres y 2.739 en apellidos, lo que representa el 82% y el 20% respectivamente. Del total de los registros personales estudiados, 241.922 presen |