Resumen |
La extracción abierta de información (Open Information Extraction en inglés) es la tarea de extraer afirmaciones del texto, sin especificación previa de la relación o dominio y sin vocabulario pre-especificado o un corpus de entrenamiento etiquetado manualmente. Previamente se había demostrado que los sistemas basados en las categorías gramaticales (Parts-of-Speech en inglés) son competitivos con los sistemas basados en el análisis sintáctico y funcionan más rápido para los corpus grandes como la Web. Sin embargo, la implementación de este tipo de sistemas requiere información específica del idioma. Hasta ahora, todo el trabajo se ha hecho para el inglés. En este trabajo presentamos un algoritmo de la extracción abierta de información para el español, basado en el etiquetamiento de categorías gramaticales (POS-tagging en inglés). Describimos la implementación del algoritmo en el sistema ExtrHech para el español. Comparamos los resultados del funcionamiento del sistema con los de los sistemas para el inglés, incluyendo una comparación sobre un conjunto de datos paralelo para inglés y español, y demostramos que el rendimiento de nuestro sistema ExtrHech es comparable con los sistemas del estado-del-arte y que el sistema es más robusto al ruido. Adicionalmente damos un análisis comparativo de los errores en las extracciones para los dos idiomas. //// Alisa Zhila ( alisa.zhila@gmail.com ). Cuenta con licenciatura y maestría en Física y Matemáticas Aplicadas por el Instituto d |