Modelo de extracción de información desde recursos web para aplicaciones de la planificación automática

Carlos Henríquez Miranda

doi:10.15665/rp.v10i2.236

Autores/as

Carlos Henríquez Miranda

DOI:

https://doi.org/10.15665/rp.v10i2.236

Palabras clave:

Extracción información, Planificación Automática, Wrapper, Extracción Web, PDDL

Resumen

En la actualidad nos encontramos con un alto exceso de información representado en un gran número de documentos
electrónicos localizados en distintos lugares y en diferentes formatos. Por ejemplo, la Web, contenedor
más grande de conocimiento, ofrece una gran cantidad de información plasmada en diferentes presentaciones
como Wikis, blogs, portales, redes sociales entre otras. En el caso de las Wiki se encuentra información proveniente
de un grupo de usuarios en diferentes disciplinas, donde se puede extraer conocimiento valioso de sus contenidos.
El problema radica en que son representados casi siempre en lenguaje natural, haciendo que la búsqueda
y recuperación sea un proceso complejo para los usuarios interesados. Debido a esto, el área de extracción de información
se encarga de extraer a partir de recursos, datos útiles dependiendo de una necesidad de información.
El enfoque de este trabajo es usar la extracción de información para recuperar automáticamente planes de tareas
desde la Web y llevarlos a un proceso de automatización bajo el enfoque de la planificación automática. En este
artículo, se presenta el resultado de investigación parcial de un modelo propuesto para la extracción, particularmente
se muestran los resultados de las herramientas de extracción y pre procesamiento.

Referencias

Cornella, A. (2011). Infoxificacion [Internet]. Disponible

desde: <http://www.infonomia.com/articulo/ideas/

> [Acceso 1 Septiembre de 2012].

Pérez, L. (2011). Redes Sociales, Blogs y Wikis: Tendencias

y realidades [Internet]. Disponible desde:

slideshare.net/gentedeinternet/blogs-redes-sociales-ywikis>

[Acceso 05 de Mayo de 2012].

Martínez, F., Recuperación de información: Modelos,

sistemas y evaluación, EL KIOSKO JMC, Murcia España,

Olivera, M. D., Métodos y técnicas para la indización

y la recuperación de los recursos de la World Wide Web,

Boletín de la Asociación Andaluza de Bibliotecarios, Año

nº 14, Nº 57, 11-22, 1999.

Téllez, A. Extracción de Información con Algoritmos

de Clasificación. Tesis de Maestria, Instituto Nacional de

Astrofísica, Óptica y Electrónica, 2005.

Cowie, J. Information Extraction. Magazine Communications

of the ACM, volumen 39 Numero 1, 80 – 91, 1996.

Laclav´ık, M., Dlugolinsky´, S. and Seleng, M. . Email

analysis and information extraction. Computing and Informatics,

volumen 30, numero. 1, 57-87, 2011.

Dalvi, B., Cohen, W. W., and Callan, J. WebSets: Extracting

Sets of Entities from the Web Using. WSDM ‘12 Proceedings

of the fifth ACM international conference on Web

search and data mining , 243-252, 2012.

Banko, M., Cafarella, M., Soderland, S., Broadhead,

M., and Etzioni, O. Open Information Extraction from the

Web. Magazine Communications of the ACM, volumen 51

numero 12, 68-74, 2008.

Penna, G., Magazzeni, D., and Orefice, S. Visualextraction

of information from webpages. Journal of Visual

Languages & Computing, volumen 21, numero 1, 23–32,

Liu, D., Wang, X., Li, L., and Yan, Z.. Robust Web Extraction

Based on Minimum Cost Script Edit Model. Procedia

Engineering , volumen 29, 1119–1125, 2012.

Chang, C.-H., Hsu, C.-N., & Lui, S.-C. Automatic information

extraction from semi-structured Web pages by

pattern discovery. Decision Support Systems. Volumen 35

numero 1, 129 – 147, 2003.

Addis, A., Armano, G., & Borrajo, D. (2009). Recovering

Plans from the Web.

Addis, A.M; Borrajo, D. (2011). From Unstructured

Web Knowledge to Plan Descriptions. En A. Soro, Information

retrieval and mining in distributed enviroments.

Volumen 324, 41-59, 2011.

Kvarnström, J. (2012). TDDD48 Automated planning (6

ECTS) [Internet]. Disponible desde <:http://www.ida.liu.

se/~TDDD48/labs/2012/pddl.en.shtml> [Acceso 05 de

Mayo 2012].

Ghallab, M., Nau, D., and Traverso, P. Automated

Planning: Theory and Practice. Morgan Kaufmann Publishers,

Usa, 2004.

Rodríguez, M. (2004). Curso: Arquitecturas de bases

de datos en la distribución UPM [Internet]. Disponible desde

http://sinbad.dit.upm.es/docencia/doctorado/curso0304/

Wrappers.pdf> [Acceso 6 de Junio de 2012].

Tyagi, S. (2006). De RESTful Web Services [Internet]. Disponible

desde <http://www.oracle.com/technetwork/articles/

javase/index-137171.html> [Acceso octubre de 2012].

Navarro, R. (2007). Rest vs Web Service [Internet].

Disponible desde <http://users.dsic.upv.es/~rnavarro/

NewWeb/docs/RestVsWebServices.pdf> [Acceso Agosto

de 2012].

Rodríguez, A. (2008). RESTful Web services: The basics

[Internet]. Disponible desde <http://www.ibm.com/developerworks/

webservices/library/ws-restful/> [Acceso

Octubre de 2012].

Princeton University. (2012). WordNet A Lexical database

for english [Internet]. Disponible desde

princeton.edu/> [Acceso Noviembre 2012].

Toutanova, K., and Manning., C. D, Enriching the

Knowledge Sources Used in a Maximum Entropy Part-of-

Speech Tagger, Proceedings of the Joint SIGDAT Conference

on Empirical Methods in Natural Language Processing

and Very Large Corpora. Volumen 13, 63-70, 2000.

RANKS.NL, English Stopwords [Internet].Disponible

desde <http://www.ranks.nl/resources/stopwords.

html> [Acceso Octubre 2012].

Modelo de extracción de información desde recursos web para aplicaciones de la planificación automática

Autores/as

DOI:

Palabras clave:

Resumen

Referencias

Descargas

Número

Sección

Licencia

Idioma

Licencia pública: