Modelo de extracción de información desde recursos web para aplicaciones de la planificación automática
DOI:
https://doi.org/10.15665/rp.v10i2.236Palabras clave:
Extracción información, Planificación Automática, Wrapper, Extracción Web, PDDLResumen
En la actualidad nos encontramos con un alto exceso de información representado en un gran número de documentos
electrónicos localizados en distintos lugares y en diferentes formatos. Por ejemplo, la Web, contenedor
más grande de conocimiento, ofrece una gran cantidad de información plasmada en diferentes presentaciones
como Wikis, blogs, portales, redes sociales entre otras. En el caso de las Wiki se encuentra información proveniente
de un grupo de usuarios en diferentes disciplinas, donde se puede extraer conocimiento valioso de sus contenidos.
El problema radica en que son representados casi siempre en lenguaje natural, haciendo que la búsqueda
y recuperación sea un proceso complejo para los usuarios interesados. Debido a esto, el área de extracción de información
se encarga de extraer a partir de recursos, datos útiles dependiendo de una necesidad de información.
El enfoque de este trabajo es usar la extracción de información para recuperar automáticamente planes de tareas
desde la Web y llevarlos a un proceso de automatización bajo el enfoque de la planificación automática. En este
artículo, se presenta el resultado de investigación parcial de un modelo propuesto para la extracción, particularmente
se muestran los resultados de las herramientas de extracción y pre procesamiento.
Citas
Cornella, A. (2011). Infoxificacion [Internet]. Disponible
desde: <http://www.infonomia.com/articulo/ideas/
> [Acceso 1 Septiembre de 2012].
Pérez, L. (2011). Redes Sociales, Blogs y Wikis: Tendencias
y realidades [Internet]. Disponible desde:
slideshare.net/gentedeinternet/blogs-redes-sociales-ywikis>
[Acceso 05 de Mayo de 2012].
Martínez, F., Recuperación de información: Modelos,
sistemas y evaluación, EL KIOSKO JMC, Murcia España,
Olivera, M. D., Métodos y técnicas para la indización
y la recuperación de los recursos de la World Wide Web,
Boletín de la Asociación Andaluza de Bibliotecarios, Año
nº 14, Nº 57, 11-22, 1999.
Téllez, A. Extracción de Información con Algoritmos
de Clasificación. Tesis de Maestria, Instituto Nacional de
Astrofísica, Óptica y Electrónica, 2005.
Cowie, J. Information Extraction. Magazine Communications
of the ACM, volumen 39 Numero 1, 80 – 91, 1996.
Laclav´ık, M., Dlugolinsky´, S. and Seleng, M. . Email
analysis and information extraction. Computing and Informatics,
volumen 30, numero. 1, 57-87, 2011.
Dalvi, B., Cohen, W. W., and Callan, J. WebSets: Extracting
Sets of Entities from the Web Using. WSDM ‘12 Proceedings
of the fifth ACM international conference on Web
search and data mining , 243-252, 2012.
Banko, M., Cafarella, M., Soderland, S., Broadhead,
M., and Etzioni, O. Open Information Extraction from the
Web. Magazine Communications of the ACM, volumen 51
numero 12, 68-74, 2008.
Penna, G., Magazzeni, D., and Orefice, S. Visualextraction
of information from webpages. Journal of Visual
Languages & Computing, volumen 21, numero 1, 23–32,
Liu, D., Wang, X., Li, L., and Yan, Z.. Robust Web Extraction
Based on Minimum Cost Script Edit Model. Procedia
Engineering , volumen 29, 1119–1125, 2012.
Chang, C.-H., Hsu, C.-N., & Lui, S.-C. Automatic information
extraction from semi-structured Web pages by
pattern discovery. Decision Support Systems. Volumen 35
numero 1, 129 – 147, 2003.
Addis, A., Armano, G., & Borrajo, D. (2009). Recovering
Plans from the Web.
Addis, A.M; Borrajo, D. (2011). From Unstructured
Web Knowledge to Plan Descriptions. En A. Soro, Information
retrieval and mining in distributed enviroments.
Volumen 324, 41-59, 2011.
Kvarnström, J. (2012). TDDD48 Automated planning (6
ECTS) [Internet]. Disponible desde <:http://www.ida.liu.
se/~TDDD48/labs/2012/pddl.en.shtml> [Acceso 05 de
Mayo 2012].
Ghallab, M., Nau, D., and Traverso, P. Automated
Planning: Theory and Practice. Morgan Kaufmann Publishers,
Usa, 2004.
Rodríguez, M. (2004). Curso: Arquitecturas de bases
de datos en la distribución UPM [Internet]. Disponible desde
http://sinbad.dit.upm.es/docencia/doctorado/curso0304/
Wrappers.pdf> [Acceso 6 de Junio de 2012].
Tyagi, S. (2006). De RESTful Web Services [Internet]. Disponible
desde <http://www.oracle.com/technetwork/articles/
javase/index-137171.html> [Acceso octubre de 2012].
Navarro, R. (2007). Rest vs Web Service [Internet].
Disponible desde <http://users.dsic.upv.es/~rnavarro/
NewWeb/docs/RestVsWebServices.pdf> [Acceso Agosto
de 2012].
Rodríguez, A. (2008). RESTful Web services: The basics
[Internet]. Disponible desde <http://www.ibm.com/developerworks/
webservices/library/ws-restful/> [Acceso
Octubre de 2012].
Princeton University. (2012). WordNet A Lexical database
for english [Internet]. Disponible desde
princeton.edu/> [Acceso Noviembre 2012].
Toutanova, K., and Manning., C. D, Enriching the
Knowledge Sources Used in a Maximum Entropy Part-of-
Speech Tagger, Proceedings of the Joint SIGDAT Conference
on Empirical Methods in Natural Language Processing
and Very Large Corpora. Volumen 13, 63-70, 2000.
RANKS.NL, English Stopwords [Internet].Disponible
desde <http://www.ranks.nl/resources/stopwords.
html> [Acceso Octubre 2012].
Descargas
Número
Sección
Licencia
Los autores/as que publiquen en esta revista aceptan las siguientes condiciones:
- Los autores/as ceden los derechos de autor y dan a la revista el derecho de la primera publicación, con el trabajo registrado con la licencia de atribución de Creative Commons, que permite a terceros utilizar lo publicado siempre que mencionen la autoría del trabajo y a la primera publicación en esta revista.
- Los autores/as pueden realizar otros acuerdos contractuales independientes y adicionales para la distribución no exclusiva de la versión del artículo publicado en esta revista (p. ej., incluirlo en un repositorio institucional o publicarlo en un libro) siempre que indiquen claramente que el trabajo se publicó por primera vez en esta revista.
- Se permite y recomienda a los autores/as a publicar su trabajo en Internet (por ejemplo en páginas institucionales o personales) antes y durante el proceso de revisión y publicación, ya que puede conducir a intercambios productivos y a una mayor y más rápida difusión del trabajo publicado (vea The Effect of Open Access).
Instrucciones para el llenado de la Certificación de Originalidad y la Cesión de Derechos de Autor.
- Haga click aquí y baje el formulario de Certificación de Originalidad y la Cesión de Derechos de Autor.
- En cada uno de los campos para rellenar haga click y complete lo correspondiente.
- Una vez llenos los campos, copie al final su firma escaneada o firma digital. Favor ajustar el tamaño de la firma en el formulario.
- Finalmente, lo puede guardar como pdf y enviarlo a través de la palataforma OJS, como archivo complementario.
Si tiene dudas contáctenos, por favor.