Modelo de extracción de información desde recursos web para aplicaciones de la planificación automática
DOI:
https://doi.org/10.15665/rp.v10i2.236Keywords:
Extracción información, Planificación Automática, Wrapper, Extracción Web, PDDLAbstract
En la actualidad nos encontramos con un alto exceso de información representado en un gran número de documentos
electrónicos localizados en distintos lugares y en diferentes formatos. Por ejemplo, la Web, contenedor
más grande de conocimiento, ofrece una gran cantidad de información plasmada en diferentes presentaciones
como Wikis, blogs, portales, redes sociales entre otras. En el caso de las Wiki se encuentra información proveniente
de un grupo de usuarios en diferentes disciplinas, donde se puede extraer conocimiento valioso de sus contenidos.
El problema radica en que son representados casi siempre en lenguaje natural, haciendo que la búsqueda
y recuperación sea un proceso complejo para los usuarios interesados. Debido a esto, el área de extracción de información
se encarga de extraer a partir de recursos, datos útiles dependiendo de una necesidad de información.
El enfoque de este trabajo es usar la extracción de información para recuperar automáticamente planes de tareas
desde la Web y llevarlos a un proceso de automatización bajo el enfoque de la planificación automática. En este
artículo, se presenta el resultado de investigación parcial de un modelo propuesto para la extracción, particularmente
se muestran los resultados de las herramientas de extracción y pre procesamiento.
References
Cornella, A. (2011). Infoxificacion [Internet]. Disponible
desde: <http://www.infonomia.com/articulo/ideas/
> [Acceso 1 Septiembre de 2012].
Pérez, L. (2011). Redes Sociales, Blogs y Wikis: Tendencias
y realidades [Internet]. Disponible desde:
slideshare.net/gentedeinternet/blogs-redes-sociales-ywikis>
[Acceso 05 de Mayo de 2012].
Martínez, F., Recuperación de información: Modelos,
sistemas y evaluación, EL KIOSKO JMC, Murcia España,
Olivera, M. D., Métodos y técnicas para la indización
y la recuperación de los recursos de la World Wide Web,
Boletín de la Asociación Andaluza de Bibliotecarios, Año
nº 14, Nº 57, 11-22, 1999.
Téllez, A. Extracción de Información con Algoritmos
de Clasificación. Tesis de Maestria, Instituto Nacional de
Astrofísica, Óptica y Electrónica, 2005.
Cowie, J. Information Extraction. Magazine Communications
of the ACM, volumen 39 Numero 1, 80 – 91, 1996.
Laclav´ık, M., Dlugolinsky´, S. and Seleng, M. . Email
analysis and information extraction. Computing and Informatics,
volumen 30, numero. 1, 57-87, 2011.
Dalvi, B., Cohen, W. W., and Callan, J. WebSets: Extracting
Sets of Entities from the Web Using. WSDM ‘12 Proceedings
of the fifth ACM international conference on Web
search and data mining , 243-252, 2012.
Banko, M., Cafarella, M., Soderland, S., Broadhead,
M., and Etzioni, O. Open Information Extraction from the
Web. Magazine Communications of the ACM, volumen 51
numero 12, 68-74, 2008.
Penna, G., Magazzeni, D., and Orefice, S. Visualextraction
of information from webpages. Journal of Visual
Languages & Computing, volumen 21, numero 1, 23–32,
Liu, D., Wang, X., Li, L., and Yan, Z.. Robust Web Extraction
Based on Minimum Cost Script Edit Model. Procedia
Engineering , volumen 29, 1119–1125, 2012.
Chang, C.-H., Hsu, C.-N., & Lui, S.-C. Automatic information
extraction from semi-structured Web pages by
pattern discovery. Decision Support Systems. Volumen 35
numero 1, 129 – 147, 2003.
Addis, A., Armano, G., & Borrajo, D. (2009). Recovering
Plans from the Web.
Addis, A.M; Borrajo, D. (2011). From Unstructured
Web Knowledge to Plan Descriptions. En A. Soro, Information
retrieval and mining in distributed enviroments.
Volumen 324, 41-59, 2011.
Kvarnström, J. (2012). TDDD48 Automated planning (6
ECTS) [Internet]. Disponible desde <:http://www.ida.liu.
se/~TDDD48/labs/2012/pddl.en.shtml> [Acceso 05 de
Mayo 2012].
Ghallab, M., Nau, D., and Traverso, P. Automated
Planning: Theory and Practice. Morgan Kaufmann Publishers,
Usa, 2004.
Rodríguez, M. (2004). Curso: Arquitecturas de bases
de datos en la distribución UPM [Internet]. Disponible desde
http://sinbad.dit.upm.es/docencia/doctorado/curso0304/
Wrappers.pdf> [Acceso 6 de Junio de 2012].
Tyagi, S. (2006). De RESTful Web Services [Internet]. Disponible
desde <http://www.oracle.com/technetwork/articles/
javase/index-137171.html> [Acceso octubre de 2012].
Navarro, R. (2007). Rest vs Web Service [Internet].
Disponible desde <http://users.dsic.upv.es/~rnavarro/
NewWeb/docs/RestVsWebServices.pdf> [Acceso Agosto
de 2012].
Rodríguez, A. (2008). RESTful Web services: The basics
[Internet]. Disponible desde <http://www.ibm.com/developerworks/
webservices/library/ws-restful/> [Acceso
Octubre de 2012].
Princeton University. (2012). WordNet A Lexical database
for english [Internet]. Disponible desde
princeton.edu/> [Acceso Noviembre 2012].
Toutanova, K., and Manning., C. D, Enriching the
Knowledge Sources Used in a Maximum Entropy Part-of-
Speech Tagger, Proceedings of the Joint SIGDAT Conference
on Empirical Methods in Natural Language Processing
and Very Large Corpora. Volumen 13, 63-70, 2000.
RANKS.NL, English Stopwords [Internet].Disponible
desde <http://www.ranks.nl/resources/stopwords.
html> [Acceso Octubre 2012].
Downloads
Issue
Section
License
The authors to publish in this journal agree to the following conditions:
- The authors transfer the copyright and give the the journal first publication right of the work registered with Creative Commons Attribution License, which allows third parties to use the published work on the condition of always mentioning the authorship and first publication in this journal.
- The authors may perform other independent and additional contractual arrangements for the non-exclusive distribution of the version of the article published in this issue (E.g., Inclusion in an institutional repository or publication in a book), it must be indicated clearly that the work was first published in this journal.
- It allows and encourages the authors to publish their work online (eg institutional or personal pages) before and during the review and publication process. It can lead to productive exchanges and greater and faster dissemination of the published work (see The Effect of Open Access)
Instructions to fill out Certificate of Originality and Copyright Assignment
- Click here and get the forms of Certificate of Originality and Copyright Assignment .
- In each field to fill out, click and complete the corresponding information.
- Once the fields are filled out, at the end of the form copy your scanned signature or digital signature. Please adjust the size of the signature on the form.
- Finally, you can save them as pdf files and send them through the OJS platform as an attachment.
