Comparación de algoritmos de resumen de texto para el procesamiento de editoriales y noticias en español
Open Access
- 26 February 2021
- journal article
- Published by Instituto Tecnologico Metropolitano (ITM) in TecnoLógicas
- Vol. 24 (51), e1816
- https://doi.org/10.22430/22565337.1816
Abstract
El lenguaje se ve afectado, no solo por las reglas gramaticales, sino también por el contexto y las diversidades socioculturales, por lo cual, el resumen automático de textos (un área de interés en el procesamiento de lenguaje natural - PLN), enfrenta desafíos como la identificación de fragmentos importantes según el contexto y el tipo de texto analizado. Trabajos anteriores describen diferentes métodos de resúmenes automáticos, sin embargo, no existen estudios sobre su efectividad en contextos específicos y tampoco en textos en español. En este artículo se presenta la comparación de tres algoritmos de resumen automático usando noticias y editoriales en español. Los tres algoritmos son métodos extractivos que buscan estimar la importancia de una frase o palabra a partir de métricas de similitud o frecuencia de palabras. Para esto se construyó una base de datos de documentos donde se incluyeron 33 editoriales y 27 noticias, obteniéndose un resumen manual para cada texto. La comparación de los algoritmos se realizó cuantitativamente, empleando la métrica Recall-Oriented Understudy for Gisting Evaluation. Asimismo, se analizó el potencial de los algoritmos seleccionados para identificar los componentes principales del texto. En el caso de las editoriales, el resumen automático debía incluir un problema y la opinión del autor, mientras que, en las noticias, el resumen debía describir las características temporales y espaciales de un suceso. En términos de porcentaje de reducción de palabras y precisión, el método que permite obtener los mejores resultados, tanto para noticias como para editoriales, es el basado en la matriz de similitud. Este método permite reducir en un 70 % los textos, tanto editoriales como noticiosos. No obstante, es necesario incluir la semántica y el contexto en los algoritmos para mejorar su desempeño en cuanto a precisión y sensibilidad.Keywords
This publication has 10 references indexed in Scilit:
- A new graph-based extractive text summarization using keywords or topic modelingJournal of Ambient Intelligence and Humanized Computing, 2020
- Natural Language ProcessingPublished by Springer Science and Business Media LLC ,2020
- Extractive Automatic Text Summarization Based on Lexical-Semantic KeywordsIEEE Access, 2020
- Text Summarization Method Based on Double Attention Pointer NetworkIEEE Access, 2020
- Extractive Arabic Text Summarization Using Modified PageRank AlgorithmEgyptian Informatics Journal, 2019
- Development of a practical system for computerized evaluation of descriptive answers of middle school level studentsInteractive Learning Environments, 2019
- Opinion Mining Summarization and Automation Process: A SurveyInternational Journal on Advanced Science, Engineering and Information Technology, 2018
- Modelo para detección automática de errores léxico-sintácticos en textos escritos en españolTecnoLógicas, 2018
- Single Document Automatic Text Summarization using Term Frequency-Inverse Document Frequency (TF-IDF)ComTech: Computer, Mathematics and Engineering Applications, 2016
- A Survey of Text Mining Techniques and ApplicationsJournal of Emerging Technologies in Web Intelligence, 2009