Métodos de extracción de comentarios de la red social Twitter para uso en Procesamiento de Lenguaje Natural
Resumen
En la actualidad, el avance tecnológico en el desarrollo de herramientas para la extracción de comentarios de las redes sociales y páginas web está dando pasos agigantados, la evolución de la web ha obligado a todas las organizaciones a adaptarse a este fenómeno digital. Las grandes corporaciones han desarrollado e implementado sus propias APIs en las plataformas de mayor concurrencia de usuarios en redes sociales como lo son Facebook, YouTube, WhatsApp, Instagram, Twitter y también la creación de herramientas web scraping para plataformas que no cuentan con estas. Es de mucha importancia contar con un corpus de datos que permitan ser analizados en tareas relacionadas al Procesamiento de Lenguaje Natural. Como objetivo del presente trabajo se realizan pruebas de herramientas de extracción de comentarios de la red social Twitter. El método utilizado para extraer comentarios de Twitter es a través de las APIs de tipo Rest y Streaming y una herramienta web scraping. Estos comentarios son indexados y para ser enviados a una base de datos no relacional que maneja grandes volúmenes de información. Como resultado se verifica la capacidad de extracción de las herramientas creando un corpus con comentarios de Twitter para análisis utilizando técnicas de Procesamiento de Lenguaje Natural (PLN). Se concluye que es factible la extracción de tweets mediante herramientas diseñadas para el efecto o utilizando librerías libres en Python para el efecto.
Palabras clave
Referencias
Bernhardt, J. M., Alber, J., & Gold, R. S. (2014). A Social Media Primer for Professionals: Digital Dos and Don’ts. Health Promotion Practice, 15(2), 168–172. https://doi.org/10.1177/1524839913517235
Díaz-Galiano, Manuel C., Martínez-Cámara, E., Ángel García-Cumbreras, M., García-Vega, M., & Villena-Román, J. (2018). The democratization of deep learning in TASS 2017. Procesamiento de Lenguaje Natural, 60, 37–44. https://doi.org/10.26342/2018-60-4
Díaz-Galiano, Manuel Carlos, García-Cumbreras, M., García-Vega, M., Gutiérrez, Y., Martínez-Cámara, E., Piad-Morffis, A., & Villena-Román, J. (2019). TASS 2018: The strength of deep learning in language understanding tasks. Procesamiento de Lenguaje Natural, 62, 77–84. https://doi.org/10.26342/2019-62-9
Fantinuoli, C. (2016). Revisiting corpus creation and analysis tools for translation tasks. Cadernos de Tradução, 36(1), 62. https://doi.org/10.5007/2175-7968.2016v36nesp1p62
Fernández, J., Gutiérrez, Y., Gómez, J. M., & Martinez-Barco, P. (2015). GPLSI: Supervised Sentiment Analysis in Twitter using Skipgrams. 294–299. https://doi.org/10.3115/v1/s14-2048
Han, B., Cook, P., & Baldwin, T. (2014). Text-based twitter user geolocation prediction. Journal of Artificial Intelligence Research, 49, 451–500. https://doi.org/10.1613/jair.4200
Instituto de ingeniería del conocimiento, . Procesamiento del lenguaje natural ¿qué es? Recuperado de http://www.iic.uam.es/inteligencia/que-es-procesamiento-del-lenguaje-natural/. (2017).
Martínez-Cámara, E., Martín-Valdivia, M. T., Ureña-López, L. A., & Montejo-Ráez, A. R. (2014). Sentiment analysis in Twitter. Natural Language Engineering, 20(1), 1–28. https://doi.org/10.1017/S1351324912000332
Mrtinez, I. M. (2015). Rojo, Palacios, Corpus de aprendices de español (CAES). Journal of Spanish Language Teaching, Oxford, v. n.2, , . https://doi.org/10.1080/23247797..1084685. 2 DOI-1, 194–200.
Pitkowski, E. F., & Vásquez Gamarra, J. (2009). El uso de los corpus lingüísticos como herramienta pedagógica para la enseñanza y aprendizaje de ELE. Tinkuy: Boletín de Investigación y Debate, 11, 31–51. http://dialnet.unirioja.es/servlet/articulo?codigo=3303856&info=resumen&idioma=FRE
Pla, F., & Hurtado, L. F. (2014). Sentiment analysis in Twitter for Spanish. Lecture Notes in Computer Science (Including Subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 8455 LNCS, 208–213. https://doi.org/10.1007/978-3-319-07983-7_27
REST API. (2021). Twitter Developer Fecha de Consulta 11 de Febrero de Disponible En Httpsdevtwittercomrestpublic.
Schulz, A., Loza, E., Thanh, M. +, Dang, T., & Schmidt, B. (2014). Evaluating Multi-label Classification of Incident-related Tweets. CEUR Workshop Proceedings, 1141, 26–33. http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/
Streaming, A. P. I. (2021). Twitter Developers,[fecha de Consulta 11 de Febrero de ] Disponible en: https://dev.twitter.com/streaming/overview.
Villena-Román, J., & García-Morera, J. (2013). TASS 2013-Workshop on Sentiment Analysis at SEPLN 2013: An overview. XXIX Congreso de La Sociedad Española de Procesamiento de Lenguaje Natural (SEPLN 2013), 50, 37–44. http://www.daedalus.es/TASS2013/papers/tass2013-overview.pdf
DOI: https://doi.org/10.23857/pc.v6i11.3257
Enlaces de Referencia
- Por el momento, no existen enlaces de referencia
Polo del Conocimiento
Revista Científico-Académica Multidisciplinaria
ISSN: 2550-682X
Casa Editora del Polo
Manta - Ecuador
Dirección: Ciudadela El Palmar, II Etapa, Manta - Manabí - Ecuador.
Código Postal: 130801
Teléfonos: 056051775/0991871420
Email: polodelconocimientorevista@gmail.com / director@polodelconocimiento.com
URL: https://www.polodelconocimiento.com/