Métodos de extracción de comentarios de la red social Twitter para uso en Procesamiento de Lenguaje Natural

César Espin Riofrio, Angélica Cruz Chóez, Johanna Zumba Gamboa

Resumen


En la actualidad, el avance tecnológico en el desarrollo de herramientas para la extracción de comentarios de las redes sociales y páginas web está dando pasos agigantados, la evolución de la web ha obligado a todas las organizaciones a adaptarse a este fenómeno digital. Las grandes corporaciones han desarrollado e implementado sus propias APIs en las plataformas de mayor concurrencia de usuarios en redes sociales como lo son Facebook, YouTube, WhatsApp, Instagram, Twitter y también la creación de herramientas web scraping para plataformas que no cuentan con estas. Es de mucha importancia contar con un corpus de datos que permitan ser analizados en tareas relacionadas al Procesamiento de Lenguaje Natural.  Como objetivo del presente trabajo se realizan pruebas de herramientas de extracción de comentarios de la red social Twitter. El método utilizado para extraer comentarios de Twitter es a través de las APIs de tipo Rest y Streaming y una herramienta web scraping. Estos comentarios son indexados y para ser enviados a una base de datos no relacional que maneja grandes volúmenes de información.  Como resultado se verifica la capacidad de extracción de las herramientas creando un corpus con comentarios de Twitter para análisis utilizando técnicas de Procesamiento de Lenguaje Natural (PLN).  Se concluye que es factible la extracción de tweets mediante herramientas diseñadas para el efecto o utilizando librerías libres en Python para el efecto.


Palabras clave


Procesamiento de Lenguaje Natural; Twitter; web scraping; corpus.

Texto completo:

PDF HTML XML

Referencias


Bernhardt, J. M., Alber, J., & Gold, R. S. (2014). A Social Media Primer for Professionals: Digital Dos and Don’ts. Health Promotion Practice, 15(2), 168–172. https://doi.org/10.1177/1524839913517235

Díaz-Galiano, Manuel C., Martínez-Cámara, E., Ángel García-Cumbreras, M., García-Vega, M., & Villena-Román, J. (2018). The democratization of deep learning in TASS 2017. Procesamiento de Lenguaje Natural, 60, 37–44. https://doi.org/10.26342/2018-60-4

Díaz-Galiano, Manuel Carlos, García-Cumbreras, M., García-Vega, M., Gutiérrez, Y., Martínez-Cámara, E., Piad-Morffis, A., & Villena-Román, J. (2019). TASS 2018: The strength of deep learning in language understanding tasks. Procesamiento de Lenguaje Natural, 62, 77–84. https://doi.org/10.26342/2019-62-9

Fantinuoli, C. (2016). Revisiting corpus creation and analysis tools for translation tasks. Cadernos de Tradução, 36(1), 62. https://doi.org/10.5007/2175-7968.2016v36nesp1p62

Fernández, J., Gutiérrez, Y., Gómez, J. M., & Martinez-Barco, P. (2015). GPLSI: Supervised Sentiment Analysis in Twitter using Skipgrams. 294–299. https://doi.org/10.3115/v1/s14-2048

Han, B., Cook, P., & Baldwin, T. (2014). Text-based twitter user geolocation prediction. Journal of Artificial Intelligence Research, 49, 451–500. https://doi.org/10.1613/jair.4200

Instituto de ingeniería del conocimiento, . Procesamiento del lenguaje natural ¿qué es? Recuperado de http://www.iic.uam.es/inteligencia/que-es-procesamiento-del-lenguaje-natural/. (2017).

Martínez-Cámara, E., Martín-Valdivia, M. T., Ureña-López, L. A., & Montejo-Ráez, A. R. (2014). Sentiment analysis in Twitter. Natural Language Engineering, 20(1), 1–28. https://doi.org/10.1017/S1351324912000332

Mrtinez, I. M. (2015). Rojo, Palacios, Corpus de aprendices de español (CAES). Journal of Spanish Language Teaching, Oxford, v. n.2, , . https://doi.org/10.1080/23247797..1084685. 2 DOI-1, 194–200.

Pitkowski, E. F., & Vásquez Gamarra, J. (2009). El uso de los corpus lingüísticos como herramienta pedagógica para la enseñanza y aprendizaje de ELE. Tinkuy: Boletín de Investigación y Debate, 11, 31–51. http://dialnet.unirioja.es/servlet/articulo?codigo=3303856&info=resumen&idioma=FRE

Pla, F., & Hurtado, L. F. (2014). Sentiment analysis in Twitter for Spanish. Lecture Notes in Computer Science (Including Subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 8455 LNCS, 208–213. https://doi.org/10.1007/978-3-319-07983-7_27

REST API. (2021). Twitter Developer Fecha de Consulta 11 de Febrero de Disponible En Httpsdevtwittercomrestpublic.

Schulz, A., Loza, E., Thanh, M. +, Dang, T., & Schmidt, B. (2014). Evaluating Multi-label Classification of Incident-related Tweets. CEUR Workshop Proceedings, 1141, 26–33. http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/

Streaming, A. P. I. (2021). Twitter Developers,[fecha de Consulta 11 de Febrero de ] Disponible en: https://dev.twitter.com/streaming/overview.

Villena-Román, J., & García-Morera, J. (2013). TASS 2013-Workshop on Sentiment Analysis at SEPLN 2013: An overview. XXIX Congreso de La Sociedad Española de Procesamiento de Lenguaje Natural (SEPLN 2013), 50, 37–44. http://www.daedalus.es/TASS2013/papers/tass2013-overview.pdf




DOI: https://doi.org/10.23857/pc.v6i11.3257

Enlaces de Referencia

  • Por el momento, no existen enlaces de referencia
';





Polo del Conocimiento              

Revista Científico-Académica Multidisciplinaria

ISSN: 2550-682X

Casa Editora del Polo                                                 

Manta - Ecuador       

Dirección: Ciudadela El Palmar, II Etapa,  Manta - Manabí - Ecuador.

Código Postal: 130801

Teléfonos: 056051775/0991871420

Email: polodelconocimientorevista@gmail.com / director@polodelconocimiento.com

URL: https://www.polodelconocimiento.com/