La semana pasada tuve la oportunidad de asistir a la conferencia CARMA 2024, un evento enfocado en los métodos avanzados de investigación y análisis en las ciencias sociales y la economía, aprovechando las fuentes de información de Internet y Big Data. Durante la conferencia, se presentaron varios trabajos que utilizaban técnicas de aprendizaje automático y minería de texto para analizar grandes volúmenes de datos no estructurados. Por eso, en este artículo me gustaría compartir todas aquellas herramientas que, como estudiante en ciencia de datos, desconocía y que me parecieron muy interesantes:
Herramientas de análisis.
Sentiment Analysis:
Es una técnica que permite analizar el sentimiento de un texto, es decir, si es positivo, negativo o neutral. Uno de los usos que observé en los trabajos y que me pareció más interesante fue el análisis de sentimiento en redes sociales, donde se analizaba la opinión de los usuarios en tweets sobre un tema específico.
En este caso, uno de los trabajos que más me llamó la atención fue un análisis de los tweets que se publicaron durante el evento de Eurovisión, donde se analizaba el sentimiento de los usuarios en función de la actuación de cada país. Los resultados fueron muy interesantes, ya que se confeccionó un ranking basado en este estudio el cual se comparó con el ranking oficial del evento.
Podéis ver el artículo completo en el siguiente enlace: The use of non-official data source for the analysis of public events: evidences from the Eurovision Song Contest 2022.
Topic Modelling:
El topic modelling es una técnica de aprendizaje no supervisado que permite descubrir los temas o tópicos que subyacen en un conjunto de documentos. Durante la conferencia, muchos trabajos la utilizaron como herramienta principal, incluso hubo un taller específico sobre esta técnica (próximamente publicaré un artículo sobre este taller).
Google Trends:
Esta herramienta es muy útil para analizar la popularidad de un término en el tiempo. Honestamente, desconocía su existencia, pero al ver que fue muy usada en bastantes papers, decidí investigar un poco más sobre ella.
En esencia, Google Trends te permite ver la popularidad de un término en el tiempo, mostrando la evolución de las búsquedas en Google. Además, puedes comparar varios términos y ver cómo se relacionan entre sí. Por ejemplo, puedes comparar la popularidad de “Python” y “R” en el tiempo y ver cuál es más popular en cada momento.
Esto se ha utilizado en diferentes trabajos durante toda la conferencia, aunque el que más me llamó la atención fue el titulado como Google Trends Forecasting of Youth Unemployment. En este trabajo, se utilizó Google Trends (entre otras herramientas) para predecir la tasa de desempleo juvenil.
Podéis ver el artículo completo en el siguiente enlace: Google Trends Forecasting of Youth Unemployment
Data collection.
Después de cada presentación, había una ronda de preguntas, y me sorprendió genuinamente ver cómo después de cada presentación, los oyentes preguntaban siempre sobre la recopilación de datos. Esto muestra uno de los mayores desafíos a la hora de trabajar con datos no estructurados: la recopilación de datos.
Aquí os dejo algunos de los métodos de recopilación de datos que se presentaron en la conferencia y que me parecieron muy interesantes:
Uso de Google Trends para ver la popularidad de un tema en el tiempo:
Como mencioné anteriormente, Google Trends es una herramienta muy útil para analizar la popularidad de un término en el tiempo. Durante la conferencia, se presentaron varios trabajos que utilizaron esta herramienta para recopilar datos y analizar la evolución de un tema en el tiempo. En conjunto, me pareció muy interesante cómo se puede utilizar esta herramienta para recopilar datos y analizar tendencias, no solo de un término, sino también de varios términos a la vez.
Encuestas Likert:
Este evento estaba repleto de gente que provenía de instituciones importantes, es por ello que contaban con el poder de realizar encuestas Likert a gran escala.
Las encuestas Likert son unas encuestas que permiten a los encuestados expresar su grado de acuerdo o desacuerdo con una serie de afirmaciones. Durante la conferencia, se presentaron varios trabajos que utilizaron encuestas Likert para recopilar datos y analizar la opinión de los encuestados sobre un tema específico:
Métodos más comunes:
Pese a haber muchas formas innovadoras de recopilar datos, siempre hay métodos más comunes que se siguen utilizando:
- Web Scraping: Es una técnica que permite extraer información de páginas web.
- SABI: Software de análisis de la información que incluye información de más de 3 millones de empresas nacionales.
- Uso de APIs
Conclusiones.
En resumen, la conferencia CARMA 2024 fue una experiencia muy enriquecedora para mí, ya que pude aprender sobre nuevas herramientas y técnicas de análisis de datos que desconocía. Además, pude ver cómo se utilizan estas herramientas en la práctica para analizar grandes volúmenes de datos no estructurados.
Desde aquí, agradecer la invitación a mi profesor y organizador de la conferencia, Josep Domenech, por darme la oportunidad de asistir a este evento y aprender tanto sobre métodos avanzados de investigación y análisis en las ciencias sociales y la economía.