Comparación en el uso de palabras ✍

A continuación, se estudia qué palabras se utilizan de forma más diferenciada por cada persona, es decir, palabras que utiliza mucho "Andi", y que no utiliza "Gastón" y viceversa.

En base a nuestras investigaciones, una forma de hacer este análisis es mediante el log of odds ratio de las frecuencias. Matemáticamente expresado, la fórmula quedaría de la siguiente manera:

$log of odds ratio=log([nk+1N+1]Gastón[nk+1N+1]Andi)$

Source of math symbols: https://csrgxtu.github.io/2015/03/20/Writing-Mathematic-Fomulars-in-Markdown/

donde $nk$ es el número de veces que aparece el término $k$ en toda la conversación, y N el número total de términos de cada transmitter.

Para realizar este cálculo, es necesario que, para ambos usuarios, Gastón y Andi, se cuantifique la frecuencia de cada una de las palabras que aparecen en la conversación de WhatsApp. En términos lógicos, si un usuario no usó una de las palabras que sí usó el otro, esa palabra aparecerá en su registro con una frecuencia = 0. Según nuestros estudios, existen varias formas de conseguir esto, una de ellas es pivotar y despivotar el dataframe sustituyendo los NaN por cero (0).

PreviousCorrelación entre usuarios NextVectorización: Term Frecuency & Inverse Document Frequency

Last updated 3 years ago