Perplejidad para medir relevancia de textos en un contexto específico

La perplejidad es una medida estadística de cuán confiadamente un modelo de lenguaje pre entrenado predice un texto. En otras palabras, la perplejidad cuantifica qué tan «sorprendido» está el modelo cuando ve nuevos datos. Cuanto menor sea la perplejidad, mejor será el modelo en predecir el texto (o el texto está más relacionado con el corpus con el cual se entrenó el modelo). 

 

En el siguiente ejemplo se usa el modelo pre entrenado “dmis-lab/biobert-base-cased-v1.2” para calcular la perplejidad de textos, y luego identificar cuál de ellas está más relacionada con temas biomédicos.

 

 

Estos son algunos posibles escenarios donde la perplejidad puede ser útil:

 

 

  • Limpieza de datos para identificar textos relacionados o no con área específica.

  •  

  • Evaluar la fluidez y coherencia del texto generado.

  •  

  • Detección de oraciones anómalas o atípicas dentro del conjunto de dato. Oraciones con una perplejidad inusualmente alta podrían sugerir errores o incoherencias en el texto.

  •  

  • Detectar errores gramaticales o terminológicos en el texto que necesitan corrección.

  •  

En este script (Python) se calcula la pérdida (loss) de las predicciones del modelo para el texto dado, y después se calcula la perplejidad utilizando la fórmula exp(loss / num_tokens).

 

El modelo “dmis-lab/biobert-base-cased-v1.2”  está disponible en la plataforma Huggins Face y se descarga a través de la librería Transformer. (ver script python)

 

perplexity-v2
× WhatsApp