Modelo BilmaLat

Este modelo basado en Roberta se entrenó usando más de 600 millones de tweets en español recolectados entre diciembre del 2015 y febrero del 2023. A cada mensaje se le agruegó una etiqueta de información regionalizada como sigue:

_cc _year _mo Texto del mensaje.

donde _cc es el código de dos letras del país de origen del mensaje, _year y _mo son el año y el mes de publicación.

Por ejemplo

  • _do _2017 _09 Y que es lo que uno va hacer con _usr ? E ponen hoy mi Plan de dato y con 5 minutos de eso se acabó _usr _usr 😤😤
  • _ve _2016 _08 No te necesito, ni quiero morir por ti me sobran las razones para andar este camino pero que sentido tiene, yo te vi entre tanta gente
  • _ar _2020 _03 soy demasiado buena para todo el mundo y se viven cagando en mí, que hago? me vuelvo una forra de mierda así me valoran?
  • _mx _2019 _12 Felicidades para la nueva pareja, y para usted tambien. Gracias por el pedazo de pastel. _url
  • _mx _2022 _01 Mayra, lectora de "El psicoanalista" del escritor estadounidense John Katzenbach. Felicidades. _url
  • _es _2020 _05 _usr Ansias no ,lo tradicional es en semana Santa helados Durán, vamos con retraso, tenemos que recuperar los helados perdidos, jajajaja

Como se puede observar, se mantuvieron mayúsculas y minúsculas, emoticones y palabras mal escritas. Por motivos de privacidad, se cambiaron las menciones de usuario por el token _usr y las direcciones de internet por _url.

Los tokens que se usaron para los códigos de los paíes son:

País Código
Argentina _ar
Bolivia _bo
Colombia _co
Costa Rica _cr
Chile _cl
Cuba _cu
Ecuador _ec
El Salvador _sv
España _es
Guatemala _gt
Honduras _hn
México _mx
Nicaragua _ni
Panamá _pa
Paraguay _py
Perú _pe
República Dominicana _do
Uruguay _uy
Venezuela _ve

Los años son _2015 a _2023 y los meses _01 hasta _12.

Se creó el vocabulario de tamaño 30k usando WordPiece. El modelo se entrenaron usando el enmascaramiento de palabras con probabilidad de 0.15. Se usó el optimizador AdamW con una tasa de aprendizaje de 0.00002 durante una época.

Uso

El modelo se puede usar con una pipeline:

from transformers import pipeline
unmasker = pipeline('fill-mask', model="guillermoruiz/bilmaLAT")
Downloads last month
40
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support