Entrenamiento

Entrena tu modelo de extracción de entidades usando PyTorch.

Primero, active el entorno virtual como se explicó aquí.

Entrenar un Modelo de Extracción de Entidades

Configura los hiperparámetros necesarios en el archivo config.json. Los valores por defecto son:

{
    "model_name": "bert-base-cased",
    "crf": false,
    "dataset_path": "tabiya/job_ner_dataset",   
    "label_list": ["O", "B-Skill", "B-Qualification", "I-Domain", "I-Experience", "I-Qualification", "B-Occupation", "B-Domain", "I-Occupation", "I-Skill", "B-Experience"],
    "model_max_length": 128,
    "batch_size": 32,
    "learning_rate": 1e-4,
    "epochs": 4,
    "weight_decay": 0.01,
    "save": false,
    "output_path": "bert_job_ner"
}

Para entrenar el modelo, ejecuta el siguiente script en el train directorio:

python train.py

El script de entrenamiento se basa en el tutorial oficial de HuggingFace sobre clasificación de tokensarrow-up-right.

Entrenar un Modelo de Similitud de Entidades

Configura los hiperparámetros necesarios en la sbert_train función en el archivo sbert_train.py:

Para entrenar el modelo de similitud, ejecuta el siguiente script en el train directorio:

El conjunto de datos debe estar formateado como un archivo CSV con dos columnas, como 'title' y 'esco_label', donde cada fila contiene un par de puntos de datos textuales relacionados para usarse durante el proceso de entrenamiento. Asegúrate de que no haya valores faltantes en tu conjunto de datos para garantizar un entrenamiento exitoso del modelo. Aquí hay un ejemplo de cómo podría verse tu archivo CSV:

título
esco_label

Gerente Senior de Conflictos

director de institución pública

etc

etc

Se puede encontrar más información aquí.

Última actualización