Training

Trainieren Sie Ihr Modell zur Entitätsextraktion mit PyTorch.

Aktivieren Sie zuerst die virtuelle Umgebung wie erklärt hier.

Trainieren eines Modells zur Entitätsextraktion

Konfigurieren Sie die notwendigen Hyperparameter in der config.json-Datei. Die Standardwerte sind:

{
    "model_name": "bert-base-cased",
    "crf": false,
    "dataset_path": "tabiya/job_ner_dataset",   
    "label_list": ["O", "B-Skill", "B-Qualification", "I-Domain", "I-Experience", "I-Qualification", "B-Occupation", "B-Domain", "I-Occupation", "I-Skill", "B-Experience"],
    "model_max_length": 128,
    "batch_size": 32,
    "learning_rate": 1e-4,
    "epochs": 4,
    "weight_decay": 0.01,
    "save": false,
    "output_path": "bert_job_ner"
}

Um das Modell zu trainieren, führen Sie das folgende Script im train Verzeichnis aus:

python train.py

Das Trainingsskript basiert auf dem official HuggingFace token classification tutorialarrow-up-right.

Trainieren eines Modells zur Entitätsähnlichkeit

Konfigurieren Sie die notwendigen Hyperparameter in der sbert_train Funktion in der Datei sbert_train.py:

Um das Ähnlichkeitsmodell zu trainieren, führen Sie das folgende Script im train Verzeichnis aus:

Der Datensatz sollte als CSV-Datei mit zwei Spalten formatiert sein, wie z. B. 'title' und 'esco_label', wobei jede Zeile ein Paar zusammenhängender Textdaten enthält, die während des Trainings verwendet werden sollen. Stellen Sie sicher, dass in Ihrem Datensatz keine fehlenden Werte vorhanden sind, um ein erfolgreiches Training des Modells zu gewährleisten. Hier ein Beispiel, wie Ihre CSV-Datei aussehen könnte:

Titel
esco_label

Senior Conflict Manager

Leiter einer öffentlichen Einrichtung

usw

usw

Weitere Informationen finden Sie hier.

Zuletzt aktualisiert