Erste Schritte

Installation

Voraussetzungen\

Eine aktuelle Version von git (z. B. ^2.37 )
Python 3.10 oder höher
Poetry 1.8 oder höher
Hinweis: Um Poetry zu installieren, konsultieren Sie die Poetry-Dokumentation
Hinweis: Installieren Sie Poetry systemweit (nicht in einem virtualenv).
Git LFS

Verwendung von Git LFS

Dieses Tool verwendet Git LFS zur Handhabung großer Dateien. Bevor Sie es verwenden, müssen Sie Git LFS auf Ihrem lokalen Rechner installieren und einrichten. Siehe https://git-lfs.com/ für Installationsanweisungen.

Nachdem Git LFS eingerichtet ist, folgen Sie diesen Schritten, um das Repository zu klonen:

git clone https://github.com/tabiya-tech/tabiya-livelihoods-classifier.git

Wenn Sie das Repository bereits ohne Git LFS geklont haben, führen Sie aus:

git lfs pull

Installieren Sie die Abhängigkeiten

Virtualenv einrichten

Im Stammverzeichnis des Backend-Projekts (also im selben Verzeichnis wie diese README-Datei) führen Sie die folgenden Befehle aus:

# Erstellen Sie eine virtuelle Umgebung
python3 -m venv venv

# Aktivieren Sie die virtuelle Umgebung
source venv/bin/activate

# Verwenden Sie die in der Lock-Datei angegebene Version der Abhängigkeiten
poetry lock --no-update
# Installieren Sie fehlende und entfernen Sie nicht referenzierte Pakete
poetry install --sync

Hinweis: Installieren Sie die Abhängigkeiten für das Training mit:

# Verwenden Sie die in der Lock-Datei angegebene Version der Abhängigkeiten
poetry lock --no-update
# Installieren Sie fehlende und entfernen Sie nicht referenzierte Pakete
poetry install --sync --with train

Hinweis: Bevor Sie irgendwelche Aufgaben ausführen, aktivieren Sie die virtuelle Umgebung, damit die installierten Abhängigkeiten verfügbar sind:
# Aktivieren Sie die virtuelle Umgebung
source venv/bin/activate
Um die virtuelle Umgebung zu deaktivieren, führen Sie aus:
# Deaktivieren Sie die virtuelle Umgebung
deactivate

Aktivieren Sie Python und laden Sie das NLTK-Zeichensetzpaket für den Satz-Tokenizer herunter. Sie müssen nur punkt einmal herunterladen.

python <<EOF
import nltk
nltk.download('punkt')
EOF

Umgebungsvariable & Konfiguration

Das Tool verwendet die folgende Umgebungsvariable:

HF_TOKEN: Um das Projekt zu verwenden, benötigen Sie Zugriff auf das HuggingFace 🤗 Entity-Extraction-Modell. Kontaktieren Sie die Administratoren über [[email protected]]. Von dort aus müssen Sie ein Lesezugriffs-Token erstellen, um das Modell zu verwenden. Finden oder erstellen Sie Ihr Lesezugriffs-Token hier. Das Backend unterstützt die Verwendung einer .env Datei zum Setzen der Umgebungsvariablen. Erstellen Sie eine .env Datei im Stammverzeichnis des Backend-Projekts und setzen Sie die Umgebungsvariablen wie folgt:

# .env Datei
HF_TOKEN=<YOUR_HF_TOKEN>

ACHTUNG: Die .env-Datei sollte sicher aufbewahrt und nicht mit anderen geteilt werden, da sie sensible Informationen enthält.

Schnellstart-Anleitung

Inference-Pipeline

Die Inference-Pipeline extrahiert Berufe und Fähigkeiten aus einer Stellenbeschreibung und ordnet sie den ähnlichsten Einträgen in der ESCO-Taxonomie zu.

Verwendung

Aktivieren Sie zuerst die virtuelle Umgebung wie erklärt hier.

Dann, starten Sie den Python-Interpreter im Stammverzeichnis und führen Sie die folgenden Befehle aus:

Laden Sie die EntityLinker Klasse und erstellen Sie eine Instanz der Klasse, führen Sie dann die Inferenz an beliebigem Text mit folgendem Code durch:

from inference.linker import EntityLinker
pipeline = EntityLinker(k=5)
text = 'We are looking for a Head Chef who can plan menus.'
extracted = pipeline(text)
print(extracted)

Nach Ausführung der obigen Befehle sollten Sie die folgende Ausgabe sehen:

[
  {'type': 'Occupation', 'tokens': 'Head Chef', 'retrieved': ['head chef', 'industrial head chef', 'head pastry chef', 'chef', 'kitchen chef']},
  {'type': 'Skill', 'tokens': 'plan menus', 'retrieved': ['plan menus', 'plan patient menus', 'present menus', 'plan schedule', 'plan engineering activities']}
]

Französische Version

Sie können die französische Version des Entity Linker mit folgendem Code verwenden:

from inference.linker import FrenchEntityLinker
pipeline = FrenchEntityLinker(entity_model = 'tabiya/camembert-large-job-ner', similarity_model = 'intfloat/multilingual-e5-base')

text = 'Nous recherchons un chef de cuisine capable de planifier les menus.'
extracted = pipeline(text)
print(extracted)

Sie sollten die folgende Ausgabe sehen:

[
  {'type': 'Occupation', 'tokens': 'chef de cuisine', 'retrieved': ['chef de cuisine', 'chef de marque', 'chef mécanicien', 'chef cuisinier/cheffe cuisinière', 'chef de train']}, 
  {'type': 'Skill', 'tokens': 'planifier les menus', 'retrieved': ['planifier les menus', 'présenter des menus', 'établir les menus des patients', 'préparer des plannings', 'préparer des plats préparés']}
]

Ausführen der Evaluierungstests

Laden Sie die Evaluator Klasse und geben Sie die Ergebnisse aus:

from inference.evaluator import Evaluator

results = Evaluator(entity_type='Skill', entity_model='tabiya/roberta-base-job-ner', similarity_model='all-MiniLM-L6-v2', crf=False, evaluation_mode=True)
print(results.output)

Diese Klasse erbt von der EntityLinker, wobei der Hauptunterschied das 'entity_type' Flag ist.

Wenn Sie Bewertungen für benutzerdefinierte Datensätze durchführen möchten, müssen Sie Änderungen an der _load_dataset Funktion vornehmen, die sich in der evaluation.py Datei befindet. Bitte beziehen Sie sich auf die ursprünglichen Evaluierungsdatensätze wie beschrieben hier. Wenn Sie Probleme haben, öffnen Sie bitte ein Issue auf GitHub.

Minimale Hardware

4 GB CPU/GPU-RAM

Der Code läuft auf GPU, falls verfügbar. Stellen Sie sicher, dass auf Ihrer Maschine CUDA installiert ist, wenn Sie auf GPU ausführen.

VorherigeLivelihoods Classifier NächsteWebanwendung

Zuletzt aktualisiert vor 2 Monaten

hashtagInstallation

hashtagVerwendung von Git LFS

hashtagInstallieren Sie die Abhängigkeiten

hashtagUmgebungsvariable & Konfiguration

hashtagSchnellstart-Anleitung

hashtagInference-Pipeline

hashtagVerwendung

hashtagFranzösische Version

hashtagAusführen der Evaluierungstests

hashtagMinimale Hardware

Installation

Verwendung von Git LFS

Installieren Sie die Abhängigkeiten

Umgebungsvariable & Konfiguration

Schnellstart-Anleitung

Inference-Pipeline

Verwendung

Französische Version

Ausführen der Evaluierungstests

Minimale Hardware