Erste Schritte
Installation
Voraussetzungen\
Eine aktuelle Version von git (z. B. ^2.37 )
Hinweis: Um Poetry zu installieren, konsultieren Sie die Poetry-Dokumentation
Hinweis: Installieren Sie Poetry systemweit (nicht in einem virtualenv).
Verwendung von Git LFS
Dieses Tool verwendet Git LFS zur Handhabung großer Dateien. Bevor Sie es verwenden, müssen Sie Git LFS auf Ihrem lokalen Rechner installieren und einrichten. Siehe https://git-lfs.com/ für Installationsanweisungen.
Nachdem Git LFS eingerichtet ist, folgen Sie diesen Schritten, um das Repository zu klonen:
git clone https://github.com/tabiya-tech/tabiya-livelihoods-classifier.gitWenn Sie das Repository bereits ohne Git LFS geklont haben, führen Sie aus:
git lfs pullInstallieren Sie die Abhängigkeiten
Virtualenv einrichten
Im Stammverzeichnis des Backend-Projekts (also im selben Verzeichnis wie diese README-Datei) führen Sie die folgenden Befehle aus:
Hinweis: Installieren Sie die Abhängigkeiten für das Training mit:
Hinweis: Bevor Sie irgendwelche Aufgaben ausführen, aktivieren Sie die virtuelle Umgebung, damit die installierten Abhängigkeiten verfügbar sind:
Um die virtuelle Umgebung zu deaktivieren, führen Sie aus:
Aktivieren Sie Python und laden Sie das NLTK-Zeichensetzpaket für den Satz-Tokenizer herunter. Sie müssen nur punkt einmal herunterladen.
Umgebungsvariable & Konfiguration
Das Tool verwendet die folgende Umgebungsvariable:
HF_TOKEN: Um das Projekt zu verwenden, benötigen Sie Zugriff auf das HuggingFace 🤗 Entity-Extraction-Modell. Kontaktieren Sie die Administratoren über [[email protected]]. Von dort aus müssen Sie ein Lesezugriffs-Token erstellen, um das Modell zu verwenden. Finden oder erstellen Sie Ihr Lesezugriffs-Token hier. Das Backend unterstützt die Verwendung einer.envDatei zum Setzen der Umgebungsvariablen. Erstellen Sie eine.envDatei im Stammverzeichnis des Backend-Projekts und setzen Sie die Umgebungsvariablen wie folgt:
ACHTUNG: Die .env-Datei sollte sicher aufbewahrt und nicht mit anderen geteilt werden, da sie sensible Informationen enthält.
Schnellstart-Anleitung
Inference-Pipeline
Die Inference-Pipeline extrahiert Berufe und Fähigkeiten aus einer Stellenbeschreibung und ordnet sie den ähnlichsten Einträgen in der ESCO-Taxonomie zu.
Verwendung
Aktivieren Sie zuerst die virtuelle Umgebung wie erklärt hier.
Dann, starten Sie den Python-Interpreter im Stammverzeichnis und führen Sie die folgenden Befehle aus:
Laden Sie die EntityLinker Klasse und erstellen Sie eine Instanz der Klasse, führen Sie dann die Inferenz an beliebigem Text mit folgendem Code durch:
Nach Ausführung der obigen Befehle sollten Sie die folgende Ausgabe sehen:
Französische Version
Sie können die französische Version des Entity Linker mit folgendem Code verwenden:
Sie sollten die folgende Ausgabe sehen:
Ausführen der Evaluierungstests
Laden Sie die Evaluator Klasse und geben Sie die Ergebnisse aus:
Diese Klasse erbt von der EntityLinker, wobei der Hauptunterschied das 'entity_type' Flag ist.
Wenn Sie Bewertungen für benutzerdefinierte Datensätze durchführen möchten, müssen Sie Änderungen an der _load_dataset Funktion vornehmen, die sich in der evaluation.py Datei befindet. Bitte beziehen Sie sich auf die ursprünglichen Evaluierungsdatensätze wie beschrieben hier. Wenn Sie Probleme haben, öffnen Sie bitte ein Issue auf GitHub.
Minimale Hardware
4 GB CPU/GPU-RAM
Der Code läuft auf GPU, falls verfügbar. Stellen Sie sicher, dass auf Ihrer Maschine CUDA installiert ist, wenn Sie auf GPU ausführen.
Zuletzt aktualisiert