Fortgeschrittene Themen

Auf dieser Seite möchten wir weitere Details zu den Klassen und Funktionen geben, die im GitHub-Repository zu finden sind.

inference/linker.py

class EntityLinker

Erstellt eine Pipeline aus einem Entity-Recognition-Transformer und einem Sentence-Transformer zur Einbettung von Text.

Initialisierungsparameter

entity_model : str, Standard='tabiya/roberta-base-job-ner' Pfad zu einem vortrainierten AutoModelForTokenClassification Modell oder einem AutoModelCrfForNer Modell. Dieses Modell wird für die Entitätenerkennung im Eingabetext verwendet.

similarity_model : str, Standard='all-MiniLM-L6-v2' Pfad oder Name eines Sentence-Transformer-Modells, das für die Einbettung von Text verwendet wird. Der Sentence-Transformer wird verwendet, um Einbettungen für die extrahierten Entitäten und die Referenzsätze zu berechnen. Das Modell 'all-mpnet-base-v2' ist verfügbar, aber nicht im Cache, daher sollte es mit dem Parameter from_cache=False zumindest beim ersten Mal verwendet werden.

crf : bool, Standard=False Ein Flag, das angibt, ob anstelle eines Standard- AutoModelCrfForNer Modells AutoModelForTokenClassification. CRF (Conditional Random Field) Modelle werden verwendet, wenn die Aufgabe sequentielle Vorhersagen mit Abhängigkeiten zwischen den Ausgaben erfordert.

evaluation_mode : bool, Standard=False Wenn gesetzt auf True, gibt der Linker die Kosinusähnlichkeitswerte zwischen den Einbettungen zurück. Dieser Modus ist nützlich zur Bewertung der Qualität der Verknüpfungen.

k : int, Standard=32 Gibt die Anzahl der Elemente an, die aus den Referenzsätzen abgerufen werden sollen. Dieser Parameter begrenzt die Anzahl der Top-Treffer, die bei der Verknüpfung von Entitäten berücksichtigt werden.

from_cache : bool, Standard=True Wenn gesetzt auf True, werden die vorab berechneten Einbettungen aus dem Cache geladen, um Zeit zu sparen. Wenn gesetzt auf False, werden die Einbettungen zur Laufzeit berechnet, was für Effizienz GPU-Zugriff erfordert und zeitaufwändig sein kann.

output_format : str, Standard='occupation' Gibt das Ausgabeformat für Berufe an, entweder Beruf, preffered_label, esco_code, uuid oder all um alle Spalten zu erhalten. Das uuid ist auch für die Fähigkeiten verfügbar.

Aufrufparameter

text : str Eine beliebige stringbezogene Angabe zur Stellenanzeige.

linking : bool, Standard=True Gibt an, ob das Modell die Entitätsverknüpfung zur Taxonomie durchführt.

class FrenchEntityLinker

Französische Version des Entity Linkers. Um sie zu verwenden, müssen wir die Referenzdatenbanken auf die französische Version von ESCO umschreiben.

inference/evaluator.py

class Evaluator(EntityLinker)

Evaluator-Klasse, die vom Entity Linker erbt. Sie berechnet die Queries, das Korpus, das invertierte Korpus und die relevanten Dokumente für die InformationRetrievalEvaluatorarrow-up-right, führt Entitätsverknüpfung durch und berechnet die Metriken der Informationsbeschaffung.

Initialisierungsparameter

entity_type: str Occupation, Skill, or Qualification, um den genauen Evaluationssatz zu bestimmen, der verwendet werden soll.

util/transformersCRF.py

class CRF(nn.Module)

Implementiert von hierarrow-up-right.

Eine Klasse, die ein lineares Conditional Random Field-Modell erstellt.

class AutoModelForCrfPretrainedConfig(PretrainedConfig)

Konfigurationsklasse, die von PretrainedConfig arrow-up-rightHuggingFace-Klasse erbt.

class AutoModelCrfForNer(PreTrainedModel)

Eine allgemeine Klasse, die von PreTrainedModel HuggingFacearrow-up-right Klasse erbt. Der model_type wird automatisch erkannt.

model_type: str Mögliche Optionen umfassen BertCrfForNer, RobertaCrfForNer und DebertaCrfForNer.

class BERT_CRF_Config(PretrainedConfig)

Benutzerdefinierte Klasse zur Konfiguration von BERT für CRF.

class BertCrfForNer(PreTrainedModel)

BERT-basiertes CRF-Modell, das von PreTrainedModel HuggingFacearrow-up-right Klasse erbt.

Gleich wie PreTrainedModel HuggingFacearrow-up-right.

Forward-Parameter

Gleich wie PreTrainedModel HuggingFacearrow-up-right außer für

special_tokens_mask Standard: None. Wir verwenden diese Option von HuggingFace als kleinen Trick, um die für CRF benötigte special_mask zu implementieren.

class ROBERTA_CRF_Config(PretrainedConfig)

Benutzerdefinierte Klasse zur Konfiguration von RoBERTa für CRF.

class RobertaCrfForNer(PreTrainedModel)

RoBERTa-basiertes CRF-Modell, das von PreTrainedModel HuggingFacearrow-up-right Klasse erbt.

Gleich wie PreTrainedModel HuggingFacearrow-up-right.

Forward-Parameter

Gleich wie PreTrainedModel HuggingFacearrow-up-right außer für

special_tokens_mask Standard: None. Wir verwenden diese Option von HuggingFace als kleinen Trick, um die für CRF benötigte special_mask zu implementieren.

Klasse DEBERTA_CRF_Config(PretrainedConfig)

Benutzerdefinierte Klasse zur Konfiguration von RoBERTa für CRF.

class DebertaCrfForNer(PreTrainedModel)

RoBERTa-basiertes CRF-Modell, das von PreTrainedModel HuggingFacearrow-up-right Klasse erbt.

Gleich wie PreTrainedModel HuggingFacearrow-up-right.

Forward-Parameter

Gleich wie PreTrainedModel HuggingFacearrow-up-right außer für

special_tokens_mask Standard: None. Wir verwenden diese Option von HuggingFace als kleinen Trick, um die für CRF benötigte special_mask zu implementieren.

util/utilfunctions.py

class Config

Konfigurationsklasse für die training hyperparameters.

class CPU_Unpickler

Eine Klasse, die die Tensoren auf der CPU lädt.

Zuletzt aktualisiert