Datensätze
Referenzsätze
Berufe
Standort: inference/files/occupations_augmented.csv
Quelle: ESCO-Datensatz - v1.1.1
Beschreibung: ESCO (European Skills, Competences, Qualifications and Occupations) ist die mehrsprachige europäische Klassifikation von Fähigkeiten, Kompetenzen und Berufen. Dieser Datensatz enthält Informationen, die für die Berufe relevant sind.
Lizenz: Creative Commons Attribution 4.0 International siehe DATA_LICENSE für Details.
Änderungen: Die beibehaltenen Spalten sind
alt_label,preferred_label,esco_code, unduuid. Jede alternative Bezeichnung wurde in einzelne Zeilen aufgeteilt.
Fähigkeiten
Standort: inference/files/skills.csv
Quelle: ESCO-Datensatz - v1.1.1
Beschreibung: ESCO (European Skills, Competences, Qualifications and Occupations) ist die mehrsprachige europäische Klassifikation von Fähigkeiten, Kompetenzen und Berufen. Dieser Datensatz enthält Informationen, die für die Fähigkeiten relevant sind.
Lizenz: Creative Commons Attribution 4.0 International siehe Data License für Details.
Änderungen: Die beibehaltenen Spalten sind
preferred_labelunduuid.
Qualifikationen
Standort: inference/files/qualifications.csv
Beschreibung: Dieser Datensatz enthält EQF (European Qualifications Framework)-relevante Informationen, die von der offiziellen EQF-Vergleichswebsite extrahiert wurden. Er umfasst Datenstrings, Länderinformationen und EQF-Stufen. Nicht englischer Text wurde ignoriert.
Lizenz: Bitte beziehen Sie sich für Lizenzinformationen.
Änderungen: Nicht englischer Text wurde entfernt und die verbleibenden Informationen in eine strukturierte Datenbank formatiert.
Für die französische Version des Werkzeugs verwenden wir die französische Version von ESCO v1.1.1 sowie eine Übersetzung der Qualifikationen mithilfe der Google Translation API.
Trainingssätze
Entitätsextraktion
Ort: job_ner_dataset
Quelle: Green Benchmark Korpus
Beschreibung: Dieser Datensatz bietet eine umfassende Benchmark-Suite für die Entitätenerkennung (ER) in Stellenbeschreibungen. Entwickelt, um die erhebliche Lücke an Ressourcen für das Extrahieren wichtiger Entitäten wie Fähigkeiten aus Stellenbeschreibungen zu schließen, enthält der Datensatz 18,6k annotierte Entitäten in fünf Kategorien: Skill, Qualification, Experience, Occupation und Domain.
Lizenz: CC-BY-NC-4.0
Änderungen: Am Originaldatensatz wurden keine Änderungen vorgenommen. Er wurde nur in das HuggingFace-Format konvertiert.
Entitätsähnlichkeit
Ort: TBD
Quelle: hahu-occupation-titles
Beschreibung:
Die
hahu_test.csvDatei ist die Originaldatei, die von Hahu Jobs mit den folgenden Feldern bereitgestellt wurde:title: Der Titel der Stelle, der die spezifische Rolle und/oder Position innerhalb der Organisation angibt.
esco_label: Das von ESCO angegebene bevorzugte oder alternative Label, das dem entsprechenden ESCO-Code entspricht.
esco_code: Der mit der Stelle verbundene ESCO-Code, der eine standardisierte Klassifizierung und den Vergleich zwischen verschiedenen Stellenangeboten ermöglicht.
Lizenz: CC-BY-NC-4.0
Änderungen: Extrahierter Berufstitel und relevanter ESCO-Code und Abgleich mit bevorzugten und alternativen Bezeichnungen.
Evaluationssätze
Hahu-Test
Standort: inference/files/eval/redacted_hahu_test_with_id.csv
Quelle: hahu_test
Beschreibung: Dieser Datensatz besteht aus 542 Einträgen, die zufällig aus dem 11 allgemeinen Klassifikationssystem der äthiopischen Hahu-Jobs-Plattform ausgewählt wurden. 50 Einträge wurden aus jeder Klasse ausgewählt, um den endgültigen Datensatz zu erstellen.
Lizenz: Creative Commons Attribution 4.0 International siehe Data License für Details.
Änderungen: An den ausgewählten Einträgen wurden keine Änderungen vorgenommen.
House und Tech
Standort:
inference/files/eval/house_test_annotations.csv
inference/files/eval/house_validation_annotations.csv
inference/files/eval/tech_test_annotations.csv
inference/files/eval/tech_validation_annotations.csv
Quelle: Bereitgestellt von Decorte et al.
Beschreibung: Der Datensatz enthält die HOUSE- und TECH-Erweiterungen des SkillSpan-Datensatzes. In der Originalarbeit von Decorte et al. wurden die Test- und Entwicklungsentitäten des SkillSpan-Datensatzes in das ESCO-Modell annotiert.
Lizenz: MIT, bitte beziehen Sie sich auf die Originalquelle.
Änderungen: Die Datensätze wurden wie bereitgestellt ohne weitere Änderungen verwendet.
Qualifikationszuordnung
Standort: inference/files/eval/qualification_mapping.csv
Quelle: Erweitert vom Green Benchmark Qualifikationen
Beschreibung: Dieser Datensatz ordnet die Qualifikationen des Green Benchmark den entsprechenden EQF-Stufen zu. Zwei Annotatoren markierten die Qualifikationen, was zu einer Cohen-Kappa-Übereinstimmung von 0,45 führte, was auf eine mittlere Übereinstimmung hinweist.
Lizenz: Creative Commons Attribution 4.0 International siehe Data License für Details.
Änderungen: Der Datensatz wurde erweitert, um EQF-Stufenzuordnungen zu enthalten, und die Annotationen wurden von zwei Annotatoren überprüft.
Zugang und Nutzung
Um diese Datensätze zu verwenden, stellen Sie sicher, dass Sie die Lizenz und die Nutzungsbedingungen des Originaldatensatzes einhalten. Alle vorgenommenen Änderungen sollten dokumentiert und angemessen Ihrem Projekt zugeschrieben werden.
Für Datensätze, die Zugriffstoken erfordern, wie z. B. solche von HuggingFace 🤗, kontaktieren Sie bitte die Verantwortlichen.
Zuletzt aktualisiert