Datensätze

Referenzsätze

Berufe

  • Standort: inference/files/occupations_augmented.csv

  • Beschreibung: ESCO (European Skills, Competences, Qualifications and Occupations) ist die mehrsprachige europäische Klassifikation von Fähigkeiten, Kompetenzen und Berufen. Dieser Datensatz enthält Informationen, die für die Berufe relevant sind.

  • Lizenz: Creative Commons Attribution 4.0 International siehe DATA_LICENSE für Details.

  • Änderungen: Die beibehaltenen Spalten sind alt_label, preferred_label, esco_code, und uuid. Jede alternative Bezeichnung wurde in einzelne Zeilen aufgeteilt.

Fähigkeiten

  • Standort: inference/files/skills.csv

  • Beschreibung: ESCO (European Skills, Competences, Qualifications and Occupations) ist die mehrsprachige europäische Klassifikation von Fähigkeiten, Kompetenzen und Berufen. Dieser Datensatz enthält Informationen, die für die Fähigkeiten relevant sind.

  • Lizenz: Creative Commons Attribution 4.0 International siehe Data License für Details.

  • Änderungen: Die beibehaltenen Spalten sind preferred_label und uuid.

Qualifikationen

  • Standort: inference/files/qualifications.csv

  • Beschreibung: Dieser Datensatz enthält EQF (European Qualifications Framework)-relevante Informationen, die von der offiziellen EQF-Vergleichswebsite extrahiert wurden. Er umfasst Datenstrings, Länderinformationen und EQF-Stufen. Nicht englischer Text wurde ignoriert.

  • Lizenz: Bitte beziehen Sie sich für Lizenzinformationenarrow-up-right.

  • Änderungen: Nicht englischer Text wurde entfernt und die verbleibenden Informationen in eine strukturierte Datenbank formatiert.

Für die französische Version des Werkzeugs verwenden wir die französische Version von ESCO v1.1.1 sowie eine Übersetzung der Qualifikationen mithilfe der Google Translation API.

Trainingssätze

Entitätsextraktion

  • Beschreibung: Dieser Datensatz bietet eine umfassende Benchmark-Suite für die Entitätenerkennung (ER) in Stellenbeschreibungen. Entwickelt, um die erhebliche Lücke an Ressourcen für das Extrahieren wichtiger Entitäten wie Fähigkeiten aus Stellenbeschreibungen zu schließen, enthält der Datensatz 18,6k annotierte Entitäten in fünf Kategorien: Skill, Qualification, Experience, Occupation und Domain.

  • Lizenz: CC-BY-NC-4.0

  • Änderungen: Am Originaldatensatz wurden keine Änderungen vorgenommen. Er wurde nur in das HuggingFace-Format konvertiert.

Entitätsähnlichkeit

  • Ort: TBD

  • Beschreibung:

    Die hahu_test.csv Datei ist die Originaldatei, die von Hahu Jobs mit den folgenden Feldern bereitgestellt wurde:

    • title: Der Titel der Stelle, der die spezifische Rolle und/oder Position innerhalb der Organisation angibt.

    • esco_label: Das von ESCO angegebene bevorzugte oder alternative Label, das dem entsprechenden ESCO-Code entspricht.

    • esco_code: Der mit der Stelle verbundene ESCO-Code, der eine standardisierte Klassifizierung und den Vergleich zwischen verschiedenen Stellenangeboten ermöglicht.

  • Lizenz: CC-BY-NC-4.0

  • Änderungen: Extrahierter Berufstitel und relevanter ESCO-Code und Abgleich mit bevorzugten und alternativen Bezeichnungen.

Evaluationssätze

Hahu-Test

  • Standort: inference/files/eval/redacted_hahu_test_with_id.csv

  • Beschreibung: Dieser Datensatz besteht aus 542 Einträgen, die zufällig aus dem 11 allgemeinen Klassifikationssystem der äthiopischen Hahu-Jobs-Plattform ausgewählt wurden. 50 Einträge wurden aus jeder Klasse ausgewählt, um den endgültigen Datensatz zu erstellen.

  • Lizenz: Creative Commons Attribution 4.0 International siehe Data License für Details.

  • Änderungen: An den ausgewählten Einträgen wurden keine Änderungen vorgenommen.

House und Tech

  • Standort:

    • inference/files/eval/house_test_annotations.csv

    • inference/files/eval/house_validation_annotations.csv

    • inference/files/eval/tech_test_annotations.csv

    • inference/files/eval/tech_validation_annotations.csv

  • Quelle: Bereitgestellt von Decorte et al.arrow-up-right

  • Beschreibung: Der Datensatz enthält die HOUSE- und TECH-Erweiterungen des SkillSpan-Datensatzes. In der Originalarbeit von Decorte et al. wurden die Test- und Entwicklungsentitäten des SkillSpan-Datensatzes in das ESCO-Modell annotiert.

  • Lizenz: MIT, bitte beziehen Sie sich auf die Originalquelle.

  • Änderungen: Die Datensätze wurden wie bereitgestellt ohne weitere Änderungen verwendet.

Qualifikationszuordnung

  • Standort: inference/files/eval/qualification_mapping.csv

  • Quelle: Erweitert vom Green Benchmarkarrow-up-right Qualifikationen

  • Beschreibung: Dieser Datensatz ordnet die Qualifikationen des Green Benchmark den entsprechenden EQF-Stufen zu. Zwei Annotatoren markierten die Qualifikationen, was zu einer Cohen-Kappa-Übereinstimmung von 0,45 führte, was auf eine mittlere Übereinstimmung hinweist.

  • Lizenz: Creative Commons Attribution 4.0 International siehe Data License für Details.

  • Änderungen: Der Datensatz wurde erweitert, um EQF-Stufenzuordnungen zu enthalten, und die Annotationen wurden von zwei Annotatoren überprüft.

Zugang und Nutzung

Um diese Datensätze zu verwenden, stellen Sie sicher, dass Sie die Lizenz und die Nutzungsbedingungen des Originaldatensatzes einhalten. Alle vorgenommenen Änderungen sollten dokumentiert und angemessen Ihrem Projekt zugeschrieben werden.

circle-info

Für Datensätze, die Zugriffstoken erfordern, wie z. B. solche von HuggingFace 🤗, kontaktieren Sie bitte die Verantwortlichen.

Zuletzt aktualisiert