> For the complete documentation index, see [llms.txt](https://docs.tabiya.org/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.tabiya.org/tabiya-documentation/deutsch/unser-tech-stack/livelihoods-classifier/datasets.md).

# Datensätze

## Referenzsätze

#### Berufe

* **Standort**: inference/files/occupations\_augmented.csv
* **Quelle**: [ESCO-Datensatz - v1.1.1](https://esco.ec.europa.eu/en/use-esco/download)
* **Beschreibung**: ESCO (European Skills, Competences, Qualifications and Occupations) ist die mehrsprachige europäische Klassifikation von Fähigkeiten, Kompetenzen und Berufen. Dieser Datensatz enthält Informationen, die für die Berufe relevant sind.
* **Lizenz**: Creative Commons Attribution 4.0 International siehe DATA\_LICENSE für Details.
* **Änderungen**: Die beibehaltenen Spalten sind `alt_label`, `preferred_label`, `esco_code`, und `uuid`. Jede alternative Bezeichnung wurde in einzelne Zeilen aufgeteilt.

#### Fähigkeiten

* **Standort**: inference/files/skills.csv
* **Quelle**: [ESCO-Datensatz - v1.1.1](https://esco.ec.europa.eu/en/use-esco/download)
* **Beschreibung**: ESCO (European Skills, Competences, Qualifications and Occupations) ist die mehrsprachige europäische Klassifikation von Fähigkeiten, Kompetenzen und Berufen. Dieser Datensatz enthält Informationen, die für die Fähigkeiten relevant sind.
* **Lizenz**: Creative Commons Attribution 4.0 International siehe Data License für Details.
* **Änderungen**: Die beibehaltenen Spalten sind `preferred_label` und `uuid`.

#### Qualifikationen

* **Standort**: inference/files/qualifications.csv
* **Quelle**: [Offizielle Vergleichswebsite der EQF der Europäischen Union](https://europass.europa.eu/en/compare-qualifications)
* **Beschreibung**: Dieser Datensatz enthält EQF (European Qualifications Framework)-relevante Informationen, die von der offiziellen EQF-Vergleichswebsite extrahiert wurden. Er umfasst Datenstrings, Länderinformationen und EQF-Stufen. Nicht englischer Text wurde ignoriert.
* **Lizenz**: Bitte beziehen Sie sich für [Lizenzinformationen](https://europass.europa.eu/en/node/2161).
* **Änderungen**: Nicht englischer Text wurde entfernt und die verbleibenden Informationen in eine strukturierte Datenbank formatiert.

Für die französische Version des Werkzeugs verwenden wir die französische Version von ESCO v1.1.1 sowie eine Übersetzung der Qualifikationen mithilfe der Google Translation API.

## Trainingssätze

#### **Entitätsextraktion**

* **Ort:** [job\_ner\_dataset](https://huggingface.co/datasets/tabiya/job_ner_dataset)
* **Quelle:** [Green Benchmark Korpus](https://github.com/acp19tag/skill-extraction-dataset)
* **Beschreibung:** Dieser Datensatz bietet eine umfassende Benchmark-Suite für die Entitätenerkennung (ER) in Stellenbeschreibungen. Entwickelt, um die erhebliche Lücke an Ressourcen für das Extrahieren wichtiger Entitäten wie Fähigkeiten aus Stellenbeschreibungen zu schließen, enthält der Datensatz 18,6k annotierte Entitäten in fünf Kategorien: Skill, Qualification, Experience, Occupation und Domain.
* **Lizenz:** CC-BY-NC-4.0
* **Änderungen:** Am Originaldatensatz wurden keine Änderungen vorgenommen. Er wurde nur in das HuggingFace-Format konvertiert.

#### **Entitätsähnlichkeit**

* **Ort:** TBD
* **Quelle:**[ hahu-occupation-titles](https://huggingface.co/datasets/tabiya/occupation_titles_esco)
* **Beschreibung:**

  Die `hahu_test.csv` Datei ist die Originaldatei, die von Hahu Jobs mit den folgenden Feldern bereitgestellt wurde:

  * title: Der Titel der Stelle, der die spezifische Rolle und/oder Position innerhalb der Organisation angibt.
  * esco\_label: Das von ESCO angegebene bevorzugte oder alternative Label, das dem entsprechenden ESCO-Code entspricht.
  * esco\_code: Der mit der Stelle verbundene ESCO-Code, der eine standardisierte Klassifizierung und den Vergleich zwischen verschiedenen Stellenangeboten ermöglicht.
* **Lizenz:** CC-BY-NC-4.0
* **Änderungen:** Extrahierter Berufstitel und relevanter ESCO-Code und Abgleich mit bevorzugten und alternativen Bezeichnungen.

## Evaluationssätze

#### Hahu-Test

* **Standort**: inference/files/eval/redacted\_hahu\_test\_with\_id.csv
* **Quelle**: [hahu\_test](https://huggingface.co/datasets/tabiya/hahu_test)
* **Beschreibung**: Dieser Datensatz besteht aus 542 Einträgen, die zufällig aus dem 11 allgemeinen Klassifikationssystem der äthiopischen Hahu-Jobs-Plattform ausgewählt wurden. 50 Einträge wurden aus jeder Klasse ausgewählt, um den endgültigen Datensatz zu erstellen.
* **Lizenz**: Creative Commons Attribution 4.0 International siehe Data License für Details.
* **Änderungen**: An den ausgewählten Einträgen wurden keine Änderungen vorgenommen.

#### House und Tech

* **Standort**:
  * inference/files/eval/house\_test\_annotations.csv
  * inference/files/eval/house\_validation\_annotations.csv
  * inference/files/eval/tech\_test\_annotations.csv
  * inference/files/eval/tech\_validation\_annotations.csv
* **Quelle**: Bereitgestellt von [Decorte et al.](https://arxiv.org/abs/2209.05987)
* **Beschreibung**: Der Datensatz enthält die HOUSE- und TECH-Erweiterungen des SkillSpan-Datensatzes. In der Originalarbeit von Decorte et al. wurden die Test- und Entwicklungsentitäten des SkillSpan-Datensatzes in das ESCO-Modell annotiert.
* **Lizenz**: MIT, bitte beziehen Sie sich auf die Originalquelle.
* **Änderungen**: Die Datensätze wurden wie bereitgestellt ohne weitere Änderungen verwendet.

#### Qualifikationszuordnung

* **Standort**: inference/files/eval/qualification\_mapping.csv
* **Quelle**: Erweitert vom [Green Benchmark](https://github.com/acp19tag/skill-extraction-dataset) Qualifikationen
* **Beschreibung**: Dieser Datensatz ordnet die Qualifikationen des Green Benchmark den entsprechenden EQF-Stufen zu. Zwei Annotatoren markierten die Qualifikationen, was zu einer Cohen-Kappa-Übereinstimmung von 0,45 führte, was auf eine mittlere Übereinstimmung hinweist.
* **Lizenz**: Creative Commons Attribution 4.0 International siehe Data License für Details.
* **Änderungen**: Der Datensatz wurde erweitert, um EQF-Stufenzuordnungen zu enthalten, und die Annotationen wurden von zwei Annotatoren überprüft.

#### Zugang und Nutzung

Um diese Datensätze zu verwenden, stellen Sie sicher, dass Sie die Lizenz und die Nutzungsbedingungen des Originaldatensatzes einhalten. Alle vorgenommenen Änderungen sollten dokumentiert und angemessen Ihrem Projekt zugeschrieben werden.

{% hint style="info" %}
Für Datensätze, die Zugriffstoken erfordern, wie z. B. solche von HuggingFace 🤗, kontaktieren Sie bitte die Verantwortlichen.
{% endhint %}


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.tabiya.org/tabiya-documentation/deutsch/unser-tech-stack/livelihoods-classifier/datasets.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
