> For the complete documentation index, see [llms.txt](https://docs.tabiya.org/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.tabiya.org/tabiya-documentation/es/nuestra-pila-tecnologica/livelihoods-classifier/datasets.md).

# Conjuntos de datos

## Conjuntos de referencia

#### Ocupaciones

* **Ubicación**: inference/files/occupations\_augmented.csv
* **Fuente**: [Conjunto de datos ESCO - v1.1.1](https://esco.ec.europa.eu/en/use-esco/download)
* **Descripción**: ESCO (Habilidades, Competencias, Cualificaciones y Ocupaciones de Europa) es la clasificación multilingüe europea de Habilidades, Competencias y Ocupaciones. Este conjunto de datos incluye información relevante para las ocupaciones.
* **Licencia**: Creative Commons Reconocimiento 4.0 Internacional vea DATA\_LICENSE para más detalles.
* **Modificaciones**: Las columnas conservadas son `alt_label`, `preferred_label`, `esco_code`, y `uuid`. Cada etiqueta alternativa ha sido separada en filas individuales.

#### Habilidades

* **Ubicación**: inference/files/skills.csv
* **Fuente**: [Conjunto de datos ESCO - v1.1.1](https://esco.ec.europa.eu/en/use-esco/download)
* **Descripción**: ESCO (Habilidades, Competencias, Cualificaciones y Ocupaciones de Europa) es la clasificación multilingüe europea de Habilidades, Competencias y Ocupaciones. Este conjunto de datos incluye información relevante para las habilidades.
* **Licencia**: Creative Commons Reconocimiento 4.0 Internacional vea Data License para más detalles.
* **Modificaciones**: Las columnas conservadas son `preferred_label` y `uuid`.

#### Cualificaciones

* **Ubicación**: inference/files/qualifications.csv
* **Fuente**: [Sitio web oficial de comparación EQF de la Unión Europea](https://europass.europa.eu/en/compare-qualifications)
* **Descripción**: Este conjunto de datos contiene información relevante del EQF (Marco Europeo de Cualificaciones) extraída del sitio web oficial de comparación del EQF. Incluye cadenas de datos, información de países y niveles del EQF. Se ignoró el texto no inglés.
* **Licencia**: Por favor, consulte la fuente original para [información de la licencia](https://europass.europa.eu/en/node/2161).
* **Modificaciones**: Se eliminó el texto no inglés y la información restante se formateó en una base de datos estructurada.

Para la versión francesa de la herramienta, usamos la versión francesa de ESCO v1.1.1, así como una traducción de las cualificaciones, utilizando la API de traducción de Google.

## Conjuntos de entrenamiento

#### **Extracción de entidades**

* **Ubicación:** [job\_ner\_dataset](https://huggingface.co/datasets/tabiya/job_ner_dataset)
* **Fuente:** [Corpus Green Benchmark](https://github.com/acp19tag/skill-extraction-dataset)
* **Descripción:** Este conjunto de datos proporciona un conjunto de evaluación integral para el Reconocimiento de Entidades (ER) en descripciones de empleo. Desarrollado para cubrir la importante carencia de recursos para extraer entidades clave como habilidades de las descripciones de empleo, el conjunto de datos cuenta con 18.6k entidades anotadas en cinco categorías: Habilidad, Cualificación, Experiencia, Ocupación y Dominio.
* **Licencia:** CC-BY-NC-4.0
* **Modificaciones:** No se realizaron modificaciones al conjunto de datos original. Solo se convirtió al formato de HuggingFace.

#### **Similitud de entidades**

* **Ubicación:** Por determinar
* **Fuente:**[ hahu-occupation-titles](https://huggingface.co/datasets/tabiya/occupation_titles_esco)
* **Descripción:**

  El `hahu_test.csv` archivo es el archivo original proporcionado por Hahu Jobs con los siguientes campos:

  * title: El título del puesto de trabajo, que indica el rol y/o la posición específica dentro de la organización.
  * esco\_label: La etiqueta preferida o alternativa proporcionada por ESCO, que coincide con el código ESCO correspondiente.
  * esco\_code: El código ESCO asociado con el trabajo, facilitando la clasificación estandarizada y la comparación entre diferentes ofertas de empleo.
* **Licencia:** CC-BY-NC-4.0
* **Modificaciones:** Título de la ocupación extraído y código ESCO relevante y emparejado con etiquetas preferidas y alternativas.

## Conjuntos de evaluación

#### Prueba Hahu

* **Ubicación**: inference/files/eval/redacted\_hahu\_test\_with\_id.csv
* **Fuente**: [hahu\_test](https://huggingface.co/datasets/tabiya/hahu_test)
* **Descripción**: Este conjunto de datos consta de 542 entradas escogidas al azar del sistema de clasificación general de 11 clases de la plataforma etíope Hahu Jobs. Se seleccionaron 50 entradas de cada clase para crear el conjunto de datos final.
* **Licencia**: Creative Commons Reconocimiento 4.0 Internacional vea Data License para más detalles.
* **Modificaciones**: No se hicieron modificaciones a las entradas seleccionadas.

#### House y Tech

* **Ubicación**:
  * inference/files/eval/house\_test\_annotations.csv
  * inference/files/eval/house\_validation\_annotations.csv
  * inference/files/eval/tech\_test\_annotations.csv
  * inference/files/eval/tech\_validation\_annotations.csv
* **Fuente**: Proporcionado por [Decorte et al.](https://arxiv.org/abs/2209.05987)
* **Descripción**: El conjunto de datos incluye las extensiones HOUSE y TECH del Conjunto de Datos SkillSpan. En el trabajo original de Decorte et al., las entidades de prueba y desarrollo del Conjunto de Datos SkillSpan fueron anotadas según el modelo ESCO.
* **Licencia**: MIT, por favor consulte la fuente original.
* **Modificaciones**: Los conjuntos de datos se utilizaron tal como se proporcionaron sin más modificaciones.

#### Mapeo de cualificaciones

* **Ubicación**: inference/files/eval/qualification\_mapping.csv
* **Fuente**: Ampliado a partir de [Green Benchmark](https://github.com/acp19tag/skill-extraction-dataset) Cualificaciones
* **Descripción**: Este conjunto de datos asigna las Cualificaciones del Green Benchmark a los niveles EQF apropiados. Dos anotadores etiquetaron las cualificaciones, resultando en un acuerdo de Cohen's Kappa de 0.45, lo que indica un acuerdo moderado.
* **Licencia**: Creative Commons Reconocimiento 4.0 Internacional vea Data License para más detalles.
* **Modificaciones**: Se amplió el conjunto de datos para incluir asignaciones de niveles EQF y las anotaciones fueron verificadas por dos anotadores.

#### Acceso y uso

Para usar estos conjuntos de datos, asegúrese de cumplir con la licencia y los términos de uso del conjunto de datos original. Cualquier modificación realizada debe documentarse y atribuirse adecuadamente a su proyecto.

{% hint style="info" %}
Para conjuntos de datos que requieren tokens de acceso, como los de HuggingFace 🤗, por favor contacte a los mantenedores.
{% endhint %}


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://docs.tabiya.org/tabiya-documentation/es/nuestra-pila-tecnologica/livelihoods-classifier/datasets.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
