Conjuntos de datos

Conjuntos de referencia

Ocupaciones

  • Ubicación: inference/files/occupations_augmented.csv

  • Descripción: ESCO (Habilidades, Competencias, Cualificaciones y Ocupaciones de Europa) es la clasificación multilingüe europea de Habilidades, Competencias y Ocupaciones. Este conjunto de datos incluye información relevante para las ocupaciones.

  • Licencia: Creative Commons Reconocimiento 4.0 Internacional vea DATA_LICENSE para más detalles.

  • Modificaciones: Las columnas conservadas son alt_label, preferred_label, esco_code, y uuid. Cada etiqueta alternativa ha sido separada en filas individuales.

Habilidades

  • Ubicación: inference/files/skills.csv

  • Descripción: ESCO (Habilidades, Competencias, Cualificaciones y Ocupaciones de Europa) es la clasificación multilingüe europea de Habilidades, Competencias y Ocupaciones. Este conjunto de datos incluye información relevante para las habilidades.

  • Licencia: Creative Commons Reconocimiento 4.0 Internacional vea Data License para más detalles.

  • Modificaciones: Las columnas conservadas son preferred_label y uuid.

Cualificaciones

  • Ubicación: inference/files/qualifications.csv

  • Descripción: Este conjunto de datos contiene información relevante del EQF (Marco Europeo de Cualificaciones) extraída del sitio web oficial de comparación del EQF. Incluye cadenas de datos, información de países y niveles del EQF. Se ignoró el texto no inglés.

  • Licencia: Por favor, consulte la fuente original para información de la licenciaarrow-up-right.

  • Modificaciones: Se eliminó el texto no inglés y la información restante se formateó en una base de datos estructurada.

Para la versión francesa de la herramienta, usamos la versión francesa de ESCO v1.1.1, así como una traducción de las cualificaciones, utilizando la API de traducción de Google.

Conjuntos de entrenamiento

Extracción de entidades

  • Descripción: Este conjunto de datos proporciona un conjunto de evaluación integral para el Reconocimiento de Entidades (ER) en descripciones de empleo. Desarrollado para cubrir la importante carencia de recursos para extraer entidades clave como habilidades de las descripciones de empleo, el conjunto de datos cuenta con 18.6k entidades anotadas en cinco categorías: Habilidad, Cualificación, Experiencia, Ocupación y Dominio.

  • Licencia: CC-BY-NC-4.0

  • Modificaciones: No se realizaron modificaciones al conjunto de datos original. Solo se convirtió al formato de HuggingFace.

Similitud de entidades

  • Ubicación: Por determinar

  • Descripción:

    El hahu_test.csv archivo es el archivo original proporcionado por Hahu Jobs con los siguientes campos:

    • title: El título del puesto de trabajo, que indica el rol y/o la posición específica dentro de la organización.

    • esco_label: La etiqueta preferida o alternativa proporcionada por ESCO, que coincide con el código ESCO correspondiente.

    • esco_code: El código ESCO asociado con el trabajo, facilitando la clasificación estandarizada y la comparación entre diferentes ofertas de empleo.

  • Licencia: CC-BY-NC-4.0

  • Modificaciones: Título de la ocupación extraído y código ESCO relevante y emparejado con etiquetas preferidas y alternativas.

Conjuntos de evaluación

Prueba Hahu

  • Ubicación: inference/files/eval/redacted_hahu_test_with_id.csv

  • Descripción: Este conjunto de datos consta de 542 entradas escogidas al azar del sistema de clasificación general de 11 clases de la plataforma etíope Hahu Jobs. Se seleccionaron 50 entradas de cada clase para crear el conjunto de datos final.

  • Licencia: Creative Commons Reconocimiento 4.0 Internacional vea Data License para más detalles.

  • Modificaciones: No se hicieron modificaciones a las entradas seleccionadas.

House y Tech

  • Ubicación:

    • inference/files/eval/house_test_annotations.csv

    • inference/files/eval/house_validation_annotations.csv

    • inference/files/eval/tech_test_annotations.csv

    • inference/files/eval/tech_validation_annotations.csv

  • Fuente: Proporcionado por Decorte et al.arrow-up-right

  • Descripción: El conjunto de datos incluye las extensiones HOUSE y TECH del Conjunto de Datos SkillSpan. En el trabajo original de Decorte et al., las entidades de prueba y desarrollo del Conjunto de Datos SkillSpan fueron anotadas según el modelo ESCO.

  • Licencia: MIT, por favor consulte la fuente original.

  • Modificaciones: Los conjuntos de datos se utilizaron tal como se proporcionaron sin más modificaciones.

Mapeo de cualificaciones

  • Ubicación: inference/files/eval/qualification_mapping.csv

  • Fuente: Ampliado a partir de Green Benchmarkarrow-up-right Cualificaciones

  • Descripción: Este conjunto de datos asigna las Cualificaciones del Green Benchmark a los niveles EQF apropiados. Dos anotadores etiquetaron las cualificaciones, resultando en un acuerdo de Cohen's Kappa de 0.45, lo que indica un acuerdo moderado.

  • Licencia: Creative Commons Reconocimiento 4.0 Internacional vea Data License para más detalles.

  • Modificaciones: Se amplió el conjunto de datos para incluir asignaciones de niveles EQF y las anotaciones fueron verificadas por dos anotadores.

Acceso y uso

Para usar estos conjuntos de datos, asegúrese de cumplir con la licencia y los términos de uso del conjunto de datos original. Cualquier modificación realizada debe documentarse y atribuirse adecuadamente a su proyecto.

circle-info

Para conjuntos de datos que requieren tokens de acceso, como los de HuggingFace 🤗, por favor contacte a los mantenedores.

Última actualización