Conjuntos de datos
Conjuntos de referencia
Ocupaciones
Ubicación: inference/files/occupations_augmented.csv
Fuente: Conjunto de datos ESCO - v1.1.1
Descripción: ESCO (Habilidades, Competencias, Cualificaciones y Ocupaciones de Europa) es la clasificación multilingüe europea de Habilidades, Competencias y Ocupaciones. Este conjunto de datos incluye información relevante para las ocupaciones.
Licencia: Creative Commons Reconocimiento 4.0 Internacional vea DATA_LICENSE para más detalles.
Modificaciones: Las columnas conservadas son
alt_label,preferred_label,esco_code, yuuid. Cada etiqueta alternativa ha sido separada en filas individuales.
Habilidades
Ubicación: inference/files/skills.csv
Fuente: Conjunto de datos ESCO - v1.1.1
Descripción: ESCO (Habilidades, Competencias, Cualificaciones y Ocupaciones de Europa) es la clasificación multilingüe europea de Habilidades, Competencias y Ocupaciones. Este conjunto de datos incluye información relevante para las habilidades.
Licencia: Creative Commons Reconocimiento 4.0 Internacional vea Data License para más detalles.
Modificaciones: Las columnas conservadas son
preferred_labelyuuid.
Cualificaciones
Ubicación: inference/files/qualifications.csv
Descripción: Este conjunto de datos contiene información relevante del EQF (Marco Europeo de Cualificaciones) extraída del sitio web oficial de comparación del EQF. Incluye cadenas de datos, información de países y niveles del EQF. Se ignoró el texto no inglés.
Licencia: Por favor, consulte la fuente original para información de la licencia.
Modificaciones: Se eliminó el texto no inglés y la información restante se formateó en una base de datos estructurada.
Para la versión francesa de la herramienta, usamos la versión francesa de ESCO v1.1.1, así como una traducción de las cualificaciones, utilizando la API de traducción de Google.
Conjuntos de entrenamiento
Extracción de entidades
Ubicación: job_ner_dataset
Fuente: Corpus Green Benchmark
Descripción: Este conjunto de datos proporciona un conjunto de evaluación integral para el Reconocimiento de Entidades (ER) en descripciones de empleo. Desarrollado para cubrir la importante carencia de recursos para extraer entidades clave como habilidades de las descripciones de empleo, el conjunto de datos cuenta con 18.6k entidades anotadas en cinco categorías: Habilidad, Cualificación, Experiencia, Ocupación y Dominio.
Licencia: CC-BY-NC-4.0
Modificaciones: No se realizaron modificaciones al conjunto de datos original. Solo se convirtió al formato de HuggingFace.
Similitud de entidades
Ubicación: Por determinar
Fuente: hahu-occupation-titles
Descripción:
El
hahu_test.csvarchivo es el archivo original proporcionado por Hahu Jobs con los siguientes campos:title: El título del puesto de trabajo, que indica el rol y/o la posición específica dentro de la organización.
esco_label: La etiqueta preferida o alternativa proporcionada por ESCO, que coincide con el código ESCO correspondiente.
esco_code: El código ESCO asociado con el trabajo, facilitando la clasificación estandarizada y la comparación entre diferentes ofertas de empleo.
Licencia: CC-BY-NC-4.0
Modificaciones: Título de la ocupación extraído y código ESCO relevante y emparejado con etiquetas preferidas y alternativas.
Conjuntos de evaluación
Prueba Hahu
Ubicación: inference/files/eval/redacted_hahu_test_with_id.csv
Fuente: hahu_test
Descripción: Este conjunto de datos consta de 542 entradas escogidas al azar del sistema de clasificación general de 11 clases de la plataforma etíope Hahu Jobs. Se seleccionaron 50 entradas de cada clase para crear el conjunto de datos final.
Licencia: Creative Commons Reconocimiento 4.0 Internacional vea Data License para más detalles.
Modificaciones: No se hicieron modificaciones a las entradas seleccionadas.
House y Tech
Ubicación:
inference/files/eval/house_test_annotations.csv
inference/files/eval/house_validation_annotations.csv
inference/files/eval/tech_test_annotations.csv
inference/files/eval/tech_validation_annotations.csv
Fuente: Proporcionado por Decorte et al.
Descripción: El conjunto de datos incluye las extensiones HOUSE y TECH del Conjunto de Datos SkillSpan. En el trabajo original de Decorte et al., las entidades de prueba y desarrollo del Conjunto de Datos SkillSpan fueron anotadas según el modelo ESCO.
Licencia: MIT, por favor consulte la fuente original.
Modificaciones: Los conjuntos de datos se utilizaron tal como se proporcionaron sin más modificaciones.
Mapeo de cualificaciones
Ubicación: inference/files/eval/qualification_mapping.csv
Fuente: Ampliado a partir de Green Benchmark Cualificaciones
Descripción: Este conjunto de datos asigna las Cualificaciones del Green Benchmark a los niveles EQF apropiados. Dos anotadores etiquetaron las cualificaciones, resultando en un acuerdo de Cohen's Kappa de 0.45, lo que indica un acuerdo moderado.
Licencia: Creative Commons Reconocimiento 4.0 Internacional vea Data License para más detalles.
Modificaciones: Se amplió el conjunto de datos para incluir asignaciones de niveles EQF y las anotaciones fueron verificadas por dos anotadores.
Acceso y uso
Para usar estos conjuntos de datos, asegúrese de cumplir con la licencia y los términos de uso del conjunto de datos original. Cualquier modificación realizada debe documentarse y atribuirse adecuadamente a su proyecto.
Para conjuntos de datos que requieren tokens de acceso, como los de HuggingFace 🤗, por favor contacte a los mantenedores.
Última actualización