Introducción a ExtractLabel y Microsoft Fabric AI Functions
La mayoría de los datos empresariales se encuentran en formatos no estructurados: correos electrónicos, tickets de soporte, contratos, notas clínicas y más. Aunque estos datos contienen información crítica, no se ajustan a las tablas estructuradas que los pipelines suelen requerir. ExtractLabel, una funcionalidad de Microsoft Fabric AI Functions, aborda este desafío mediante la extracción de datos no estructurados impulsada por esquemas definidos.
¿Qué es ExtractLabel?
ExtractLabel es una herramienta que utiliza modelos de lenguaje extenso (LLMs) para convertir datos no estructurados en información estructurada basada en esquemas predefinidos. A diferencia de los enfoques tradicionales que dependen de reglas rígidas o modelos personalizados de procesamiento de lenguaje natural (NLP), ExtractLabel aprovecha la flexibilidad de los LLMs para adaptarse a diferentes formatos y contextos.
Note: Los esquemas definidos son el núcleo de ExtractLabel. Estos esquemas actúan como guías para los modelos, especificando qué información extraer y cómo estructurarla.
Arquitectura de ExtractLabel
ExtractLabel opera dentro del ecosistema de Microsoft Fabric AI Functions, que proporciona una infraestructura escalable y optimizada para tareas de inteligencia artificial. La arquitectura se basa en tres componentes principales:
- Definición de esquemas: Los usuarios definen los esquemas que describen la estructura deseada de los datos.
- Procesamiento con LLMs: Los modelos de lenguaje extenso analizan los datos no estructurados y extraen la información según los esquemas.
- Integración con pipelines: Los datos estructurados resultantes se integran directamente en pipelines analíticos o sistemas empresariales.
Ejemplo de esquema
Un esquema típico para ExtractLabel podría definirse en formato JSON. Por ejemplo, para extraer información de tickets de soporte:
{
"schema_name": "support_ticket_extraction",
"fields": [
{
"name": "ticket_id",
"type": "string",
"description": "Identificador único del ticket"
},
{
"name": "customer_name",
"type": "string",
"description": "Nombre del cliente que reportó el problema"
},
{
"name": "issue_description",
"type": "string",
"description": "Descripción del problema reportado"
},
{
"name": "priority",
"type": "enum",
"values": ["low", "medium", "high"],
"description": "Nivel de prioridad del ticket"
}
]
}
Este esquema define los campos que el modelo debe extraer de los tickets de soporte, incluyendo el ID del ticket, el nombre del cliente, la descripción del problema y la prioridad.
Implementación práctica con Microsoft Fabric AI Functions
Configuración inicial
Para utilizar ExtractLabel en Microsoft Fabric, primero debes habilitar las AI Functions en tu entorno. Esto requiere acceso a un workspace de Fabric y permisos adecuados.
Warning: Asegúrate de que tu cuenta tenga permisos de administrador en el workspace para configurar las AI Functions. Sin estos permisos, no podrás habilitar las funciones necesarias.
Ejemplo de extracción
Supongamos que tienes un conjunto de datos no estructurados en formato texto que contiene información sobre tickets de soporte. Puedes utilizar ExtractLabel para convertir estos datos en una tabla estructurada.
Paso 1: Cargar los datos
Primero, carga los datos no estructurados en un contenedor de Microsoft Fabric. Esto puede hacerse mediante Azure Data Factory o directamente desde el portal.
az storage blob upload \
--container-name support-tickets \
--file tickets_raw.txt \
--name tickets_raw.txt \
--account-name <nombre_de_tu_storage_account>
Paso 2: Definir el esquema
Utiliza el esquema JSON mostrado anteriormente y guárdalo en tu workspace de Fabric.
Paso 3: Configurar la función de extracción
Configura ExtractLabel para procesar los datos utilizando el esquema definido. Esto puede hacerse mediante una llamada a la API de Fabric AI Functions:
import requests
url = "https://<fabric_endpoint>/ai-functions/extract-label"
headers = {
"Authorization": "Bearer <tu_token_de_acceso>",
"Content-Type": "application/json"
}
payload = {
"input_data": "https://<storage_account>/support-tickets/tickets_raw.txt",
"schema": "https://<workspace>/schemas/support_ticket_extraction.json"
}
response = requests.post(url, headers=headers, json=payload)
if response.status_code == 200:
print("Extracción completada con éxito.")
print(response.json()) # Datos estructurados resultantes
else:
print(f"Error en la extracción: {response.status_code}")
Note: El endpoint y el token de acceso deben configurarse según tu entorno de Microsoft Fabric. Consulta la documentación oficial para más detalles.
Beneficios clave de ExtractLabel
- Reducción de tiempo y esfuerzo: La extracción basada en esquemas elimina la necesidad de crear modelos NLP personalizados para cada tipo de dato.
- Flexibilidad: Los LLMs pueden adaptarse a múltiples formatos de datos no estructurados sin necesidad de ajustes significativos.
- Integración nativa: Los datos estructurados pueden integrarse directamente en pipelines analíticos de Microsoft Fabric.
Casos de uso
Sector salud
En notas clínicas, ExtractLabel puede extraer información como diagnósticos, medicamentos prescritos y fechas de consulta, facilitando el análisis de datos para investigaciones médicas.
Finanzas
En contratos financieros, ExtractLabel puede identificar cláusulas clave, fechas de vencimiento y montos, agilizando la revisión y el cumplimiento regulatorio.
Atención al cliente
En tickets de soporte, ExtractLabel puede estructurar datos como ID de ticket, descripción del problema y prioridad, mejorando la gestión y el análisis de incidencias.
Conclusión
ExtractLabel, impulsado por Microsoft Fabric AI Functions, representa un avance significativo en la extracción de datos no estructurados. Su enfoque basado en esquemas y su integración con LLMs ofrecen una solución eficiente y escalable para transformar texto libre en información estructurada.
Para más detalles sobre Microsoft Fabric y sus capacidades, revisa los siguientes artículos relacionados: