Unearthed ayuda a llevar a cabo el programa The Pitch de Rio Tinto para 2025.
Unearthed trabajó con Rio Tinto para apoyar la entrega de The Pitch, el programa interno de innovación para empleados de Rio Tinto diseñado
leer el artículoEl aprendizaje automático se puede utilizar en la exploración minera como herramienta para descubrir patrones complejos en datos geológicos, lo que ayuda a predecir o identificar la ubicación de los depósitos minerales. Sin embargo, los datos de exploración suelen ser un desafío para los científicos de datos debido a su complejidad. Algunos profesionales estiman que dedican hasta el 90 % de su tiempo a preparar los datos.
Exploraré los problemas comunes que se experimentan al usar datos de exploración y algunos métodos para solucionarlos. Comenzaré con un ejemplo de un desafío en el que estamos trabajando actualmente con el Gobierno de Australia del Sur (ExplorarSA) en el que participan geólogos y científicos de datos para identificar nueva mineralización en el cratón de Gawler.
¿Cuáles son algunos de los problemas generales con los datos de exploración?
Hay muchos tipos de datos diferentes para comparar directamente, que son una combinación de datos estructurados y no estructurados, de cuadrícula y de puntos.
Es mayoritariamente espacial, se recopila en diferentes resoluciones y suele estar muy agrupado.
Los datos son en su mayoría históricos y se han recopilado "tipos" similares utilizando diferentes métodos.
No existe una definición de 'mineralización'
Para ayudar a comenzar, aquí hay algunos ejemplos específicos que la Comunidad Unearthed ha utilizado para preparar datos de exploración para el desafío ExploreSA.
El ejemplo se basa en el trabajo de Russel Menezes de Radix Geo, que se puede encontrar en Github.
En particular, en el caso de proyectos que abarcan áreas grandes, por ejemplo el desafío ExploreSA, los conjuntos de datos asociados con perforaciones/perforaciones pueden tener un tamaño de varios GB y pueden ser difíciles de procesar.
Los archivos contienen los datos químicos correspondientes a las perforaciones, pero también muchos otros metadatos e información que pueden ser útiles o no para realizar predicciones.
A través de una serie de cuadernos, Russel extrae específicamente información sobre la concentración de oro de los archivos de datos sin procesar, que luego se pueden usar directamente para entrenar modelos.
El ejemplo demuestra cómo:
Manejar diferentes unidades de concentración (es decir, ppm, ppb, %)
Eliminar valores nulos
Filtrar información irrelevante como, por ejemplo, pozos perforados para otros fines, datos antiguos (menos confiables) y objetivos minerales específicos.
Divida los datos relevantes en fragmentos para reducir la cantidad total de procesamiento
La imagen a continuación muestra el resultado final de este ejemplo: concentración de oro en pozos en toda el área del proyecto.
(Datos de concentración de oro visualizados por Russel Menezes en el Cratón de Gawler)
Si le pides a un geólogo que defina qué es la mineralización económica, es poco probable que obtengas una respuesta que sea útil para crear cualquier tipo de conjunto de datos de entrenamiento. En su artículo reciente, Aprendizaje automático en la exploración de minerales: comprensión de las métricas de evaluación de la clasificaciónJack Maughan ofrece un ejemplo de cómo clasificar datos para ayudar con esto.
Jack genera objetivos o áreas de interés, etiquetados como 0 para estériles o 1 para mineralizados. La mineralización se refiere a elevaciones conocidas en metales básicos (Au, Cu, Pb, Zn y/o Ag). Las ubicaciones se eligieron en función de una combinación de ubicaciones de depósitos existentes (es decir, Olympic Dam, Carrapeteena) y ensayos de pozos de perforación. Luego se extraen 15 características diferentes para cada uno de los objetivos a partir de una variedad de conjuntos de datos diferentes, por ejemplo, gravedad, intensidad magnética, resistividad.
(Áreas objetivo generadas por Jack Maughan en su artículo reciente)
En muchos conjuntos de datos geológicos, la densidad de muestreo puede variar enormemente. Probablemente, la más variable sea la de los datos de análisis químico de los pozos de perforación. En cada pozo de perforación, las muestras se suelen tomar cada 1 m, pero los pozos de perforación en sí están espaciados entre 50 y 100 m dentro de un área local, y estos grupos de pozos de perforación están espaciados hasta cientos de kilómetros entre sí. Los conjuntos de datos desequilibrados como estos pueden generar resultados de modelos que pueden parecer precisos, pero no son relevantes, por lo que a menudo es necesario manipularlos antes de usarlos.
Los datos geofísicos también pueden tener una densidad de muestreo variable. Como parte del desafío ExploreSA, David McSkimming analizó este problema para los datos de gravedad. En el caso del conjunto de datos de gravedad, la mayoría de los puntos de datos se han recopilado mediante estudios terrestres durante los últimos 80 años. El espaciamiento entre estaciones de gravedad varía de 50 m a 50 km. El efecto de la densidad de muestra en las capas de gravedad de todo el estado es evidente visualmente mediante la definición de características en las imágenes .tif.
David describe cómo utilizar las herramientas de QGIS para identificar áreas dentro del conjunto de datos donde la densidad de muestreo es suficiente para definir características de gravedad discretas dentro del cratón de Gawler, que pueden ayudar a identificar áreas para una posible mineralización económica. Vea su enfoque aquí.
Las imágenes en cuadrícula se crean generalmente a partir de datos de estudios geofísicos para facilitar la interpretación de los datos. A menudo, como los datos de los estudios se recopilan región por región y los archivos son bastante grandes, los datos se reciben inicialmente en mosaicos que no están unidos, como en el ejemplo siguiente. Unir las imágenes en un solo archivo puede facilitar mucho el uso de los datos, en particular los valores RGB, en los modelos de aprendizaje automático.
Este ejemplo de Jack Maughan muestra los datos originales de intensidad magnética total en cuadrícula para el cratón de Gawler en mosaicos y la versión unida. Para obtener una descripción de cómo se hizo esto y acceder a los datos unidos, diríjase a Publicación de Jack.
(Datos GCAS cortesía de SA DEM, visualizados y fusionados en QGIS).
Hay muchos otros ejemplos de cómo preparar datos de exploración para el aprendizaje automático. Comparta qué más le gustaría ver o escuchar de nuestra comunidad.
Uno de los objetivos del desafío ExploreSA es ayudar a los científicos de datos y a los geólogos a mejorar sus habilidades en técnicas de preparación de datos, para que toda la comunidad pueda beneficiarse aprendiendo y creciendo juntos. Puede encontrar una gran cantidad de información en ExplorarSA Página de desafío sobre este tema. Si estás leyendo esto antes del 30 de abril de 2020, también puedes enviar tus propias ideas de preparación de datos para tener la oportunidad de ganar uno de los cuatro premios de $5000.
Gracias a todos en la Comunidad Unearthed que ya han compartido sus ideas y procesos en el ExplorarSA Desafío. Estamos especialmente agradecidos a Russel, Jack y David, cuyo trabajo hemos mencionado.