v2.2 更新日志 ▼
- 引入基于
Proxy的响应式状态管理,Checklist 勾选变化自动同步进度面板,告别手动串联调用 - 全局事件委托替代 106 处内联
onclick/onchange,统一用data-action声明意图 - 决策树选项从字符串拼接改为
data-*传参,消除特殊字符转义风险
- 搜索框支持 Ctrl/⌘+K 唤起、Esc 清空退出
- 专业术语 Tooltip 适配触屏,边缘碰撞检测避免贴边裁切
- 决策树题目切换加入 slide+fade 微动效(支持
prefers-reduced-motion) - 进度面板新增"导出/导入 JSON"功能,支持跨设备同步
- 移动端 DSS 改为 Bottom Sheet 抽屉,支持下滑关闭
.role-table/.feat-table添加 sticky 表头- 浅色模式对比度从 AA 级(7.35:1)提升到 AAA 级(10.2:1),适应野外强光
- 沟通模板全量升级为参数化 Prompt 生成器,覆盖 5 处场景,支持 select/input 控件 + 实时占位符高亮 + 一键复制
- 启动清单阻断项未确认时,Phase 1 顶部动态渲染警告横幅并支持跳转
- 决策支持系统(DSS)v2 上线,覆盖 25 种矿床类型
- 新增 AI 误导风险警示面板
- 多阶段 Checklist 整合到全局进度面板
AI 找矿的核心是成矿预测(Mineral Prospectivity Mapping, MPM)——让计算机通过学习已知矿床的多维特征,在研究区内识别出具有相似成矿条件的未知区域。其本质不是"黑箱直接预测",而是"成矿理论 + 多源数据 + 机器学习 + 不确定性评估 + 靶区验证"的有机组合。
本清单集中了七个阶段中前置条件最容易被忽略的检查项——不是流程步骤,而是"这些没确认就开工会在后面踩大坑"的关键节点。建议项目正式启动前,地质负责人与AI负责人一起过一遍,所有红色项目未确认不得进入下一阶段。
AI找矿项目中,大量的中途返工(重新定义样本、重新采集数据、重新设计特征)根源都是开工前没有想清楚。这份清单涵盖五个维度的前提条件,建议在正式启动阶段一工作之前,与团队用30分钟共同过一遍。
A · 地质基础(地质人员负责)
B · 数据准备(地质人员 + AI人员协作)
C · 样本质量(最容易被忽略的高风险环节)
D · 团队与沟通流程(地质人员 + AI人员共同确认)
E · 已知风险预案(有风险不代表不能启动,但需要有预案)
本阶段的核心目标是回答三个问题:找什么矿?在多大范围找?按什么地质逻辑找?不同矿种的控矿要素完全不同,不同预测尺度决定了数据分辨率和模型复杂度。成矿概念模型(Mineral System Model)是整个项目的"灵魂",它将矿床形成所需的全部控矿要素梳理清楚,指导后续的数据采集和特征设计。
| 任务内容 | 责任角色 | 说明 |
|---|---|---|
| 确定目标矿种与矿床类型 | 地质人员 | 完全由地质专家主导 |
| 确定预测尺度与工作区范围 | 地质人员 | 需结合数据可得性评估 |
| 梳理控矿要素清单 | 地质人员 | 最核心的地质智力投入 |
| 定义正样本与负样本 | 协作 | 地质人员主导定义标准,AI人员参与空间策略讨论 |
| 制定项目成功标准 | 协作 | 地质指标(靶区命中率)+ 统计指标(AUCAUC (Area Under the ROC Curve):ROC曲线下面积,衡量模型区分"有矿"与"无矿"能力的综合指标。值域0~1,越接近1表示模型区分能力越强。0.5表示随机猜测水平。等) |
| 评估算力与技术可行性 | AI人员 | 数据量级与模型复杂度匹配 |
| 绘制成矿概念模型图 | 地质人员 | 平面图+剖面图,标注控矿要素空间关系 |
目标矿种说明书_项目名_v1.docx目标矿种:金(Au)
矿床类型:造山型金矿(Orogenic Gold),受韧性剪切带控制
典型矿床参考:雄村、甲玛周边区带,EW向主缝合带 + NW/NE向次级断裂控矿
研究区概况:藏南拆离系(STDS)前陆带,海拔4200–5500m,工作区面积约1200km²
文献基础:参考GIS-based mineral prospectivity mapping (Zhuonuo, Tibet)等已发表案例
说明书中应写明:"该矿床类型的控矿关键词包括:韧性剪切带、EW向断裂、绢英岩化、硅化、Au-As-Sb-Bi-W组合异常"
正确做法:精确到矿床类型级别,如"造山型金矿(受韧性剪切带控制)",并附3–5篇该类型的典型文献。
QGIS 查看工作区范围 · Excel 整理数据清单 · Word 撰写尺度说明预测尺度建议_项目名_v1.docx西藏金矿项目:矿田级预测,网格 100–500m,工作区面积 ~1200km²,坐标系
WGS84 / UTM Zone 46N (EPSG:32646),可用数据:1:5万地质图、水系沉积物化探(4点/km²)、航磁△T(200m点距)、ASTER遥感白云鄂博稀土矿项目:矿田级预测,网格 200m,工作区面积 ~800km²,坐标系
CGCS2000 / 3度带第39带 (EPSG:4534),可用数据:1:5万地质图、土壤化探(240m×80m)、布格重力异常、航磁△T、Sentinel-2遥感
正确做法:先盘点手头数据的实际分辨率,再反推合理的预测网格尺寸。矿田级预测用1:5万数据 + 100–500m网格是比较稳健的组合。
Excel 制表(最推荐,结构化强)· Word 辅助说明 · 参考矿床学教材和区域地质报告要素类别、具体要素、对应数据源、建议量化方式、重要性等级(必要/有利/参考)。建议命名:控矿要素清单_项目名_v1.xlsx| 要素类别 | 具体要素 | 数据源 | 量化方式 | 重要性 |
| 构造控矿 | EW向韧性剪切带 | 1:5万构造图 | 每个网格到EW向剪切带的欧氏距离 | ★★★必要 |
| 构造控矿 | NE向张性裂隙交汇带 | 1:5万构造图 | EW与NE断裂交汇点的核密度 | ★★★必要 |
| 蚀变指示 | 绢英岩化+硅化 | ASTER遥感蚀变提取 | 蚀变强度指数(波段比值) | ★★★必要 |
| 地球化学 | Au-As-Sb-Bi-W五元素组合 | 水系沉积物化探 | 多元素叠加异常指数 | ★★☆有利 |
| 地球物理 | 航磁△T异常 | 航磁化极数据 | 化极后磁异常幅值与一阶导数 | ★☆☆参考 |
正确做法:精确到"EW向韧性剪切带"而非"断裂",精确到"Au-As-Sb-Bi-W五元素组合"而非"化探异常"。模糊的输入只会得到模糊的输出。
QGIS 标注矿点坐标并可视化审查 · Excel 整理样本清单 · MapGIS 叠加地质图辅助判断2. 正样本坐标表(CSV),字段:
sample_id, easting, northing, type, confidence, source3. 负样本区域多边形(Shapefile)或负样本点坐标表(CSV)
建议命名:
正样本_项目名_EPSG32646.csv、负样本区域_项目名.shp
正样本:已知矿化点32个,坐标来自1:5万矿产调查报告,精度±50m,坐标系 WGS84 UTM 46N。其中大型矿点5个、中型8个、矿化点19个,均在CSV中标注
type字段(large/medium/occurrence)。负样本策略:选择工作区内远离已知矿化点(>5km缓冲区外)、位于稳定地层(非剪切带影响区)的第四系覆盖较薄区域作为负样本区域。特别排除了STDS主拆离面附近的"未勘探但地质上有利"的区域,标注为"不确定区"留给模型做特殊处理。
典型错误对比:在工作区内随机撒点当负样本 → 可能把剪切带沿线未发现的矿化区误标为"无矿",模型学到的"无矿特征"实际包含了成矿信号。
错误2:正样本不区分矿床规模,将大型矿床和矿化蚀变点等同对待。
正确做法:负样本选取需有地质依据(远离成矿有利部位+稳定背景),正样本需标注规模/可信度分级,并将"不确定区域"单独标注交给AI团队讨论。
CorelDRAW / Adobe Illustrator 绘制剖面图 · QGIS 出平面底图 · PowerPoint / Visio 绘制要素关系图1. 平面概念模型图(标注控矿构造、有利岩性、蚀变范围、异常叠合)
2. 理想化剖面图(矿床剪影图,展示矿体与控矿要素的垂向关系)
格式:PDF/PNG(≥300dpi),建议命名:
成矿概念模型_项目名_v1.pdf
平面模型图需标注:NE向主断裂、白云鄂博群H8白云岩分布范围、碳酸岩侵入体边界、主矿和东矿位置。关键标注——"REE高品位矿段集中在碳酸岩体与H8白云岩的接触带,向外200m品位急剧下降"。
剖面模型图需展示:碳酸岩体侵入H8围岩的接触关系,矿化富集在接触带内的空间特征,标注"接触带宽度约50–200m"。
这些定量标注将直接指导AI人员设计"距碳酸岩体接触带距离"这一关键特征。
正确做法:每个空间关系都给数字——"200m缓冲区"、"剪切带两侧500m"、"蚀变核心区半径300m",这些数字就是特征工程的参数。
📦 阶段一交付物清单
| 交付物 | 格式 | 负责人 | 验收人 |
|---|---|---|---|
| 目标矿种与矿床类型说明书 | Word (.docx) | 地质人员 | 项目负责人 |
| 预测尺度与数据粒度建议 | Word (.docx) | 地质人员 | AI负责人 |
| 控矿要素清单 | Excel (.xlsx) | 地质人员 | AI工程师审阅 |
| 正负样本定义文档 + 坐标表 | Word + CSV | 地质人员 | AI工程师+地质组长 |
| 项目成功标准表 | Word (.docx) | 地质+AI协作 | 项目负责人 |
| 成矿概念模型图 | PDF/PNG | 地质人员 | 全团队评审 |
💬 与AI团队沟通模板
成矿概念模型(Mineral System Model)是从"源-运-储-保"四个维度理解矿床形成过程的理论框架。它回答的核心问题是:成矿物质从哪来(源)、通过什么通道运移(运)、在哪里沉淀富集(储)、如何保存至今(保)。
在AI找矿中,成矿概念模型的作用不仅仅是"地质背景介绍",它直接决定了:(1) 正样本的定义标准——什么算"有矿";(2) 负样本的选取逻辑——什么算"确定无矿";(3) 特征工程的设计蓝图——需要计算哪些空间变量;(4) 模型结果的审查依据——预测图是否符合成矿规律。
如果成矿概念模型不准确或不完整,后续无论用多先进的算法都无法弥补。这就是为什么说"垃圾进、垃圾出"——AI的上限由地质认识决定。
建议地质人员在构建模型时参考"成矿系统"(Mineral Systems)方法,该方法强调从地质过程而非矿床描述出发,更适合指导找矿预测中的特征设计。
本阶段的核心目标是将地质、地球物理、地球化学、遥感、地形等多源异构数据进行统一化预处理,使其能够被机器学习模型读取和使用。这些数据来自不同机构、不同时期、不同精度,必须经过严格的预处理才能进入模型。地质人员在这一阶段的关键角色是审查数据的地质可信度——AI工程师能检查格式错误和缺失值,但只有地质人员能判断数据在地质上是否合理。
| 任务内容 | 责任角色 | 说明 |
|---|---|---|
| 逐套审查数据的地质可信度 | 地质人员 | 地质图版本、化探采样密度、物探参数合理性 |
| 判断数据缺口并提出补充建议 | 地质人员 | 哪些控矿要素缺数据、能否间接补充 |
| 提取前人报告中的历史知识 | 地质人员 | 定性结论结构化提取 |
| 统一坐标系与空间分辨率 | 协作 | 地质人员提供目标坐标系,AI人员执行批量转换 |
| 数据格式转换与清洗 | AI人员 | 缺失值填充、异常值检测、栅格重采样 |
| 构建统一空间底图与网格化 | AI人员 | 所有数据对齐到统一网格 |
| 建立元数据台账 | 协作 | 每份数据的来源、精度、时间、责任人 |
QGIS 叠加查看空间数据 · Excel 统计数据质量指标 · MapGIS 对比不同版本地质图数据质量审查报告_项目名_v1.docx审查化探数据
Au_stream_sediment_UTM46N.csv(字段:sample_id, easting, northing, Au_ppb, As_ppm, Sb_ppm, Bi_ppm, W_ppm):✅ 采样密度4点/km²,满足矿田级预测(100–500m网格)需求
✅ 采样介质统一为水系沉积物
⚠️ 发现Au检出限在2016年批次为0.3ppb、2019年批次为0.1ppb,存在系统偏差 → 建议:对2016年批次数据进行检出限统一校正
❌ 工作区西北角约15%面积无化探覆盖 → 建议:标注为"数据空白区",该区域预测结果置信度需降低
审查航磁数据:化极纬度参数需确认是否使用了藏南地区的实际磁倾角(约45°),而非默认的90°极地参数。
正确做法:必须从地质视角逐项审查,给每套数据打分并附具体问题清单。
QGIS(查看图层CRS属性 / 批量重投影)· ArcGIS 投影转换工具 · Excel 登记各数据源的坐标系信息数据名称、原始坐标系、目标坐标系、转换方法、是否已转换、转换责任人。建议命名:坐标系统一方案_项目名.xlsx西藏金矿项目:统一目标坐标系
WGS84 / UTM Zone 46N (EPSG:32646)- 化探数据:原始为WGS84地理坐标(经纬度)→ 需转为UTM 46N投影坐标
- 1:5万地质图:原始为北京54 / 高斯6度带 → 需用七参数转为WGS84 UTM 46N
- 航磁GeoTIFFGeoTIFF:一种嵌入地理空间参考信息(坐标系、投影、像元大小、地理范围)的栅格图像格式。AI找矿中所有空间特征的标准输出格式。与普通TIFF的区别是多了地理元数据,可在GIS软件中直接定位和叠加。:已是WGS84 UTM 46N ✅
- ASTER遥感:原始WGS84地理坐标 → 需重投影到UTM 46N
白云鄂博稀土矿项目:统一目标坐标系
CGCS2000 / 3度带第39带 (EPSG:4534)- 土壤化探:原始为西安80 / 3度带 → 需用四参数转为CGCS2000
- 1:5万地质图:原始为CGCS2000 ✅
- 布格重力GeoTIFF:需确认投影定义是否正确
正确做法:逐一核实每套数据的坐标系定义,对坐标系不详的数据用已知控制点进行校验。在QGIS中叠加后目视检查关键地物(如矿点、道路交叉口)是否对齐。
Excel 对照控矿要素清单逐项检查 · Word 撰写评估报告数据缺口评估_项目名_v1.docx控矿要素清单中有"碳酸岩体分布"——1:5万地质图已包含 ✅
控矿要素清单中有"接触带蚀变分带"——缺少野外蚀变填图数据 ⚠️
→ 替代方案:用 Sentinel-2 遥感的碳酸盐化/赤铁矿化波段比值提取替代,精度有限但可接受
→ 严重程度:一般缺口(有替代方案)
控矿要素清单中有"深部碳酸岩体产状"——仅18个历史钻孔,覆盖有限 ⚠️
→ 替代方案:结合布格重力反演推断深部岩体形态
→ 严重程度:关键缺口(深部信息不足将影响深部靶区预测可信度)
正确做法:用控矿要素清单逐项"打钩",确保每个要素都有对应数据或明确的替代方案。
Excel 制作结构化知识表 · Word 摘录原文关键段落 · 文献管理工具(Zotero/EndNote)管理参考文献知识内容、来源文献/报告、确定性等级(确定/较确定/推测)、是否可量化、量化参数。建议命名:历史知识提取_项目名_v1.xlsx| 知识内容 | 来源 | 确定性 | 可量化 | 量化参数 |
| 金矿化主要受EW向韧性剪切带控制 | 1:5万矿调报告(2018) | 确定 | 是 | 距EW剪切带距离 |
| NE向张性裂隙为次级容矿空间 | 西藏地质志 | 确定 | 是 | EW与NE交汇部位缓冲区 |
| 矿体赋存于强绢英岩化变质砂岩中 | GIS-MPM论文(Zhuonuo) | 确定 | 是 | 蚀变强度指数 |
| STDS拆离系可能提供深部流体通道 | 学术推论 | 推测 | 否 | — |
| 矿化富集于海拔4500–5000m带 | 统计观察 | 较确定 | 是 | DEM高程带 |
正确做法:系统性地检索和提取前人报告中的控矿认识,区分确定性等级,形成结构化知识表。
📦 阶段二交付物清单
| 交付物 | 格式 | 负责人 | 验收人 |
|---|---|---|---|
| 数据质量审查报告 | Word (.docx) | 地质人员 | 项目负责人+AI负责人 |
| 坐标系统一方案表 | Excel (.xlsx) | 地质人员+AI人员 | GIS工程师 |
| 数据缺口评估与补充建议 | Word (.docx) | 地质人员 | 项目负责人 |
| 历史知识提取表 | Excel (.xlsx) | 地质人员 | 地质组长 |
| 元数据台账 | Excel (.xlsx) | 地质+AI协作 | 数据工程师 |
| 预处理后数据包 | GeoTIFF/CSV/Shapefile | AI人员 | 地质人员复核 |
找矿预测需要融合的数据类型极其多样:地质图(矢量多边形)、化探数据(离散点)、物探数据(规则网格栅格)、遥感影像(像素栅格)、DEM(连续栅格)、矿点(离散点)。这些数据不仅格式不同,其空间分辨率、时间版本、精度等级也各异。
机器学习模型要求所有输入特征在同一空间参考框架下、同一分辨率上对齐。因此,数据准备阶段需要完成:(1) 坐标系统一——所有数据转到同一投影;(2) 空间分辨率统一——重采样到统一网格;(3) 数据类型转换——矢量转栅格、点数据插值等;(4) 质量控制——缺失值、异常值、系统偏差处理。
常见数据类型及处理目标:地质图 → 空间分布编码(独热编码/标签编码);构造数据 → 距离计算、密度分析;地球化学 → 异常提取、插值成图;地球物理 → 网格化、滤波处理;遥感数据 → 蚀变信息提取;DEM → 地形特征派生(坡度、坡向、起伏度)。
数据质量检查核心项:坐标系统一(全部统一到同一投影)、空间分辨率一致(栅格重采样)、时间版本一致或可融合、缺失值控制(单要素缺失 < 20%)、无重复/错误点、数据使用权限明确。
AI找矿预测中,地质人员最常遇到的困惑之一是:"我手头的数据格式五花八门,AI工程师说要'标准化输入',但我不知道我的数据到底要经过哪些步骤才能变成AI能用的形式。"
本节按数据类型逐一说明:原始格式是什么、需要做哪些标准化操作、最终交给AI的是什么格式,以及地质人员需要亲自做什么、可以交给AI人员的是什么。
🗺️ 数据转换路径总览
📋 各类地质数据格式速查表
| 数据类型 | 常见原始格式 | 常用软件 | AI就绪目标格式 | 地质人员必做 | AI人员负责 |
|---|---|---|---|---|---|
| 地质图(面) | .shp / .gdb / .wt(MapGIS) / .mif |
QGIS、ArcGIS、MapGIS | GeoTIFF(岩性编码值栅格)+ CSV编码表 | 检查属性字段完整性、岩性分类统一性 | 矢量→栅格、one-hot编码、重采样 |
| 构造(线) | .shp / .wl(MapGIS) / .dxf |
QGIS、ArcGIS、MapGIS、AutoCAD | GeoTIFF(距离栅格或密度栅格) | 补全断裂级别/走向属性字段,删除无效线段 | 按走向筛选、计算距离/密度、重采样 |
| 化探(点) | .xlsx / .csv / .mdb(Access) |
Excel、Access、ioGAS | GeoTIFF(插值栅格)或CSV(点样本特征) | 核查坐标列、统一检出限、标注空白区 | 克里金/IDW插值、异常提取、重采样 |
| 物探(重磁电) | .grd(Surfer) / .dat / .xyz / GeoTIFF |
Surfer、Oasis Montaj、Geosoft | GeoTIFF(物理量或滤波结果) | 确认坐标系、确认化极/滤波参数合理性 | 格式转换、重采样、多波段合并 |
| 遥感影像 | .tif / .img / .hdf / .nc |
ENVI、ERDAS、GEE、QGIS | GeoTIFF(蚀变指数单/多波段) | 审查蚀变提取结果地质合理性、确认时相 | 大气校正、波段计算、去云、重采样 |
| DEM(地形) | .tif(SRTM/ASTER)/ .dem / ASCII grid |
QGIS、ArcGIS、SAGA GIS | GeoTIFF(坡度/坡向/地形起伏度) | 确认分辨率是否满足预测尺度 | 地形衍生特征计算、重采样 |
| 矿点/矿化点 | .xlsx / .csv / .shp(点矢量) |
Excel、QGIS | CSV(正样本表:id, x, y, label) | 核实坐标精度、确认矿化类型属性、排除伪矿点 | 坐标投影转换、样本划分 |
| 钻孔测井 | .las(LAS 2.0/3.0)/ .xlsx / .csv |
Petrel、LogPlot、Python lasio库 | CSV(深度-属性表)/ 剖面GeoTIFF | 确认曲线命名规范、标注井位坐标 | las解析、插值到统一深度网格 |
| 地球化学填图(面) | .shp(面矢量)/ 纸质等值线图 |
ArcGIS、QGIS、MapGIS | GeoTIFF(元素分区值栅格) | 检查分区属性字段是否为数值型 | 面矢量→栅格栅格化 |
✏️ 字段命名规范:地质人员提交数据前必查
| 字段名 | 说明 | 示例 |
sample_id | 唯一样品编号 | XT2023-001 |
x / easting | 投影X坐标(米) | 623450.5 |
y / northing | 投影Y坐标(米) | 3245678.2 |
Au_ppb | 元素名_单位(小写) | 12.5 |
year | 采样年份 | 2019 |
medium | 采样介质 | stream_sed |
| 字段名 | 说明 | 示例 |
id | 唯一编号 | deposit_001 |
x | 投影X坐标(米) | 623450.5 |
y | 投影Y坐标(米) | 3245678.2 |
label | 1=正样本,0=负样本 | 1 |
deposit_type | 矿床类型 | orogenic_Au |
coord_accuracy_m | 坐标精度(米) | 50 |
🔄 数据不足时的降级策略
| 缺失数据类型 | 严重程度 | 推荐替代方案 | 注意事项 |
|---|---|---|---|
| 化探数据完全缺失 | 关键 | 遥感蚀变信息(硅化/碳酸盐化)代替元素异常;引用区域地化图件 | 遥感只反映地表,无法替代深部化探信息;需在报告中注明此局限 |
| 地质图(精度不足或缺失) | 关键 | 使用更小比例尺区域图件(1:20万→1:5万);遥感岩性解译辅助 | 小比例尺岩性分类粗糙,会降低空间特征精度;需与预测尺度匹配 |
| 物探数据(航磁/重力)缺失 | 中等 | 用卫星重力(EIGEN/GGM)替代地面测量;用遥感磁化率指标替代 | 卫星数据分辨率低(~10km),仅适合区域尺度预测 |
| 遥感蚀变信息缺失(云覆盖) | 中等 | 多时相影像合成去云(GEE);使用SAR穿云(Sentinel-1) | SAR反映地表粗糙度非蚀变,解译逻辑不同;需有对应地质解释 |
| 矿点数量过少(<10个) | 关键 | 引入邻区同类矿床数据扩充;使用弱监督/无监督学习方法 | 样本过少会严重过拟合过拟合(Overfitting):模型在训练集上表现很好,但在新数据(测试集)上表现差的现象。原因是模型"记住"了训练数据的噪声而非成矿规律。在AI找矿中常见原因:样本量太少、特征数量过多、模型过于复杂。;应考虑知识驱动方法(证据权重法)代替机器学习 |
| DEM/地形数据缺失 | 较低 | 使用SRTM(30m)或ASTER GDEM(30m)全球免费数据 | 高山区SRTM误差较大;需与其他数据分辨率一致 |
国家基础地质数据(1:5万、1:25万区调、化探扫面成果等)通常由中国地质调查局或各省地调院持有,公开使用有授权限制。在AI找矿预测项目中使用这些数据前,需确认:数据来源是否有正式合同/授权书、是否允许用于商业或科研目的、成果报告中是否需要注明数据来源并签保密协议。
商业遥感影像(WorldView、Pleiades、高分系列)有明确的版权保护,不能直接用于商业找矿项目。应使用已购买版权的影像或Sentinel-2/Landsat等开源影像。
企业内部数据(钻孔、化探、物探等勘查数据)属于企业机密,在与AI团队共享时,应核实是否签署了保密协议(NDA),在云端处理时需注意数据不上传未经授权的服务器。
实操建议:建立项目数据台账时,增加"数据版权/授权状态"字段,逐套数据注明来源、授权类型(公开/商业授权/企业自有)、是否允许发表。这不仅是法律合规要求,也是项目审计时的重要依据。
GeoTIFF是AI找矿预测中最通用的栅格格式,因为它同时携带空间参考信息(坐标系、投影、像元大小)和数据值。机器学习模型的输入本质上是一个"特征矩阵":行=样本点,列=特征值。在空间预测中,每个预测网格单元就是一个样本,每个GeoTIFF图层就是一列特征。
具体来说,在100m网格分辨率下,一个100km×100km的研究区有100万个网格单元,每个单元对应一行数据,10个GeoTIFF图层则对应10列特征。这个1,000,000×10的矩阵就是模型的输入。
统一分辨率的重要性:所有GeoTIFF图层必须有完全相同的像元大小、范围和坐标系,否则无法对齐成矩阵。地质人员常见问题:化探用的200m插值栅格、遥感用的30m影像、物探用的500m网格,如果不统一到同一分辨率(如100m),模型无法处理。分辨率的选择取决于最稀疏的数据(通常是化探点密度)。
NoData处理:GeoTIFF有NoData值(通常设为-9999或NaN)表示数据缺失区域。如果某个图层在研究区边角有NoData,该区域在所有特征都提取后会被自动排除或需要特殊处理——地质人员需告知AI工程师这些区域是否有地质意义(如"西北角是国境线外,不参与预测")。
🌐 常用坐标系速查表
| 坐标系名称 | 类型 | EPSG代码 | 适用范围 | 地质工作常见用途 | 注意事项 |
|---|---|---|---|---|---|
| CGCS2000(地理) | 地理坐标 | EPSG:4490 |
全国 | 国家地调成果标准坐标系,1:5万区调默认 | 经纬度格式,需投影才能做距离计算 |
| CGCS2000 / 3度带 | 投影坐标 | EPSG:4513–4534(第25–46带) |
全国,按经度带划分 | 国内矿权登记、地质图标准投影;东经120°区域用第40带(4535) | 3度带号 = int(中央经线/3);云南大部分用第37–39带 |
| CGCS2000 / 6度带 | 投影坐标 | EPSG:4491–4512(第13–24带) |
全国 | 1:25万及更小比例尺区域地质图 | 精度略低于3度带,大范围区域预测可用 |
| WGS84(地理) | 地理坐标 | EPSG:4326 |
全球 | GPS记录坐标、遥感影像默认、国际数据库 | 与CGCS2000差异<1m,通常可直接互用 |
| WGS84 / UTM Zone 46N | 投影坐标 | EPSG:32646 |
东经90°–96° | 西藏中部、云南西部找矿项目;Landsat/ASTER默认分发 | 适合跨国对比或用全球开源数据的项目 |
| WGS84 / UTM Zone 47N | 投影坐标 | EPSG:32647 |
东经96°–102° | 云南大部分、四川西南、西藏东部 | 西南地区AI找矿项目最常用UTM带之一 |
| WGS84 / UTM Zone 48N | 投影坐标 | EPSG:32648 |
东经102°–108° | 云南东部、广西、贵州、四川盆地 | — |
| 西安80(地理) | 地理坐标 | EPSG:4610 |
全国(旧) | 2008年前的地质报告、矿权证、老地质图 | ⚠️ 转CGCS2000需四参数(局部精度),切勿直接当CGCS2000用 |
| 西安80 / 3度带 | 投影坐标 | EPSG:2349–2370 |
全国(旧) | 1980–2008年国内地质图标准投影 | ⚠️ 与CGCS2000 3度带同号但坐标不同,混用误差可达数十米 |
| 北京54(地理) | 地理坐标 | EPSG:4214 |
全国(旧) | 1980年前历史图件、部分矿山老资料 | ⚠️ 转WGS84/CGCS2000需七参数,偏差可达百米量级 |
| 北京54 / 6度带 | 投影坐标 | EPSG:21413–21423 |
全国(旧) | 建国初期地质图、老矿山测量 | ⚠️ 需七参数精确转换;QGIS可通过proj转换,需指定转换网格文件 |
西安80 → CGCS2000(推荐四参数法):
两种坐标系均以GRS80椭球为基准,理论上差异极小,但实际上由于国内控制点网平差差异,局部偏差可达0.1–2m。对于1:5万及更大比例尺的精确工作,建议使用四参数(X平移、Y平移、旋转角、尺度因子)进行转换。在QGIS中:图层右键→属性→坐标参考系→使用已知四参数手动定义转换。如无本地四参数,可向省级自然资源厅或测绘院申请。
北京54 → CGCS2000/WGS84(必须七参数):
北京54采用克拉索夫斯基椭球,与GRS80差异显著,直接重投影误差高达50–200m,这是地质图层空间对不上的最常见原因。正确做法:(1) 获取本区域七参数(X/Y/Z平移、X/Y/Z旋转、尺度因子)——通常由原图件编制单位或测绘部门提供;(2) 在QGIS的"CRS转换"中选择"位置七参数转换"并输入参数;(3) 转换后用已知控制点(如矿山建筑物坐标)验证误差是否<5m。
快速判断转换是否正确的方法:
在QGIS中叠加转换后的地质图与谷歌卫星底图(XYZ底图,WGS84)。检查:(1) 主要河流、山脊线是否与地质图构造线位置吻合;(2) 已知矿山坐标是否落在对应位置;(3) 不同来源数据叠加后的地物是否对齐。如果误差>半个像元(在100m分辨率下即>50m),需要重新核查转换参数。
QGIS常用坐标系操作备忘:投影→CRS转换工具(矢量)/ 栅格→投影 / 批量处理:处理工具箱→重投影图层;查看当前图层CRS:图层属性→信息→坐标参考系;在状态栏设置"即时坐标转换"可实时查看鼠标位置在不同CRS下的坐标。
本阶段是地质人员与AI工程师协作最密切的环节。原始地质数据不能直接输入模型,需要转化为AI能理解的"数值特征"。特征工程是找矿预测中最体现地质功底的环节——好的特征往往比好的算法更重要。地质人员的核心职责是告诉AI工程师"算什么"(而不是"怎么算"),并在特征计算完成后审查结果的地质合理性。同时,样本构建(正负样本的最终划分与空间交叉验证空间交叉验证(Spatial Cross-Validation):将研究区按空间位置分块(而非随机分割)进行交叉验证的方法。避免空间自相关导致的"邻近泄漏"——即训练集和测试集中包含地理位置相邻的样本,使得评估结果过于乐观。策略)也在本阶段确定。
| 任务内容 | 责任角色 | 说明 |
|---|---|---|
| 提出特征设计建议(算什么+为什么) | 地质人员 | 基于控矿要素清单,用地质语言描述需计算的特征 |
| 审查计算后的特征结果 | 地质人员 | 检查特征值分布是否符合地质预期 |
| 确定样本划分策略 | 协作 | 地质人员提供空间分块建议,AI人员实现划分 |
| 编程实现特征计算 | AI人员 | 用Python/GIS工具实现距离、密度、插值等计算 |
| 特征标准化与降维 | AI人员 | Z-score、Min-Max、PCA等 |
| 样本不平衡处理 | AI人员 | SMOTESMOTE(Synthetic Minority Over-sampling Technique):一种处理样本不平衡的方法,通过在少数类(正样本/矿化点)周围生成合成样本来平衡正负样本比例。注意:在空间数据中需谨慎使用,合成的空间坐标可能不具有地质意义。、下采样、类别权重调整 |
| 识别数据泄漏风险 | 协作 | 地质人员判断特征是否包含"答案信息" |
Excel 制作特征设计建议表 · QGIS 辅助可视化验证设计逻辑 · Word 撰写地质依据说明控矿要素、建议特征名、计算描述、地质依据、数据来源、优先级(高/中/低)。建议命名:特征设计建议_项目名_v1.xlsx| 控矿要素 | 建议特征名 | 计算描述 | 地质依据 | 优先级 |
| EW向剪切带 |
dist_EW_shear | 计算每个网格到EW向(走向80°–100°)韧性剪切带的最近欧氏距离 | 金矿化受EW向主剪切带控制 | 高 || 断裂交汇 |
density_fault_intersect | EW向与NE向断裂交汇点的核密度估计(带宽500m) | 矿化富集于构造交汇部位 | 高 || 蚀变 |
alteration_index | ASTER波段比值提取绢云母化+硅化蚀变强度指数 | 矿体赋存于强蚀变带 | 高 || 化探组合 |
AuAsSb_composite | Au-As-Sb三元素Z-score标准化后求和的组合异常指数 | 不用单元素Au,三元素组合更稳健 | 中 |白云鄂博稀土矿项目——特征设计建议(节选):
| 控矿要素 | 建议特征名 | 计算描述 | 地质依据 | 优先级 |
| 碳酸岩体接触带 |
dist_carbonatite_contact | 计算每个网格到碳酸岩体边界的最近距离(正值=外侧,负值=内侧) | REE矿化集中在碳酸岩体与围岩接触带200m范围 | 高 || 碳酸岩体缓冲区 |
buffer_200m_carbonatite | 碳酸岩体外接触带200m缓冲区的布尔值(0/1) | 高品位段集中在外接触带200m内 | 高 || NE向断裂 |
dist_NE_fault | 计算每个网格到NE向断裂的最近距离 | NE向断裂控制碳酸岩体展布 | 中 |
正确做法:精确到特征名、计算方法、参数值。比如"计算每个网格到EW向(走向80°–100°)韧性剪切带的最近欧氏距离"而非"计算断裂距离"。
QGIS 叠加特征栅格图与地质图目视检查 · Excel 查看特征统计摘要 · AI人员提供的特征分布直方图通过 / 需修改(附修改建议) / 不通过(附原因)。建议命名:特征审查报告_项目名_v1.docxdist_EW_shear:✅ 在QGIS中叠加"距EW向剪切带距离"栅格图与已知矿化点,发现32个矿化点中有28个落在距EW剪切带 <1000m 范围内,分布符合地质预期 → 通过
⚠️ 审查特征
elevation(高程):发现矿化点集中在4500–5000m带,但这可能是"矿化出露高程"而非"控矿要素",高程与矿化之间可能只是虚假相关 → 建议降低优先级,或在消融实验消融实验(Ablation Study):逐一移除某个特征或模块后观察模型性能变化的实验方法。在AI找矿中用于判断哪些特征真正有贡献——某特征被删除后AUC大幅下降,说明该特征对模型重要。中验证❌ 发现AI人员额外加入了
dist_known_deposit(距已知矿点距离)特征 → 不通过!这是典型数据泄漏,必须删除
正确做法:逐特征审查,尤其关注数据泄漏和伪相关。
QGIS 绘制空间分块方案图 · Word 撰写分块依据说明32个已知矿化点,工作区约1200km²。建议将工作区沿EW方向分为4个空间块(每块约300km²),分块边界尽量沿NW向次级构造带划分(这些构造带本身可能对矿化有分隔作用)。
统计:Block A含矿点11个(包括2个大型矿点),Block B含8个,Block C含9个,Block D含4个。
→ 建议4折空间交叉验证,每次留出一个块作测试集。
→ Block D矿点偏少,可考虑与相邻块合并后做3折验证。
正确做法:必须使用空间分块划分,确保训练和测试样本在空间上完全分离。
Excel 逐一审查特征清单 · 地质常识判断 · 与AI人员讨论审查AI工程师生成的28个候选特征:
❌
dist_known_ore_body(距已知矿体距离)→ 直接泄漏,删除❌
mining_license_buffer(矿权区500m缓冲区)→ 人为信息泄漏,删除⚠️
road_density(道路密度)→ 矿区附近道路密度高是开采的结果而非成矿原因,建议删除✅
dist_carbonatite_contact(距碳酸岩体接触带距离)→ 这是成矿条件而非答案本身,保留关键区分:"距碳酸岩体接触带距离"是成矿条件(合理特征),而"距已知矿体距离"是答案本身(泄漏特征)。
正确做法:区分"成矿条件"(如距断裂距离、蚀变强度——这些是地质过程的表征)和"答案信息"(如距已知矿点距离——这是结果本身),只保留前者。
📦 阶段三交付物清单
| 交付物 | 格式 | 负责人 | 验收人 |
|---|---|---|---|
| 特征设计建议表 | Excel (.xlsx) | 地质人员 | AI工程师 |
| 特征审查报告(含泄漏检查) | Word (.docx) | 地质人员 | AI负责人+地质组长 |
| 样本划分策略建议 | Word + 方案图 | 地质+AI协作 | 项目负责人 |
| 最终特征矩阵 | CSV / GeoTIFF | AI人员 | 地质人员复核 |
| 正负样本最终版 | CSV | 地质+AI协作 | 双方确认签字 |
💬 与AI团队沟通模板
常用特征类型:
距离特征(距断裂距离、距岩体距离)→ GIS欧氏距离/缓冲区分析;密度特征(断裂密度、线环构造密度)→ GIS核密度估计;地层组合(地层编码、有利层位标记)→ 独热编码/标签编码;蚀变特征(蚀变强度、蚀变类型)→ 遥感光谱比值法;地球化学(单元素异常、多元素叠加指数)→ Z-score/多重分形;地球物理(布格重力异常、航磁异常导数)→ 滤波、延拓、求导;地形特征(坡度、坡向、地形起伏度)→ DEM派生。
数据标准化:不同特征的量纲差异很大(如 ppm vs nT vs m),必须进行标准化处理。常用方法包括:Z-score标准化(均值为0、方差为1)、Min-Max归一化(缩放到[0,1])。对于高维特征,可使用PCA或自编码器进行降维。
样本构建要点:正样本来源于地质调查和历史勘探资料(已知矿床、矿点、强矿化蚀变点)。负样本选择远离已知矿化、地质背景稳定的区域——关键原则:不要把"未知矿化区"误标为负样本,否则会引入标签噪声。样本不平衡是常态(矿床样本少、背景样本多),常用处理策略包括:下采样(Undersampling)、上采样(SMOTE)、类别权重调整、难例挖掘。
空间交叉验证原理:传统随机K折交叉验证在空间数据上会失效——因为空间自相关(相邻区域性质相似),随机划分会导致训练和测试样本"太像",评估结果过于乐观。空间分块划分(Spatial Block Split)通过确保训练和测试数据在空间上完全分离来解决这个问题。
本阶段以AI/算法工程师为主导,地质人员的角色从"操作者"转变为"监督者与协作者"。模型选择应遵循"从简单到复杂"的原则——先用经典机器学习(随机森林随机森林(Random Forest):一种集成学习方法,通过构建多棵决策树并取平均来提高预测精度和稳定性。在AI找矿中广泛使用,优点是可解释性强(支持特征重要性排名)、对小样本鲁棒、不易过拟合。、XGBoost)建立基线,确认数据和特征没有问题后,再逐步引入深度学习或多模态方法。地质人员不需要亲自调参写代码,但需要确保训练过程中使用的数据版本、特征版本与前序阶段的地质审查结论一致。
| 任务内容 | 责任角色 | 说明 |
|---|---|---|
| 建立基线模型(RF / XGBoostXGBoost(eXtreme Gradient Boosting):一种高效的梯度提升算法,通过迭代训练多棵决策树并逐步修正误差来提高预测精度。比随机森林精度略高,但可解释性稍弱,对超参数更敏感。) | AI人员 | 先用经典算法确认数据质量 |
| 空间交叉验证与超参数调优 | AI人员 | 使用Spatial CV、GridSearch/Optuna |
| 比较不同特征组合(消融实验) | AI人员 | 验证哪些特征组合效果最好 |
| 确认训练数据版本与审查一致性 | 地质人员 | 确保用的是审查通过的数据和特征 |
| 审查特征版本与控矿逻辑一致性 | 地质人员 | 模型实际使用的特征是否与地质建议一致 |
| 在实验日志中添加地质备注 | 地质人员 | 记录地质视角的观察和建议 |
| 讨论消融实验结果的地质含义 | 协作 | 某特征删除后性能变化是否符合预期 |
| 尝试进阶模型(CNN/GNN等) | AI人员 | 基线稳定后可尝试深度学习方法 |
Excel 对比样本数量 · 查看AI人员提供的数据版本号/哈希值 · 口头或会议确认数据项、版本号、样本数量、地质人员确认签名、日期确认单内容:
- 正样本:32个矿化点,版本v2(剔除了2个坐标精度>200m的不可靠点后剩30个)✅
- 负样本:120个背景点,版本v1(5km缓冲区外+稳定地层区)✅
- 特征数量:14个(排除了
dist_known_deposit和road_density,与审查报告一致)✅- 特征矩阵文件:
feature_matrix_v2_20260415.csv,MD5: a3b5c7d9... ✅- 地质人员确认签名:[签名] 日期:2026-04-15
正确做法:不需要看代码,只需核对数据版本号、样本数量和特征列表是否与审查报告一致。
Excel 对照特征清单(审查版 vs 实际使用版)一致/不一致(原因)对照检查发现:
✅
dist_carbonatite_contact → 已纳入,与审查一致✅
buffer_200m_carbonatite → 已纳入⚠️
gravity_residual → 审查建议"需修改:改用布格重力异常而非剩余重力异常",但实际训练中仍使用剩余重力异常 → 不一致,要求修正❌
dist_known_ore_body → 审查明确不通过,但发现AI人员在自动特征工程中又生成了类似特征 → 立即删除
正确做法:训练前做一次"特征列表比对",5分钟即可完成,但能避免大量返工。
Excel 实验日志表 · MLflow Web界面(浏览器访问,不需要编程)· Word 会议纪要实验编号、地质备注、是否建议调整、调整方向实验 #007(删除
dist_EW_shear 的消融实验):→ AUC从0.82降至0.71,降幅最大
→ 地质备注:"符合预期。EW向韧性剪切带是该区造山型金矿的最核心控矿构造,删除后性能大幅下降合理,说明模型确实学到了构造控矿信号。建议此特征为必选特征。"
实验 #012(添加
elevation 高程特征):→ AUC从0.82升至0.85
→ 地质备注:"性能提升但需谨慎。高程提升可能是伪相关——矿化出露主要在4500–5000m带是地形侵蚀的结果而非控矿原因。建议在独立测试集中验证此特征是否仍有效,如果仅在训练区有效则为过拟合。"
正确做法:每次重要实验都给出地质解读——"为什么性能变了?变化方向是否合理?"
地质建议:继续进行消融实验和可解释性分析。
地质建议:回查是否正负样本比例极端不平衡,或样本量太少,可尝试增加正则化或减少特征数量。
地质建议:检查关键控矿要素是否有特征缺失,或样本标签定义是否有问题;尝试更复杂的模型。
AI人员提供的训练曲线显示:训练集AUC从第10轮开始稳定在0.91,但验证集AUC在第8轮达到0.84后开始缓慢下降到0.79。
→ 诊断:轻度过拟合
→ 地质建议:当前14个特征中可能有几个相关性很高的冗余特征(如同时用了"距EW断裂距离"和"EW断裂密度",两者高度相关)。建议去掉冗余特征,或增加负样本数量(从120个扩展到200个)。
正确做法:永远同时看训练集和验证集的性能曲线,两者的差距才是关键信号。
Excel 模型对比表 · 讨论会议 · 《特征重要性审查报告》对照| 评判维度 | 看什么 | 优先级 |
| 验证集AUC | 空间交叉验证下的AUC,非随机分割AUC | 最重要 |
| 特征重要性地质合理性 | 控矿要素是否排名靠前、是否有伪相关 | 最重要 |
| 远景图空间分布 | 高分区域是否在地质有利部位 | 重要 |
| 测试矿点召回率 | 独立测试矿点落在高分区的比例 | 重要 |
| 模型可解释性 | 随机森林/XGBoost比深度学习更容易解释 | 参考 |
| 模型 | 空间CV AUC | 测试矿点召回率 | 地质合理性 | 推荐 |
| 随机森林(14特征) | 0.84 | 87% | ✅ 高 | ✅ 推荐 |
| XGBoost(14特征) | 0.87 | 90% | ✅ 高 | 备选 |
| XGBoost(14+elevation) | 0.89 | 92% | ⚠️ 中(elevation伪相关) | ❌ |
| CNN(栅格输入) | 0.82 | 83% | ⚠️ 低(不可解释) | ❌ |
→ 最终选择随机森林(14特征):虽然AUC略低于XGBoost,但可解释性更强、地质合理性最高,是本项目的最优选择。XGBoost留作备选,可在第二轮迭代中使用。
正确做法:先排除包含伪相关或数据泄漏的模型,在剩余候选中再看AUC和召回率。
📦 阶段四交付物清单
| 交付物 | 格式 | 负责人 | 验收人 |
|---|---|---|---|
| 训练数据版本确认单 | Excel / 签字表 | 地质人员 | AI负责人 |
| 特征一致性核对结果 | Excel | 地质人员 | AI工程师 |
| 实验日志(含地质备注) | MLflow / Excel | AI人员+地质备注 | 项目负责人 |
| 训练曲线诊断意见(过/欠拟合判断) | Word备注 | 地质人员 | AI工程师 |
| 模型对比表(含地质人员推荐列) | Excel | AI人员+地质推荐 | 全团队 |
| 最优模型文件 | .pkl / .pt | AI人员 | AI负责人 |
模型选择指南:
基线模型(优先尝试):随机森林(RF) → 小样本、非线性关系,稳健可解释;XGBoost/LightGBM → 中等样本量,精度高、训练快;支持向量机(SVM) → 高维特征,小样本表现好。
深度学习(基线稳定后尝试):CNN(卷积神经网络)→ 栅格化化探/磁测图像,自动提取空间纹理特征;GNN(图神经网络)→ 断裂网络拓扑关系,捕捉复杂空间连接。
融合与知识增强方法:多模态融合 → 地质+遥感+化探+物探联合,信息互补;知识图谱+ML → 整合专家知识与数据驱动,可解释性强。
训练流程:(1) 建立基线模型(RF或XGBoost);(2) K折交叉验证(空间分块);(3) 超参数调优(GridSearch / Optuna);(4) 消融实验——比较不同特征组合;(5) 比较不同采样策略(Imbalanced-learn);(6) 尝试进阶模型;(7) 记录每次实验(MLflow / Excel)。
地质人员需了解的关键概念:消融实验是逐一删除某个特征后观察模型性能变化——性能下降越多说明该特征越重要,如果删除某个控矿要素特征后性能几乎不变,说明模型没有有效利用该信息(可能是数据质量问题或特征设计不当)。
找矿不是只追求预测分数,而是要让地质逻辑能解释模型的判断。可解释性分析是AI找矿区别于纯数据科学任务的关键环节。地质人员在这一阶段重新回到核心位置——你需要审查SHAPSHAP (SHapley Additive exPlanations):一种可解释性分析方法,基于博弈论中的Shapley值。它计算每个特征对单个预测结果的正/负贡献,帮助理解"模型为什么对某个区域给出高分"。例如:某网格得分高,SHAP分析显示"距EW向剪切带距离"贡献最大且方向为正(越近得分越高),说明模型学到了构造控矿规律。值和特征重要性排名是否符合成矿规律,审查远景图的空间分布是否合理,识别伪相关和模型缺陷。
| 任务内容 | 责任角色 | 说明 |
|---|---|---|
| 审查SHAP/特征重要性排名的地质合理性 | 地质人员 | 排名是否与成矿理论一致 |
| 审查远景图空间分布合理性 | 地质人员 | 高分区是否在成矿有利部位 |
| 识别伪相关特征 | 地质人员 | 排名异常高的非控矿特征 |
| 撰写地质审查报告 | 地质人员 | 模型结果的全面地质评价 |
| 生成SHAP图、PDPPDP(Partial Dependence Plot,部分依赖图):展示某一特征的数值如何影响模型预测概率的可视化工具。横轴是特征值,纵轴是预测概率,可帮助地质人员识别控矿的有效距离阈值,验证成矿概念模型中的参数。图、特征重要性排名 | AI人员 | 使用shap库、sklearn PDP |
| 计算评估指标(AUC、Top-K、Precision/Recall) | AI人员 | 核心指标组合评估 |
| 讨论迭代方向 | 协作 | 基于审查结果确定是否需要回溯修正 |
Excel 记录审查结论 · Word 撰写审查意见特征名、重要性排名、SHAP贡献方向、地质合理性判断(合理/存疑/不合理)、说明特征重要性排名前5:
1.
dist_EW_shear(距EW向剪切带距离)→ SHAP方向:距离越近得分越高 → ✅ 合理:造山型金矿受EW向剪切带控制,这是最核心的控矿要素排第一完全正确2.
alteration_index(蚀变强度指数)→ SHAP方向:蚀变越强得分越高 → ✅ 合理3.
elevation(高程)→ SHAP方向:4500–5000m带得分最高 → ⚠️ 存疑:高程可能是伪相关(矿化出露高程是侵蚀的结果),建议做消融实验验证4.
AuAsSb_composite(Au-As-Sb组合异常)→ ✅ 合理5.
density_fault_intersect(断裂交汇密度)→ ✅ 合理⚠️ 关注点:
aeromagnetic_deriv(航磁一阶导数)排名倒数第2,但成矿概念模型中认为航磁可指示隐伏构造。排名低可能原因:(1) 数据分辨率不够;(2) 化极处理参数不准。建议追查。
正确做法:AUC只是统计指标,必须结合SHAP分析判断模型"学到了什么"——如果学到的是成矿规律则可信,如果学到的是噪声或伪相关则需要修正。
QGIS 叠加远景图与地质图、构造图、已知矿点 · ArcGIS 空间分析 · 目视判读✅ 合理区域:高概率区主要分布在已知碳酸岩体的外接触带(主矿和东矿周边200–500m范围),形态沿NE向断裂带延伸,与成矿概念模型一致
✅ 新发现潜力区:在主矿西南方向约3km处出现一个中-高概率区,叠加地质图发现该处有一个小型碳酸岩体露头(前人未系统勘查),值得关注
❌ 不合理区域:工作区东北角出现一片高分区,但该处为白云鄂博群H1–H5层位(碎屑岩段),远离碳酸岩体,地质上不具备稀土成矿条件 → 可能原因:该区域重力异常偏高(可能是其他因素引起),负样本在此区域覆盖不足
⚠️ 已知矿点检查:主矿和东矿的所有钻孔位置均落在高概率区(前10%)内,但有2个外围矿化线索点(REO品位较低)得分偏低(后40%),需要追查原因
正确做法:把远景图当作"决策支持工具"而非最终答案,逐区域审查空间合理性。
QGIS 空间叠加分析 · Word 撰写调整建议发现问题1:
elevation(高程)排名第3且SHAP贡献很大 → 判断:可能是伪相关→ 建议:进行消融实验——删除elevation后看AUC和空间分布变化。如果AUC下降但远景图空间分布更合理(不再集中于特定高程带),则确认为伪相关并永久删除
发现问题2:工作区南部某区域模型给出高分但地质图显示为第四系冲积层
→ 原因分析:该区域化探Au异常偏高(可能是上游矿化剥蚀运移导致),且负样本在此区域分布不足
→ 建议:(1) 在该区域补充负样本;(2) 在特征中添加"地层时代"编码以区分基岩和第四系
正确做法:对每个问题给出"问题描述 → 可能原因 → 具体建议"的三段式反馈。
Word 撰写报告 · QGIS 导出标注版远景图作为附件地质审查报告_模型v[X]_项目名.docx总体结论:有条件通过
模型整体趋势合理——EW向剪切带控矿信号被有效捕捉,高概率区主要分布在已知成矿带及其延伸方向。但存在以下问题需在v2版本修正:
1. 【必须修正】删除
elevation特征(伪相关风险)2. 【必须修正】工作区南部第四系区域误判高分,需补充负样本
3. 【建议优化】航磁特征贡献偏低,建议重新检查化极参数后更新特征
4. 【建议优化】2个已知矿化点得分偏低,可能与化探覆盖空白有关
正确做法:认真写审查报告,明确指出需要迭代的问题和方向。通常需要2–3轮迭代才能达到满意效果。
地质问题:控矿要素是否排名靠前?是否有意外高排名的非控矿特征?
注意:这个图只告诉你"谁重要",不告诉你"怎么影响"——需要配合Beeswarm图看方向。
地质问题:特征值高时贡献是正还是负?
典型合理模式:"距断裂距离"特征,距离小(蓝色点)应在横轴右侧(正贡献),距离大(红色点)应在左侧(负贡献)——即"越近越有矿"。
预警信号:如果颜色和位置关系反常(距离大反而正贡献),说明特征计算或样本可能有问题。
何时用:当某个靶区让你觉得"说不通"时,要求AI人员对该靶区中心点做Waterfall图,看模型究竟是凭什么给这里打高分。
实操场景:发现一个不合理的高分区 → 要求该区域的Waterfall图 → 如果主要贡献来自一个可疑特征(如elevation)→ 确认删除该特征并重新训练。
特征
dist_EW_shear(距EW向剪切带距离):→ 低值点(蓝色,距离近)集中在横轴右侧(SHAP值为正)✅ 合理:距剪切带越近越有矿
特征
elevation(高程):→ 中等值点(4500–5000m)集中在右侧,高值和低值都在左侧
→ 分析:4500–5000m带对应最多矿化点的高程区间,但这是"矿化出露在哪个高程"的统计结果,不是"高程控制成矿"的机理。这正是伪相关的典型SHAP特征——数字上似乎有规律,但地质上没有成因联系。
→ 决策:删除该特征,重新训练。
| 你应该问 | 地质含义 | 合理 vs 可疑 |
| 曲线在哪个值附近发生拐点? | 控矿有效距离/阈值 | 合理:距离<500m骤升,符合"矿体集中在剪切带500m内" |
| 曲线是单调的还是U形/倒U形? | 有利区间(不是越近越好也不是越远越好) | 正常:接触带有最优距离,太近或太远都差 |
| 曲线是否平坦(没有变化)? | 该特征对模型几乎没有贡献 | 追查:数据质量?特征计算有误? |
| 拐点值是否与概念模型一致? | 数据验证了地质判断,或提示修正 | 若模型说300m、你认为200m,可讨论是否修正缓冲区参数 |
PDP图:
dist_carbonatite_contact(距碳酸岩体接触带距离)横轴0–2000m,曲线形态:0–180m区间预测概率高(约0.72),180–400m快速下降,400m以上趋于背景值(约0.25)。
→ 地质解读:模型识别出的"控矿有效距离"约为180m,与成矿概念模型中设定的"200m接触带缓冲区"基本吻合(偏差20m在数据精度范围内)✅
→ 发现新信息:曲线在距离0–30m处有一个小谷底(概率略低),然后在30–180m段最高。说明碳酸岩体内部(接触带<30m的核心区)成矿概率反而略低——可能是碳酸岩体本身成矿物质比外接触带少。这个细节在成矿概念模型中没有明确说明,可供修订参考。
正确做法:对每个高优先级特征都要求提供PDP图,并与成矿概念模型中的定量参数对比。
📦 阶段五交付物清单
| 交付物 | 格式 | 负责人 | 验收人 |
|---|---|---|---|
| SHAP/特征重要性审查意见表 | Excel (.xlsx) | 地质人员 | AI工程师 |
| SHAP三图解读记录(Bar/Beeswarm/Waterfall) | PDF标注版 | 地质人员 | AI工程师 |
| PDP图地质阈值比对表 | Excel (.xlsx) | 地质人员 | AI工程师+地质组长 |
| 远景图空间审查意见(标注版) | PDF/PNG | 地质人员 | 全团队 |
| 迭代调整建议书 | Word (.docx) | 地质人员 | AI负责人 |
| 模型结果地质审查报告 | Word (.docx) | 地质人员 | 项目负责人 |
| 评估指标汇总表 | Excel | AI人员 | 全团队 |
💬 与AI团队沟通模板
核心评估指标:
AUC(ROC曲线下面积)→ 衡量整体区分能力,核心指标★★★★★;Top-K命中率 → 预测概率前K%区域中命中已知矿点的比例,最直观★★★★★;Precision → 预测为矿的区域中实际是矿的比例,减少无效钻探★★★★;Recall → 实际矿点中被正确识别的比例,避免漏矿★★★★;空间一致性 → 不同随机种子、不同特征组合下预测结果的稳定性★★★★;不确定性分析 → 模型输出概率的置信区间★★★。
可解释性分析方法:
特征重要性(Feature Importance)→ 哪些控矿要素对预测贡献最大(RF feature_importances_);SHAP值 → 每个特征对单个预测的正/负贡献(shap库);PDP图(Partial Dependence Plot)→ 单个特征与预测概率的关系曲线(sklearn PDP);地质复核 → 模型高分区是否符合成矿规律(地质专家判断);伪相关识别 → 模型是否学到了与矿化无关的虚假关联(消融实验+专家审查)。
在找矿任务中,可解释性比纯粹的预测精度更重要。一个AUC=0.80但地质可解释性好的模型,比AUC=0.90但无法解释的模型更有价值——因为前者给出的靶区可以用成矿理论论证,后者给出的靶区无法说服项目决策者投入验证资源。
模型通过地质审查后,将整个研究区的网格数据输入模型,为每个像素/网格单元输出成矿概率值(0~1),生成成矿远景预测图。接下来地质人员行使"最终审判权"——将模型高分区域与成矿概念模型对照,筛选"模型高分 + 地质合理"的区域,圈定靶区多边形并排列验证优先级。
| 任务内容 | 责任角色 | 说明 |
|---|---|---|
| 叠加地质判断修正远景图 | 地质人员 | 排除不合理高分区 |
| 圈定靶区多边形并排序 | 地质人员 | 综合概率、地质有利度、成本 |
| 为每个靶区建议验证方式 | 地质人员 | 踏勘/槽探/浅钻/深钻 |
| 全区网格预测输出概率栅格 | AI人员 | 输出GeoTIFF格式概率图 |
| 按阈值分级(高/中/低潜力) | AI人员 | 阈值由地质+AI共同确定 |
| 确定概率分级阈值 | 协作 | 结合Top-K命中率确定合理的高/中/低分界 |
| 不确定性分析与置信度标注 | 协作 | 数据空白区的预测结果应降低置信度 |
QGIS(栅格叠加、矢量编辑、制图输出)· ArcGIS(空间分析)· CorelDRAW(美化输出图件)远景图_修正版_项目名_v[X].tif、远景图_修正版_出图.pdf在QGIS中叠加模型输出的200m网格概率栅格与1:5万地质图:
✅ 主矿-东矿接触带沿线高概率区 → 保留,符合预期
✅ 西南方向新发现的碳酸岩小岩体周围 → 保留为新靶区
❌ 东北角H1–H5碎屑岩段高分区 → 标注为"模型误判区",绘制修正多边形将其从高潜力区降级
❌ 包钢矿区已采空范围 → 标注为"不可勘探区"排除
正确做法:模型输出是"初筛",地质人员的叠加审查是"复核"。两者结合才是最终的远景判断。
QGIS(矢量编辑 → 新建Shapefile → 手工绘制多边形 / 栅格转矢量提取等值线)target_id、area_km2、mean_prob、max_prob、geo_unit、priority、remarks。坐标系与项目统一坐标系一致。命名:靶区多边形_项目名_v[X].shp在QGIS中新建Shapefile图层(CGCS2000 3度带39带),手工绘制靶区多边形:
| target_id | area_km2 | mean_prob | geo_unit | priority |
| BYE-T01 | 2.8 | 0.82 | 碳酸岩体SW接触带 | A(最高) |
| BYE-T02 | 1.5 | 0.75 | 西南新碳酸岩体周围 | A |
| BYE-T03 | 3.2 | 0.68 | NE断裂带北延段 | B |
| BYE-T04 | 2.1 | 0.61 | 东矿外围接触带 | B |
| BYE-T05 | 4.5 | 0.55 | 远端重力异常区 | C |
正确做法:自动提取+人工修正相结合。靶区边界应沿地质单元边界微调,并排除明显不可勘探的区域。
Excel 制作靶区优先级评分矩阵 · QGIS 叠加分析靶区编号、优先级、模型概率、地质评分、成本评估、综合得分、建议验证方式、备注沿EW向主剪切带延伸方向圈定了6个靶区,排序逻辑:
A级(优先验证):
- XZ-T01:位于EW向剪切带与NE向裂隙交汇部位,概率0.85,ASTER显示强绢云母化异常,距已知矿点延伸方向3km → 成矿有利条件高度重叠
B级(次优先):
- XZ-T03:位于EW向剪切带南侧,概率0.72,化探Au-As异常明显但缺少蚀变信息(云层遮挡区域),需补充遥感数据确认
C级(后续关注):
- XZ-T06:远离主剪切带,概率0.58,仅有化探异常支撑,地质依据不足,建议先做地表踏勘再决定是否投入工程验证
正确做法:概率 × 地质有利度 × 可行性的综合评分。一个概率0.7但地质依据充分的靶区,可能比概率0.85但依据不足的靶区更值得优先验证。
Excel 制作验证方案表 · QGIS 规划测线/钻孔位置 · Word 撰写验证方案说明书验证方案_项目名_v[X].docx| 靶区类型 | 验证手段 | 预期成果 | 地质人员任务 |
| 表层可及(XZ-T01) | 地表踏勘+槽探 | 确认蚀变/矿化线索 | 制定踏勘路线、布置槽探 |
| 有物探异常(BYE-T03) | 加密物探测线 | 缩小异常范围 | 解释异常地质含义 |
| 有化探异常(XZ-T03) | 浅钻验证(3孔×100m) | 揭露矿化体 | 确定钻孔位置、角度、深度 |
| 重点靶区(BYE-T01) | 深钻验证(2孔×300m) | 控制矿体规模 | 设计钻孔方案(产状、穿矿位置) |
正确做法:验证手段分级——A级靶区可上工程验证,B/C级先做低成本的地表/物化探复核。
📦 阶段六交付物清单
| 交付物 | 格式 | 负责人 | 验收人 |
|---|---|---|---|
| 修正后远景预测图 | GeoTIFF + PDF | 地质+AI协作 | 项目负责人 |
| 靶区多边形 | Shapefile | 地质人员 | GIS工程师 |
| 靶区优先级清单 | Excel (.xlsx) | 地质人员 | 项目负责人 |
| 验证方案 | Word + 部署图 | 地质人员 | 项目负责人 |
| 不确定性分析图 | GeoTIFF | AI人员 | 地质人员审查 |
模型输出的是每个网格的成矿概率(0~1连续值),需要通过阈值划分来定义高/中/低潜力区。阈值选择没有统一标准,通常结合:(1) Top-K命中率——选择使已知矿点被覆盖90%以上的概率阈值作为"高潜力区"下限;(2) 面积占比——高潜力区面积不宜超过研究区的20%–30%,否则筛选意义不大;(3) 自然断点——概率直方图中的自然间断作为分级依据。
不确定性分析同样重要:(1) 多次随机种子训练取方差——方差大的区域说明模型对该区域的判断不稳定;(2) 数据空白区的不确定性天然更高,应在远景图上标注;(3) 模型对不同矿床类型的敏感度不同——大型矿床通常被准确识别,但小型矿化点可能被遗漏。
AI找矿最重要的是闭环,不是一次性出图。模型预测的高潜力区必须经过野外验证,验证结果要回填到数据库中,用于更新和改进模型。"预测 → 验证 → 反馈 → 优化"的循环是持续提升预测精度的核心机制。无论靶区命中还是未命中,都有极高的信息价值——命中证明模型有效,未命中则帮助定位模型的不足。
| 任务内容 | 责任角色 | 说明 |
|---|---|---|
| 设计野外踏勘路线 | 地质人员 | 结合靶区位置和地形条件 |
| 实施地质踏勘并记录验证结果 | 地质人员 | 矿化线索、蚀变观察、采样 |
| 验证结果数据标准化回填 | 地质人员 | 按统一格式回填数据库 |
| 撰写验证复盘报告 | 地质人员 | 命中/未命中原因分析 |
| 用未参与训练的矿点独立验证 | AI人员 | 留出数据的统计验证 |
| 更新样本库、特征库和模型 | AI人员 | 纳入新数据进入下一轮迭代 |
| 复盘分析与迭代方向确定 | 协作 | 基于验证结果决定下一步 |
QGIS / Google Earth(路线规划和3D地形预判)· 奥维地图(导入路线到手持GPS)· Excel 采样点位表踏勘路线设计:
起点:EW向剪切带南缘出露处(E 87.25°, N 29.15°)
→ 沿NE方向横穿EW-NE断裂交汇带(重点观察蚀变类型和矿化特征)
→ 经过ASTER遥感显示的强绢云母化异常中心
→ 终点:剪切带北缘出露处
路线全长约4km,预设采样点8个(每500m一个,交汇带核心加密至200m间距)
携带装备:地质锤、罗盘、GPS(坐标系设置为WGS84 UTM 46N)、样品袋、标签、野外记录本、卫星电话(海拔4800m无手机信号)
正确做法:先用Google Earth做3D地形预判,评估实际可行性后再确定路线长度和采样密度。
Excel 标准表格target_id、point_id、easting、northing、observation、mineralization(Y/N/Uncertain)、alteration_type、sample_id、photo_id、confidence在EW-NE断裂交汇带发现强绢英岩化蚀变带,宽约50m,见石英脉含细粒黄铁矿,地表拣块样Au品位1.2g/t。与模型特征完全吻合——
dist_EW_shear=150m(模型预测该区域概率0.85)。→ 判定:命中,建议扩大探索范围并布置槽探。未命中情景(XZ-T05):
踏勘发现该区域地表为第四系冰碛物覆盖(厚度>10m),无基岩出露,无法直接观察矿化特征。化探Au异常可能来自上游搬运物质。→ 判定:Uncertain(非"未命中"),建议补充浅层物探(激电/磁法)后再判断。
明确未命中情景(XZ-T06):
踏勘发现该区域基岩为未蚀变的石英砂岩,构造以脆性断裂为主(无韧性剪切特征),与造山型金矿的控矿条件不符。模型高分可能来自化探异常中的高As值(但As可能与非矿化硫化物有关)。→ 判定:未命中,原因:化探As异常为假异常。
正确做法:综合踏勘观察、蚀变特征和采样结果做整体判断。"Uncertain"是合理的结论,不必强行二分。
Excel(标准格式回填)· QGIS(更新Shapefile)· 项目数据库(如有)_v2_post_field正样本表更新:原30个 → 新增3个(XZ-T01踏勘发现的3个矿化点),更新为33个
新增记录格式:
XZ-T01-V01, 487250, 3225430, occurrence, high, field_2026-06负样本表更新:原120个 → 新增2个(XZ-T06确认无矿化的2个观察点)
控矿要素清单更新:野外发现XZ-T01的矿化蚀变宽度约50m(原概念模型估计200m),建议将"蚀变缓冲区"参数从200m调整为100m
正确做法:验证结果回填是闭环的关键环节。每次野外回来后一周内完成数据回填,趁记忆清晰。
Word 撰写报告 · Excel 统计命中率 · QGIS 制作验证结果叠加图验证复盘报告_第[N]轮_项目名.docx总体命中率:6个靶区中,2个命中(XZ-T01/T02)、1个不确定(XZ-T05)、3个未命中 → 命中率33%(A级靶区命中率67%)
成功因素:EW向剪切带控矿信号被模型有效捕捉,命中靶区均位于剪切带-裂隙交汇部位
失败分析:
- XZ-T06:化探As假异常导致误判 → 下一轮需加入"As异常与矿化关联度"筛选
- XZ-T04:基岩未蚀变 → 需补充更高分辨率的蚀变遥感数据
下一轮迭代方向:
1. 回到阶段二:补充Sentinel-2蚀变填图,覆盖遥感空白区
2. 回到阶段三:新增"化探As-Au比值"特征以区分真/假异常
3. 新增3个正样本 + 2个负样本进入下一轮训练
正确做法:失败案例的复盘价值极高——它告诉你模型在哪里出了问题、下一轮该怎么改。
📦 阶段七交付物清单
| 交付物 | 格式 | 负责人 | 验收人 |
|---|---|---|---|
| 踏勘路线图与任务书 | PDF/KMZ + Word | 地质人员 | 项目负责人 |
| 验证结果记录表 | Excel (.xlsx) | 地质人员 | 数据工程师 |
| 更新后正负样本表 | CSV | 地质人员 | AI工程师 |
| 更新后控矿要素清单 | Excel (.xlsx) | 地质人员 | 地质组长 |
| 验证复盘报告 | Word (.docx) | 地质人员 | 全团队 |
💬 与AI团队沟通模板
AI找矿的真正价值不在于"一次性给出完美预测"——这在现实中几乎不可能,因为地质系统的复杂性远超模型的表达能力。真正的价值在于迭代学习:每一轮验证都为模型提供了新的"经验",使其对研究区的成矿规律认识越来越深。
典型的迭代路径:第一轮(粗筛)→ 使用基础数据和初始模型,圈出10–20个候选靶区 → 踏勘验证筛选到5–8个;第二轮(精筛)→ 补充验证数据、修正特征,模型精度提升 → 对剩余靶区重新评估并补充新靶区;第三轮(定位)→ 加密数据采集、高分辨率建模 → 精确确定钻探位置。
闭环的关键环节:(1) 数据回填——验证结果必须进入训练集;(2) 失败分析——未命中靶区的原因要转化为模型改进方向;(3) 模型修正——不是重新训练就行,要结合新的地质认识调整特征和样本;(4) 文档记录——每轮迭代的改进和结果必须完整记录,形成知识积累。
以下每个"坑"都附有正确操作的具体步骤——不只是告诉你"不能这么做",更给出可执行的替代方案。点击标题展开。
把数据交给AI团队就不管了
② 阶段三:特征审查——AI人员计算完特征后,在QGIS里叠图检查每个特征的空间分布是否符合地质预期
③ 阶段五:结果审查——拿到远景图后逐区域检查,高概率区是否在地质有利部位,写出有依据的审查意见
负样本随便选选就行
② 不确定区(标为"未知",不做负样本)——有地质条件但未系统勘查的区域,宁可不用也不要污染
③ 空间策略——负样本与正样本之间设置缓冲区(建议≥正样本密度对应距离的2倍),避免过近的不确定区混入;采用地质分层抽样而非纯随机
模型 AUC 高就说明结果好
② 检查特征重要性排名——控矿要素是否排名靠前?如果"高程"或"距路距离"排第一,99%是数据偏差或伪相关
③ 目视审查远景图——高分区是否落在地质有利部位?在QGIS叠图检查,用地质眼光做最终判断
模型说这里有矿就说明有矿
② 低成本验证先行——A级靶区先做路线地质调查+土壤化探加密,再决定是否上重砂/激电/钻探
③ 成本递进原则——验证成本:路线调查(最低)→ 浅钻/槽探(中)→ 深孔(最高),每步验证结果决定是否进入下一步,不要跳级
把"距已知矿点距离"当特征
❌ 禁用特征(答案信息)——距已知矿点距离、距已知矿体距离、距前人化探高异常点距离(高异常点本身就是矿化指示)
判断原则——问自己:"如果是一个真正的未知新区,这个特征还存在吗?"如果答案是"不存在",就是答案信息,禁止使用
一次出图就结束
② 原因分析——未命中靶区追查:是负样本定义问题?特征缺失?还是数据质量问题?定位到具体阶段
③ 定向修正——根据原因回到对应阶段(阶段一修概念模型/阶段二补数据/阶段三改特征),不要盲目调参
④ 版本管理——每轮迭代留存完整记录(数据版本+特征版本+模型版本+验证结果),便于对比改进效果
只用一种算法、样本极少也硬上监督学习
样本 10–30个——监督学习可尝试,但必须用空间交叉验证(LOO-CV),结果解读要保守;同时跑 WofE 做对比
样本 >30个——监督学习较可靠;建议至少对比 RF + XGBoost + SVM 三种,选地质可解释性最好的,不是AUC最高的
忽略前人工作
② 结构化提取——制作《历史知识提取表》,列:知识内容 / 来源 / 确定性等级(确定/较确定/推测)/ 是否可量化 / 量化参数
③ 转化为特征参数——"矿体在F1断裂两侧200m"→ 特征
dist_F1_fault,缓冲区参数=200m;"蚀变核心区半径300m"→ 特征 alteration_core,参数=300m
不区分矿床类型就开始建模
② 各类型分别建模——如研究区同时存在造山型金矿和浅成低温热液型金矿,需分别设计控矿要素清单、分别准备正样本、分别建模,最后分别出图
③ 参考元素组合表——见本手册附录"化探元素组合参考表",按矿床类型选择对应的指示元素组合特征
在特征工程阶段,化探数据的特征设计核心是使用元素组合异常而非单元素异常——组合异常比单元素更稳健、更能反映成矿过程的特异性。本表按矿床类型列出主要指示元素、成矿套化元素、干扰元素注意事项,以及推荐的组合方式。
Au_As_Sb
Au_Ag_As_Sb_Hg
Au_As_Sb_Hg_Tl
Cu_Mo_Au
Cu_Au_Bi_Co
Cu_Zn_Pb_Ag
Pb_Zn_Cd_Ag
Ce_La_Nb_P
Y_HREE_index
Sn_W_Mo_Bi
Cr_Ni_Co
为什么用组合而不用单元素:单元素Au异常受背景噪声影响大,且在化探采样中检出限波动容易产生假异常。元素组合异常的信噪比更高——如果Au、As、Sb三个元素同时呈高值,这种"共生异常"的成矿指示意义远强于单元素高值。
组合特征的两种构建方式:
(1) Z-score加权求和:对每个元素做Z-score标准化(减均值除标准差),然后直接加和或加权加和。公式:composite = Z(Au) + Z(As) + Z(Sb)。优点是简单、可解释;缺点是默认各元素权重相等。
(2) 异常叠加计数:每个元素独立判断是否超过背景阈值(如均值+2倍标准差),超过记1分、不超过记0分,最终求和。公式:anomaly_count = (Au>threshold) + (As>threshold) + (Sb>threshold)。优点是更稳健,不受极端值干扰;适合背景复杂的地区。
关于采样介质的注意事项:水系沉积物适合区域尺度扫面(1:25万–1:5万),代表较大汇水盆地的平均;土壤化探适合矿田尺度精查(1:1万–1:2000),代表局部风化剖面。两种介质的元素分布规律不完全相同,来自不同介质的化探数据不能直接混用,需要分别建立背景值和阈值。
📍 GIS 空间分析
💻 编程环境
🤖 机器学习
🔍 可解释性
🛰 遥感处理
📊 实验管理与插值
🧠 深度学习
AI找矿预测完成后,地质人员面临一个新挑战:如何判断预测结果是否可信?如何向非技术背景的决策者(项目负责人、甲方、投资方)解释"AI说这里有矿"意味着什么?这一节提供成果解读的核实流程和汇报的沟通框架。
🗺️ 如何读懂预测概率图:五步核查法
💬 向非技术背景决策者汇报的沟通框架
📋 汇报话术模板
🎯 靶区优先级评分卡
| 评分维度 | A级靶区(优先验证) | B级靶区(次优先) | C级靶区(备选) |
|---|---|---|---|
| 预测概率 | >0.75,连片高概率区 | 0.55–0.75,零散高概率区 | 0.4–0.55,孤立点 |
| 地质依据 | 多套数据异常叠合(≥3项),成矿概念模型完全匹配 | 2套数据异常叠合,部分匹配 | 单一数据异常,理由较弱 |
| 已知线索 | 有前人化探异常/民采/矿化线索 | 有弱化探异常或地物反映 | 无直接线索 |
| 可工作性 | 交通便利,无明显法规障碍 | 需一定工程准备 | 地形困难或法规限制区 |
| 不确定性来源 | 数据质量好,特征置信度高 | 部分特征为插值推断 | 关键特征缺失区域 |
AUC(ROC曲线下面积):衡量模型"整体区分能力"的综合指标。取值0.5–1.0,0.5表示随机猜测,0.8以上通常认为较好。直觉理解:从研究区随机抽一个矿化点和一个非矿化点,AUC就是"模型给矿化点打分更高"的概率。AUC越高,模型"把矿化区和非矿化区区分开来"的能力越强。
Recall(召回率):已知矿化点中被模型正确预测出来的比例。找矿中通常希望Recall高(不漏矿),即使Precision(精度)有所下降(多圈一些非矿区)也可以接受。找矿是"宁可多圈不可漏矿"的场景,应优先关注Recall。
Prediction Rate Curve:许多找矿预测文章使用的可视化工具——按概率从高到低排序研究区,计算"圈出X%面积时能捕获多少比例的测试矿点"。曲线越陡(同样面积内捕获矿点越多),模型效果越好。这是向甲方汇报最直观的性能指标。
地质人员需要了解的底线:不需要会计算这些指标,但需要能读懂AI人员提供的评估报告,并对以下问题有判断:测试集是否是独立的(未参与训练)?测试矿点的数量是否足够(<10个时结论不可靠)?评估结果是否使用了空间交叉验证(避免临近泄漏)?