🔍
未找到匹配内容
尝试换个关键词,或检查是否拼写正确
版本 2.2  |  2026年4月  |  适用矿种:25种主流矿床类型
v2.2 更新日志
v2.2 · 2026-04
🏗️ 架构重构
  • 引入基于 Proxy 的响应式状态管理,Checklist 勾选变化自动同步进度面板,告别手动串联调用
  • 全局事件委托替代 106 处内联 onclick/onchange,统一用 data-action 声明意图
  • 决策树选项从字符串拼接改为 data-* 传参,消除特殊字符转义风险
🎨 交互升级
  • 搜索框支持 Ctrl/⌘+K 唤起、Esc 清空退出
  • 专业术语 Tooltip 适配触屏,边缘碰撞检测避免贴边裁切
  • 决策树题目切换加入 slide+fade 微动效(支持 prefers-reduced-motion
  • 进度面板新增"导出/导入 JSON"功能,支持跨设备同步
🖼️ 视觉打磨
  • 移动端 DSS 改为 Bottom Sheet 抽屉,支持下滑关闭
  • .role-table / .feat-table 添加 sticky 表头
  • 浅色模式对比度从 AA 级(7.35:1)提升到 AAA 级(10.2:1),适应野外强光
🛡️ 防呆机制
  • 沟通模板全量升级为参数化 Prompt 生成器,覆盖 5 处场景,支持 select/input 控件 + 实时占位符高亮 + 一键复制
  • 启动清单阻断项未确认时,Phase 1 顶部动态渲染警告横幅并支持跳转
v2.1 · 2026-05
  • 决策支持系统(DSS)v2 上线,覆盖 25 种矿床类型
  • 新增 AI 误导风险警示面板
  • 多阶段 Checklist 整合到全局进度面板
AI 找矿预测七阶段全流程
成矿理论 + 多源数据 + 机器学习 + 不确定性评估 + 靶区验证
⚠️ AI找矿的常见误判风险——请务必了解(点击展开)
风险①
过度相信模型输出——模型高概率区 ≠ 一定有矿。AI预测的是"成矿条件组合的相似度",而非地下矿体的存在。所有高概率靶区必须经过地质人员实地核查和地质成因逻辑验证。
风险②
训练数据偏差——正样本全部来自已知矿床,AI学到的是"已发现矿床的特征",而非"所有矿床的特征"。规模小、隐伏、新类型的矿床可能被系统性遗漏。
风险③
特征共线性陷阱——如果地质图、化探、物探数据存在相关性(如都覆盖同一已知矿集区),模型可能学到的是"数据偏向区域"而非"成矿控制规律"。需用空间交叉验证(Spatial CV)而非随机切分验证。
风险④
模型失效场景——以下情况模型可靠性极低:① 正样本<15个;② 研究区面积>5000km²但矿点<10个;③ 关键控矿要素缺失数据(如地质图精度<1:20万);④ 目标矿床类型与训练矿床类型不一致。
风险⑤
不确定性被忽视——单一模型输出的概率值没有置信区间。建议使用多模型集成(至少3种)并汇报"高可信/中可信/低可信"三级靶区,而非单一排名。
阶段一 立项与 成矿概念模型 阶段二 多源数据 准备 阶段三 特征工程 与样本构建 阶段四 模型训练 与优化 阶段五 评估与 可解释性分析 阶段六 远景图输出 与靶区圈定 阶段七 野外验证 与闭环迭代 验证反馈 → 迭代优化 地质主导 协作阶段 AI主导

AI 找矿的核心是成矿预测(Mineral Prospectivity Mapping, MPM)——让计算机通过学习已知矿床的多维特征,在研究区内识别出具有相似成矿条件的未知区域。其本质不是"黑箱直接预测",而是"成矿理论 + 多源数据 + 机器学习 + 不确定性评估 + 靶区验证"的有机组合。

💡 AI找矿最容易失败的地方不是模型本身,而是"样本定义"和"特征设计"。如果正负样本不合理,或多源数据没有统一尺度,模型很容易学到噪声而不是成矿规律。
项目启动总检查清单
Pre-launch Checklist · 新项目开工前必过的关 · 勾完才能进入阶段一

本清单集中了七个阶段中前置条件最容易被忽略的检查项——不是流程步骤,而是"这些没确认就开工会在后面踩大坑"的关键节点。建议项目正式启动前,地质负责人与AI负责人一起过一遍,所有红色项目未确认不得进入下一阶段。

💡 勾选下方条目,追踪启动准备进度。
启动准备完成度 0%
0
已完成
0
待确认
0
阻断项
A · 地质前提
阻断项
阻断项
阻断项
建议项
建议项
B · 样本准备
阻断项
阻断项
阻断项
建议项
建议项
C · 数据就绪
阻断项
阻断项
建议项
建议项
建议项
阻断项
D · 团队与流程
阻断项
建议项
建议项
建议项
建议项
E · 全局进度概览
七阶段操作步骤总进度 0%
项目启动清单
Project Kickoff Checklist · 开工前30分钟过一遍 · 避免中途返工

AI找矿项目中,大量的中途返工(重新定义样本、重新采集数据、重新设计特征)根源都是开工前没有想清楚。这份清单涵盖五个维度的前提条件,建议在正式启动阶段一工作之前,与团队用30分钟共同过一遍。

💡 没有全部勾选也可以启动,但每个未勾选项都代表一个已知风险——需要在实验日志中记录并制定应对预案,而不是"走一步看一步"。
完成进度 0 / 30
开始勾选后显示状态

A · 地质基础(地质人员负责)

B · 数据准备(地质人员 + AI人员协作)

C · 样本质量(最容易被忽略的高风险环节)

D · 团队与沟通流程(地质人员 + AI人员共同确认)

E · 已知风险预案(有风险不代表不能启动,但需要有预案)

⚡ 快速风险判断——以下任何一项未勾选,代表高风险,建议暂停启动
🔴 A3 未完成(无成矿概念模型)→ 后续所有特征设计无依据
🔴 C3 未完成(负样本定义不清)→ 模型几乎必然学到噪声
🔴 C4 未确认(未排除数据泄漏特征)→ 结果虚高不可信
🔴 B2 未核实(数据授权不明)→ 项目法律风险
🔴 D2 未定义(成功标准不明确)→ 项目验收无依据
🔴 C1 未评估(样本极少无预案)→ 建模基础不足
01
项目立项与成矿概念模型
Phase 1 · Project Initiation & Mineral System Model

本阶段的核心目标是回答三个问题:找什么矿?在多大范围找?按什么地质逻辑找?不同矿种的控矿要素完全不同,不同预测尺度决定了数据分辨率和模型复杂度。成矿概念模型(Mineral System Model)是整个项目的"灵魂",它将矿床形成所需的全部控矿要素梳理清楚,指导后续的数据采集和特征设计。

💡 "垃圾进,垃圾出(GIGO)"——成矿概念模型的质量直接决定了后续所有工作的上限。这一步值得投入最充分的时间。
任务内容责任角色说明
确定目标矿种与矿床类型 地质人员 完全由地质专家主导
确定预测尺度与工作区范围 地质人员 需结合数据可得性评估
梳理控矿要素清单 地质人员 最核心的地质智力投入
定义正样本与负样本 协作 地质人员主导定义标准,AI人员参与空间策略讨论
制定项目成功标准 协作 地质指标(靶区命中率)+ 统计指标(AUCAUC (Area Under the ROC Curve):ROC曲线下面积,衡量模型区分"有矿"与"无矿"能力的综合指标。值域0~1,越接近1表示模型区分能力越强。0.5表示随机猜测水平。等)
评估算力与技术可行性 AI人员 数据量级与模型复杂度匹配
绘制成矿概念模型图 地质人员 平面图+剖面图,标注控矿要素空间关系

🪨 地质人员操作步骤

→ 02 多源数据准备
步骤 1.1:明确目标矿种与矿床类型
① 做什么
确定本次预测的目标矿种(如金、铜、稀土等),进一步明确矿床类型(如造山型金矿、碳酸岩型稀土矿),并收集该矿床类型的典型成矿模式文献,整理研究区已有的地质认识和前人工作基础。
② 用什么工具
Word 或 WPS 文档编辑 · 中国知网/Web of Science 文献检索 · 矿产地质志/区域地质志参考
③ 输出什么
《目标矿种与矿床类型说明书》,Word 文档,包含:矿种名称、矿床类型、典型矿床对比、研究区已有地质认识摘要。建议命名:目标矿种说明书_项目名_v1.docx
④ 交给AI人员时需注意
说明书中需明确列出"与本矿床类型相关的控矿要素关键词",方便AI人员后续理解特征设计的地质依据。避免使用过多缩写,必要时附术语对照表。
⑤ 实操举例
以西藏喜马拉雅造山带金矿为例:
目标矿种:金(Au)
矿床类型:造山型金矿(Orogenic Gold),受韧性剪切带控制
典型矿床参考:雄村、甲玛周边区带,EW向主缝合带 + NW/NE向次级断裂控矿
研究区概况:藏南拆离系(STDS)前陆带,海拔4200–5500m,工作区面积约1200km²
文献基础:参考GIS-based mineral prospectivity mapping (Zhuonuo, Tibet)等已发表案例
说明书中应写明:"该矿床类型的控矿关键词包括:韧性剪切带、EW向断裂、绢英岩化、硅化、Au-As-Sb-Bi-W组合异常"
⑥ ⚠️ 常见错误
错误:只写"找金矿",不区分矿床类型。同一种元素在造山型、浅成低温热液型、卡林型中的控矿要素完全不同,笼统定义会导致后续特征设计"大而全"但无针对性。
正确做法:精确到矿床类型级别,如"造山型金矿(受韧性剪切带控制)",并附3–5篇该类型的典型文献。
步骤 1.2:确定预测尺度与工作区范围
① 做什么
根据项目目标和数据条件,确定预测尺度(区域级/矿田级/矿区级/矿体级),明确工作区地理范围(经纬度/中央经线/面积),并评估该尺度下可用数据的分辨率是否匹配。
② 用什么工具
QGIS 查看工作区范围 · Excel 整理数据清单 · Word 撰写尺度说明
③ 输出什么
《预测尺度与数据粒度建议》,包含:预测尺度、网格大小建议、工作区四至坐标、坐标系定义、可用数据概览。建议命名:预测尺度建议_项目名_v1.docx
④ 交给AI人员时需注意
务必明确坐标系(如 WGS84 UTM Zone 46N 或 CGCS2000 3度带第39带),这直接影响AI人员的空间数据对齐工作。同时注明所有数据的空间分辨率,便于AI人员确定统一网格尺寸。
⑤ 实操举例
两个项目的尺度对比:

西藏金矿项目:矿田级预测,网格 100–500m,工作区面积 ~1200km²,坐标系 WGS84 / UTM Zone 46N (EPSG:32646),可用数据:1:5万地质图、水系沉积物化探(4点/km²)、航磁△T(200m点距)、ASTER遥感

白云鄂博稀土矿项目:矿田级预测,网格 200m,工作区面积 ~800km²,坐标系 CGCS2000 / 3度带第39带 (EPSG:4534),可用数据:1:5万地质图、土壤化探(240m×80m)、布格重力异常、航磁△T、Sentinel-2遥感
⑥ ⚠️ 常见错误
错误:预测尺度与数据分辨率不匹配。比如想做矿体级(25m网格)预测,但只有1:25万地质图,数据精度完全不够。
正确做法:先盘点手头数据的实际分辨率,再反推合理的预测网格尺寸。矿田级预测用1:5万数据 + 100–500m网格是比较稳健的组合。
步骤 1.3:梳理控矿要素清单
① 做什么
把目标矿床类型形成所需的全部地质条件逐一列出,包括构造控矿、岩浆控矿、围岩条件、蚀变指示、地球化学异常、地球物理异常等,并对每个要素标注可用的数据源和建议的量化方式。这张清单是AI团队做特征工程的"设计图纸"。
② 用什么工具
Excel 制表(最推荐,结构化强)· Word 辅助说明 · 参考矿床学教材和区域地质报告
③ 输出什么
《控矿要素清单.xlsx》,至少包含以下列:要素类别具体要素对应数据源建议量化方式重要性等级(必要/有利/参考)。建议命名:控矿要素清单_项目名_v1.xlsx
④ 交给AI人员时需注意
"建议量化方式"列要尽量具体,比如写"计算每个网格到EW向韧性剪切带的最近欧氏距离"而不是"断裂相关分析"。同时标注"重要性等级",帮助AI人员区分必要特征和可选特征。
⑤ 实操举例
以西藏造山型金矿为例,控矿要素清单(节选):

| 要素类别 | 具体要素 | 数据源 | 量化方式 | 重要性 |
| 构造控矿 | EW向韧性剪切带 | 1:5万构造图 | 每个网格到EW向剪切带的欧氏距离 | ★★★必要 |
| 构造控矿 | NE向张性裂隙交汇带 | 1:5万构造图 | EW与NE断裂交汇点的核密度 | ★★★必要 |
| 蚀变指示 | 绢英岩化+硅化 | ASTER遥感蚀变提取 | 蚀变强度指数(波段比值) | ★★★必要 |
| 地球化学 | Au-As-Sb-Bi-W五元素组合 | 水系沉积物化探 | 多元素叠加异常指数 | ★★☆有利 |
| 地球物理 | 航磁△T异常 | 航磁化极数据 | 化极后磁异常幅值与一阶导数 | ★☆☆参考 |
⑥ ⚠️ 常见错误
错误:控矿要素清单写得太模糊,比如只写"构造"、"化探异常",不指明具体是哪一组构造、哪些元素组合。AI人员拿到后无从下手。
正确做法:精确到"EW向韧性剪切带"而非"断裂",精确到"Au-As-Sb-Bi-W五元素组合"而非"化探异常"。模糊的输入只会得到模糊的输出。
步骤 1.4:定义正样本与负样本
① 做什么
确定哪些点算"正样本"正样本:在机器学习中代表"有矿"的训练数据点。通常来自已知矿床、矿点或强矿化蚀变点的坐标。正样本的质量直接影响模型能否学到正确的成矿规律。(已知矿床/矿点/矿化蚀变点),确定每个正样本的坐标精度和可信度;更关键的是定义"负样本"负样本:在机器学习中代表"无矿"的训练数据点。应选择远离已知矿化、地质背景稳定的区域。⚠️ 绝不能把"未勘探区"当负样本——那里可能有矿只是还没发现。——选择远离已知矿化、地质背景稳定的区域,避免将"未探明区"误标为负样本。
② 用什么工具
QGIS 标注矿点坐标并可视化审查 · Excel 整理样本清单 · MapGIS 叠加地质图辅助判断
③ 输出什么
1.《正负样本定义文档》(Word),说明选取标准、空间策略、不确定区域标注规则
2. 正样本坐标表(CSV),字段:sample_id, easting, northing, type, confidence, source
3. 负样本区域多边形(Shapefile)或负样本点坐标表(CSV)
建议命名:正样本_项目名_EPSG32646.csv负样本区域_项目名.shp
④ 交给AI人员时需注意
坐标系务必与项目统一坐标系一致。正样本需注明精度等级(±50m / ±200m),低精度点需提前说明。负样本务必附选取理由,不要只给点位不给逻辑。对于"不确定区域"(可能有矿但缺乏勘探数据的区域),需显式标注并与AI人员讨论处理策略。
⑤ 实操举例
以西藏金矿项目为例:
正样本:已知矿化点32个,坐标来自1:5万矿产调查报告,精度±50m,坐标系 WGS84 UTM 46N。其中大型矿点5个、中型8个、矿化点19个,均在CSV中标注type字段(large/medium/occurrence)。

负样本策略:选择工作区内远离已知矿化点(>5km缓冲区外)、位于稳定地层(非剪切带影响区)的第四系覆盖较薄区域作为负样本区域。特别排除了STDS主拆离面附近的"未勘探但地质上有利"的区域,标注为"不确定区"留给模型做特殊处理。

典型错误对比:在工作区内随机撒点当负样本 → 可能把剪切带沿线未发现的矿化区误标为"无矿",模型学到的"无矿特征"实际包含了成矿信号。
⑥ ⚠️ 常见错误
错误1:在研究区内随机撒点当负样本,结果把潜在靶区误标为"无矿"。
错误2:正样本不区分矿床规模,将大型矿床和矿化蚀变点等同对待。
正确做法:负样本选取需有地质依据(远离成矿有利部位+稳定背景),正样本需标注规模/可信度分级,并将"不确定区域"单独标注交给AI团队讨论。
步骤 1.5:绘制成矿概念模型图
① 做什么
把控矿要素和它们之间的空间关系用图件表达出来,绘制矿床理想化剖面图(矿床剪影图)和平面概念模型图,标注各控矿要素的空间关系(如"矿体位于断裂与岩体接触带200m范围内"),区分必要条件和有利条件。这是AI团队理解地质逻辑的最重要载体。
② 用什么工具
CorelDRAW / Adobe Illustrator 绘制剖面图 · QGIS 出平面底图 · PowerPoint / Visio 绘制要素关系图
③ 输出什么
《成矿概念模型图》,包括:
1. 平面概念模型图(标注控矿构造、有利岩性、蚀变范围、异常叠合)
2. 理想化剖面图(矿床剪影图,展示矿体与控矿要素的垂向关系)
格式:PDF/PNG(≥300dpi),建议命名:成矿概念模型_项目名_v1.pdf
④ 交给AI人员时需注意
图中必须有文字标注(不能只有图形),关键距离/范围参数需用数字标出(如"200m缓冲区"、"矿体主要产出于F1断裂两侧500m范围")。这些定量信息将直接转化为特征工程的参数。
⑤ 实操举例
以白云鄂博稀土矿为例:
平面模型图需标注:NE向主断裂、白云鄂博群H8白云岩分布范围、碳酸岩侵入体边界、主矿和东矿位置。关键标注——"REE高品位矿段集中在碳酸岩体与H8白云岩的接触带,向外200m品位急剧下降"。

剖面模型图需展示:碳酸岩体侵入H8围岩的接触关系,矿化富集在接触带内的空间特征,标注"接触带宽度约50–200m"。

这些定量标注将直接指导AI人员设计"距碳酸岩体接触带距离"这一关键特征。
⑥ ⚠️ 常见错误
错误:画了很精美的地质图但没有定量标注,AI人员看完只知道"矿在接触带附近"但不知道"多近算近"。
正确做法:每个空间关系都给数字——"200m缓冲区"、"剪切带两侧500m"、"蚀变核心区半径300m",这些数字就是特征工程的参数。

📦 阶段一交付物清单

交付物格式负责人验收人
目标矿种与矿床类型说明书Word (.docx)地质人员项目负责人
预测尺度与数据粒度建议Word (.docx)地质人员AI负责人
控矿要素清单Excel (.xlsx)地质人员AI工程师审阅
正负样本定义文档 + 坐标表Word + CSV地质人员AI工程师+地质组长
项目成功标准表Word (.docx)地质+AI协作项目负责人
成矿概念模型图PDF/PNG地质人员全团队评审

💬 与AI团队沟通模板

场景:提交成矿概念模型时
本项目目标矿种为{{矿种}},矿床类型为{{矿床类型}}。根据成矿概念模型,关键控矿要素有{{控矿要素总数}}个(见附件《控矿要素清单》),其中必要条件{{必要条件数}}个、有利条件{{有利条件数}}个。正样本共{{正样本数}}个已知矿化点(精度{{定位精度}}),负样本策略为{{负样本策略}}。成矿概念模型图见附件,请重点关注图中标注的定量参数(如"矿体产出于断裂两侧{{断裂缓冲距离}}范围"),这些将直接影响特征工程的参数设置。
场景:讨论负样本选取策略时
关于负样本,我建议排除以下区域:[1] 距已知矿化点{{矿点缓冲距离}}以内的缓冲区;[2] {{地层构造带}}沿线,虽然尚未发现矿化但地质条件有利,应标注为"不确定区域"而非负样本。负样本建议从{{负样本来源区}}中选取,采用{{抽样方式}}方式。请评估这种策略在模型训练中的可行性。
🔬 深入理解:为什么成矿概念模型是项目的"灵魂"?

成矿概念模型(Mineral System Model)是从"源-运-储-保"四个维度理解矿床形成过程的理论框架。它回答的核心问题是:成矿物质从哪来(源)、通过什么通道运移(运)、在哪里沉淀富集(储)、如何保存至今(保)。

在AI找矿中,成矿概念模型的作用不仅仅是"地质背景介绍",它直接决定了:(1) 正样本的定义标准——什么算"有矿";(2) 负样本的选取逻辑——什么算"确定无矿";(3) 特征工程的设计蓝图——需要计算哪些空间变量;(4) 模型结果的审查依据——预测图是否符合成矿规律。

如果成矿概念模型不准确或不完整,后续无论用多先进的算法都无法弥补。这就是为什么说"垃圾进、垃圾出"——AI的上限由地质认识决定。

建议地质人员在构建模型时参考"成矿系统"(Mineral Systems)方法,该方法强调从地质过程而非矿床描述出发,更适合指导找矿预测中的特征设计。

02
多源数据准备
Phase 2 · Multi-source Data Preparation

本阶段的核心目标是将地质、地球物理、地球化学、遥感、地形等多源异构数据进行统一化预处理,使其能够被机器学习模型读取和使用。这些数据来自不同机构、不同时期、不同精度,必须经过严格的预处理才能进入模型。地质人员在这一阶段的关键角色是审查数据的地质可信度——AI工程师能检查格式错误和缺失值,但只有地质人员能判断数据在地质上是否合理。

💡 建立元数据表非常重要:记录每份数据的来源、时间、精度、格式和责任人,方便后续追溯和复现。数据质量决定了AI找矿的上限。
任务内容责任角色说明
逐套审查数据的地质可信度 地质人员 地质图版本、化探采样密度、物探参数合理性
判断数据缺口并提出补充建议 地质人员 哪些控矿要素缺数据、能否间接补充
提取前人报告中的历史知识 地质人员 定性结论结构化提取
统一坐标系与空间分辨率 协作 地质人员提供目标坐标系,AI人员执行批量转换
数据格式转换与清洗 AI人员 缺失值填充、异常值检测、栅格重采样
构建统一空间底图与网格化 AI人员 所有数据对齐到统一网格
建立元数据台账 协作 每份数据的来源、精度、时间、责任人

🪨 地质人员操作步骤

→ 03 特征工程
步骤 2.1:逐套审查数据的地质可信度
① 做什么
对每一套输入数据(地质图、化探、物探、遥感)进行地质可信度审查。重点审查:地质图编制时间和版本是否适用、岩性分类标准是否统一、构造线分级和属性是否完整;化探采样密度是否满足预测尺度、采样介质是否一致、分析方法和检出限是否统一;物探处理参数是否合理、异常的地质解释是否明确;遥感影像时相和蚀变提取结果是否可靠。
② 用什么工具
QGIS 叠加查看空间数据 · Excel 统计数据质量指标 · MapGIS 对比不同版本地质图
③ 输出什么
《数据质量审查报告.docx》,包含:逐套数据评分(A/B/C/D四级)、每套数据的问题清单、是否可用的结论和修正建议。建议命名:数据质量审查报告_项目名_v1.docx
④ 交给AI人员时需注意
对评分为C或D的数据,需明确说明"问题在哪里"和"是否仍可使用(附降权建议)"。对不同图幅拼接的数据,需标注拼接边界位置,以免AI人员误将拼接缝当作地质异常。
⑤ 实操举例
以西藏金矿项目为例:
审查化探数据 Au_stream_sediment_UTM46N.csv(字段:sample_id, easting, northing, Au_ppb, As_ppm, Sb_ppm, Bi_ppm, W_ppm):
✅ 采样密度4点/km²,满足矿田级预测(100–500m网格)需求
✅ 采样介质统一为水系沉积物
⚠️ 发现Au检出限在2016年批次为0.3ppb、2019年批次为0.1ppb,存在系统偏差 → 建议:对2016年批次数据进行检出限统一校正
❌ 工作区西北角约15%面积无化探覆盖 → 建议:标注为"数据空白区",该区域预测结果置信度需降低

审查航磁数据:化极纬度参数需确认是否使用了藏南地区的实际磁倾角(约45°),而非默认的90°极地参数。
⑥ ⚠️ 常见错误
错误:只检查数据格式和缺失值,不检查地质可信度。比如化探数据中不同批次检出限不同、不同图幅岩性分类标准不一,这些问题AI工程师发现不了。
正确做法:必须从地质视角逐项审查,给每套数据打分并附具体问题清单。
步骤 2.2:确认坐标系统一方案
① 做什么
确定项目统一使用的投影坐标系,检查每套数据当前的坐标系定义是否明确、是否有坐标系不详的数据需要人工判读,并与AI人员确认重投影方案和目标网格分辨率。
② 用什么工具
QGIS(查看图层CRS属性 / 批量重投影)· ArcGIS 投影转换工具 · Excel 登记各数据源的坐标系信息
③ 输出什么
《坐标系统一方案表.xlsx》,列:数据名称原始坐标系目标坐标系转换方法是否已转换转换责任人。建议命名:坐标系统一方案_项目名.xlsx
④ 交给AI人员时需注意
特别注意:中国旧坐标系(如北京54、西安80)到CGCS2000/WGS84的转换需要七参数或十四参数,不同地区参数不同。如果数据来源不同机构,务必确认是否已完成坐标转换,避免出现"看起来投影一样但实际偏移数十米"的隐性错误。
⑤ 实操举例
两个项目的坐标系统一对比:

西藏金矿项目:统一目标坐标系 WGS84 / UTM Zone 46N (EPSG:32646)
- 化探数据:原始为WGS84地理坐标(经纬度)→ 需转为UTM 46N投影坐标
- 1:5万地质图:原始为北京54 / 高斯6度带 → 需用七参数转为WGS84 UTM 46N
- 航磁GeoTIFFGeoTIFF:一种嵌入地理空间参考信息(坐标系、投影、像元大小、地理范围)的栅格图像格式。AI找矿中所有空间特征的标准输出格式。与普通TIFF的区别是多了地理元数据,可在GIS软件中直接定位和叠加。:已是WGS84 UTM 46N ✅
- ASTER遥感:原始WGS84地理坐标 → 需重投影到UTM 46N

白云鄂博稀土矿项目:统一目标坐标系 CGCS2000 / 3度带第39带 (EPSG:4534)
- 土壤化探:原始为西安80 / 3度带 → 需用四参数转为CGCS2000
- 1:5万地质图:原始为CGCS2000 ✅
- 布格重力GeoTIFF:需确认投影定义是否正确
⑥ ⚠️ 常见错误
错误:假设"所有数据都是WGS84"就直接合并,结果不同数据图层之间偏移50–200m,空间特征计算全部失准。
正确做法:逐一核实每套数据的坐标系定义,对坐标系不详的数据用已知控制点进行校验。在QGIS中叠加后目视检查关键地物(如矿点、道路交叉口)是否对齐。
步骤 2.3:判断数据缺口并提出补充建议
① 做什么
将阶段一的控矿要素清单与现有数据逐一对照,找出"哪些控矿要素缺少数据支撑",评估缺失数据能否通过现有资料间接补充(如用遥感替代缺失的蚀变填图),以及哪些缺口会严重影响预测、哪些可以容忍。
② 用什么工具
Excel 对照控矿要素清单逐项检查 · Word 撰写评估报告
③ 输出什么
《数据缺口评估与补充建议.docx》,包含:缺失要素列表、严重程度评级(关键缺口/一般缺口/可容忍)、替代方案建议、是否需要补充采集。建议命名:数据缺口评估_项目名_v1.docx
④ 交给AI人员时需注意
对"关键缺口"需明确告知AI人员"这个缺失可能导致模型无法捕捉XX控矿要素",避免AI人员在不知情的情况下继续建模,导致模型遗漏重要成矿信息。
⑤ 实操举例
以白云鄂博稀土矿项目为例:
控矿要素清单中有"碳酸岩体分布"——1:5万地质图已包含 ✅
控矿要素清单中有"接触带蚀变分带"——缺少野外蚀变填图数据 ⚠️
→ 替代方案:用 Sentinel-2 遥感的碳酸盐化/赤铁矿化波段比值提取替代,精度有限但可接受
→ 严重程度:一般缺口(有替代方案)

控矿要素清单中有"深部碳酸岩体产状"——仅18个历史钻孔,覆盖有限 ⚠️
→ 替代方案:结合布格重力反演推断深部岩体形态
→ 严重程度:关键缺口(深部信息不足将影响深部靶区预测可信度)
⑥ ⚠️ 常见错误
错误:把数据交给AI团队就不管了,不检查数据是否覆盖了所有控矿要素。结果模型缺少关键控矿信息,预测效果自然不好。
正确做法:用控矿要素清单逐项"打钩",确保每个要素都有对应数据或明确的替代方案。
步骤 2.4:提取前人报告中的历史知识
① 做什么
整理前人报告和论文中的定性地质认识,将其结构化为可供AI团队参考的知识表。重点提取:控矿结论(如"该区NE向断裂控矿")、可量化的规则(如"矿体主要赋存于F1断裂200m范围内")、确定性等级(确定知识 vs 推测知识)。
② 用什么工具
Excel 制作结构化知识表 · Word 摘录原文关键段落 · 文献管理工具(Zotero/EndNote)管理参考文献
③ 输出什么
《历史知识提取表.xlsx》,列:知识内容来源文献/报告确定性等级(确定/较确定/推测)是否可量化量化参数。建议命名:历史知识提取_项目名_v1.xlsx
④ 交给AI人员时需注意
对"确定性知识"和"推测性知识"需有明确标注。确定性知识可直接用于特征设计和结果验证,推测性知识仅供参考不应作为硬约束。附上原始文献来源便于后续追溯。
⑤ 实操举例
以西藏金矿项目为例,历史知识提取(节选):

| 知识内容 | 来源 | 确定性 | 可量化 | 量化参数 |
| 金矿化主要受EW向韧性剪切带控制 | 1:5万矿调报告(2018) | 确定 | 是 | 距EW剪切带距离 |
| NE向张性裂隙为次级容矿空间 | 西藏地质志 | 确定 | 是 | EW与NE交汇部位缓冲区 |
| 矿体赋存于强绢英岩化变质砂岩中 | GIS-MPM论文(Zhuonuo) | 确定 | 是 | 蚀变强度指数 |
| STDS拆离系可能提供深部流体通道 | 学术推论 | 推测 | 否 | — |
| 矿化富集于海拔4500–5000m带 | 统计观察 | 较确定 | 是 | DEM高程带 |
⑥ ⚠️ 常见错误
错误:忽略前人工作,觉得"AI自己能从数据里学出来"。实际上历史报告中的定性知识非常有价值——比如"矿体赋存于F1断裂200m范围内"这样的经验总结可以直接转化为特征设计参数。
正确做法:系统性地检索和提取前人报告中的控矿认识,区分确定性等级,形成结构化知识表。

📦 阶段二交付物清单

交付物格式负责人验收人
数据质量审查报告Word (.docx)地质人员项目负责人+AI负责人
坐标系统一方案表Excel (.xlsx)地质人员+AI人员GIS工程师
数据缺口评估与补充建议Word (.docx)地质人员项目负责人
历史知识提取表Excel (.xlsx)地质人员地质组长
元数据台账Excel (.xlsx)地质+AI协作数据工程师
预处理后数据包GeoTIFF/CSV/ShapefileAI人员地质人员复核
🔬 深入理解:为什么多源数据融合是难点?

找矿预测需要融合的数据类型极其多样:地质图(矢量多边形)、化探数据(离散点)、物探数据(规则网格栅格)、遥感影像(像素栅格)、DEM(连续栅格)、矿点(离散点)。这些数据不仅格式不同,其空间分辨率、时间版本、精度等级也各异。

机器学习模型要求所有输入特征在同一空间参考框架下、同一分辨率上对齐。因此,数据准备阶段需要完成:(1) 坐标系统一——所有数据转到同一投影;(2) 空间分辨率统一——重采样到统一网格;(3) 数据类型转换——矢量转栅格、点数据插值等;(4) 质量控制——缺失值、异常值、系统偏差处理。

常见数据类型及处理目标:地质图 → 空间分布编码(独热编码/标签编码);构造数据 → 距离计算、密度分析;地球化学 → 异常提取、插值成图;地球物理 → 网格化、滤波处理;遥感数据 → 蚀变信息提取;DEM → 地形特征派生(坡度、坡向、起伏度)。

数据质量检查核心项:坐标系统一(全部统一到同一投影)、空间分辨率一致(栅格重采样)、时间版本一致或可融合、缺失值控制(单要素缺失 < 20%)、无重复/错误点、数据使用权限明确。

📂
数据格式与转换指南
Data Formats & Conversion · 地质人员必看:我的数据是什么格式?怎么变成AI能用的?

AI找矿预测中,地质人员最常遇到的困惑之一是:"我手头的数据格式五花八门,AI工程师说要'标准化输入',但我不知道我的数据到底要经过哪些步骤才能变成AI能用的形式。"

本节按数据类型逐一说明:原始格式是什么、需要做哪些标准化操作、最终交给AI的是什么格式,以及地质人员需要亲自做什么、可以交给AI人员的是什么

💡 核心原则:AI模型只能处理数字矩阵(表格或栅格)。所有地质数据的最终归宿是:要么变成一个规则网格上的数值图层(GeoTIFF),要么变成样本点的属性表(CSV)。地质人员的任务是确保这个转换过程中地质含义不丢失

🗺️ 数据转换路径总览

原始格式(你拿到的) 中间标准化(地质人员+AI协作) AI就绪格式 地质人员需确认 地质图 / 构造 • .shp / .gdb(ArcGIS/QGIS矢量) • .wt / .wp / .wl(MapGIS格式) • .dxf(CAD导出)· PDF扫描图 ① MapGIS→shp(自带工具) ② 检查字段:岩性代码、地层代号 ③ 统一坐标系 → 重投影 矢量→栅格化 GeoTIFF(岩性编码值) one-hot编码表(CSV) 岩性分类标准是否统一 不同图幅拼接边界是否正确 构造属性(走向/级别)是否完整 地球化学(化探) • Excel / CSV(样品点数据) • Access数据库 · 纸质报告表格 • 已成图PDF/PNG(等值线图) ① 统一字段名(见右侧规范) ② 统一检出限批次偏差校正 ③ 填写坐标列(X/Y/经纬度) 克里金/IDW插值 GeoTIFF(元素浓度栅格) 或直接CSV(点特征提取) 检出限/分析方法是否统一 采样介质是否一致(水系/土壤) 空白区域是否需要标注 地球物理(物探) • .grd(Surfer网格) • .dat / .xyz(ASCII网格点) • .segy(地震)· GeoTIFF成图 ① .grd/.dat→GeoTIFF(gdal/Oasis) ② 写入坐标参考系(CRS) ③ 确认物理量单位和极性 重采样到统一分辨率 GeoTIFF(化极/滤波后值) 单波段或多波段栅格 化极纬度参数是否正确 异常解释是否有地质依据 数据是否有无效值区域 遥感影像 • .tif / .img(Landsat/ASTER/S-2) • .hdf / .nc(原始下载格式) • .ecw / .jp2(高分辨率影像) ① 大气校正(FLAASH/DOS) ② 蚀变信息提取(波段比值) ③ 去云/镶嵌(ENVI/GEE) 蚀变指数GeoTIFF (绢云母化/硅化/碳酸盐化) 多波段栅格或单波段指数图 时相选择是否无云/无雪 蚀变提取结果是否与地质吻合 波段比值选择是否针对目标矿化 矿点 / 钻孔 • Excel/CSV(坐标+属性) • .las(测井)· 纸质卡片 ① 统一字段名:见正样本规范 ② 精度评估+坐标核实 正样本CSV(训练/验证用) 字段:id, x, y, label, type 坐标精度是否满足要求 矿化强度/类型是否有属性字段

📋 各类地质数据格式速查表

数据类型 常见原始格式 常用软件 AI就绪目标格式 地质人员必做 AI人员负责
地质图(面) .shp / .gdb / .wt(MapGIS) / .mif QGIS、ArcGIS、MapGIS GeoTIFF(岩性编码值栅格)+ CSV编码表 检查属性字段完整性、岩性分类统一性 矢量→栅格、one-hot编码、重采样
构造(线) .shp / .wl(MapGIS) / .dxf QGIS、ArcGIS、MapGIS、AutoCAD GeoTIFF(距离栅格或密度栅格) 补全断裂级别/走向属性字段,删除无效线段 按走向筛选、计算距离/密度、重采样
化探(点) .xlsx / .csv / .mdb(Access) Excel、Access、ioGAS GeoTIFF(插值栅格)或CSV(点样本特征) 核查坐标列、统一检出限、标注空白区 克里金/IDW插值、异常提取、重采样
物探(重磁电) .grd(Surfer) / .dat / .xyz / GeoTIFF Surfer、Oasis Montaj、Geosoft GeoTIFF(物理量或滤波结果) 确认坐标系、确认化极/滤波参数合理性 格式转换、重采样、多波段合并
遥感影像 .tif / .img / .hdf / .nc ENVI、ERDAS、GEE、QGIS GeoTIFF(蚀变指数单/多波段) 审查蚀变提取结果地质合理性、确认时相 大气校正、波段计算、去云、重采样
DEM(地形) .tif(SRTM/ASTER)/ .dem / ASCII grid QGIS、ArcGIS、SAGA GIS GeoTIFF(坡度/坡向/地形起伏度) 确认分辨率是否满足预测尺度 地形衍生特征计算、重采样
矿点/矿化点 .xlsx / .csv / .shp(点矢量) Excel、QGIS CSV(正样本表:id, x, y, label) 核实坐标精度、确认矿化类型属性、排除伪矿点 坐标投影转换、样本划分
钻孔测井 .las(LAS 2.0/3.0)/ .xlsx / .csv Petrel、LogPlot、Python lasio库 CSV(深度-属性表)/ 剖面GeoTIFF 确认曲线命名规范、标注井位坐标 las解析、插值到统一深度网格
地球化学填图(面) .shp(面矢量)/ 纸质等值线图 ArcGIS、QGIS、MapGIS GeoTIFF(元素分区值栅格) 检查分区属性字段是否为数值型 面矢量→栅格栅格化

✏️ 字段命名规范:地质人员提交数据前必查

化探点数据(CSV)必须字段
字段名 说明 示例
sample_id唯一样品编号XT2023-001
x / easting投影X坐标(米)623450.5
y / northing投影Y坐标(米)3245678.2
Au_ppb元素名_单位(小写)12.5
year采样年份2019
medium采样介质stream_sed
⚠️ 禁止字段名含空格、中文、特殊符号;禁止合并单元格;坐标必须是数值而非文本格式。
矿点/正样本(CSV)必须字段
字段名 说明 示例
id唯一编号deposit_001
x投影X坐标(米)623450.5
y投影Y坐标(米)3245678.2
label1=正样本,0=负样本1
deposit_type矿床类型orogenic_Au
coord_accuracy_m坐标精度(米)50
⚠️ 坐标精度字段非常重要:精度差(>500m)的矿点应标注,AI工程师会据此调整缓冲区策略。

🔄 数据不足时的降级策略

缺失数据类型 严重程度 推荐替代方案 注意事项
化探数据完全缺失 关键 遥感蚀变信息(硅化/碳酸盐化)代替元素异常;引用区域地化图件 遥感只反映地表,无法替代深部化探信息;需在报告中注明此局限
地质图(精度不足或缺失) 关键 使用更小比例尺区域图件(1:20万→1:5万);遥感岩性解译辅助 小比例尺岩性分类粗糙,会降低空间特征精度;需与预测尺度匹配
物探数据(航磁/重力)缺失 中等 用卫星重力(EIGEN/GGM)替代地面测量;用遥感磁化率指标替代 卫星数据分辨率低(~10km),仅适合区域尺度预测
遥感蚀变信息缺失(云覆盖) 中等 多时相影像合成去云(GEE);使用SAR穿云(Sentinel-1) SAR反映地表粗糙度非蚀变,解译逻辑不同;需有对应地质解释
矿点数量过少(<10个) 关键 引入邻区同类矿床数据扩充;使用弱监督/无监督学习方法 样本过少会严重过拟合过拟合(Overfitting):模型在训练集上表现很好,但在新数据(测试集)上表现差的现象。原因是模型"记住"了训练数据的噪声而非成矿规律。在AI找矿中常见原因:样本量太少、特征数量过多、模型过于复杂。;应考虑知识驱动方法(证据权重法)代替机器学习
DEM/地形数据缺失 较低 使用SRTM(30m)或ASTER GDEM(30m)全球免费数据 高山区SRTM误差较大;需与其他数据分辨率一致
📜 深入理解:数据版权与使用授权——常被忽视的风险

国家基础地质数据(1:5万、1:25万区调、化探扫面成果等)通常由中国地质调查局或各省地调院持有,公开使用有授权限制。在AI找矿预测项目中使用这些数据前,需确认:数据来源是否有正式合同/授权书、是否允许用于商业或科研目的、成果报告中是否需要注明数据来源并签保密协议。

商业遥感影像(WorldView、Pleiades、高分系列)有明确的版权保护,不能直接用于商业找矿项目。应使用已购买版权的影像或Sentinel-2/Landsat等开源影像。

企业内部数据(钻孔、化探、物探等勘查数据)属于企业机密,在与AI团队共享时,应核实是否签署了保密协议(NDA),在云端处理时需注意数据不上传未经授权的服务器。

实操建议:建立项目数据台账时,增加"数据版权/授权状态"字段,逐套数据注明来源、授权类型(公开/商业授权/企业自有)、是否允许发表。这不仅是法律合规要求,也是项目审计时的重要依据。

🔬 深入理解:为什么最终都要转成GeoTIFF?

GeoTIFF是AI找矿预测中最通用的栅格格式,因为它同时携带空间参考信息(坐标系、投影、像元大小)和数据值。机器学习模型的输入本质上是一个"特征矩阵":行=样本点,列=特征值。在空间预测中,每个预测网格单元就是一个样本,每个GeoTIFF图层就是一列特征。

具体来说,在100m网格分辨率下,一个100km×100km的研究区有100万个网格单元,每个单元对应一行数据,10个GeoTIFF图层则对应10列特征。这个1,000,000×10的矩阵就是模型的输入。

统一分辨率的重要性:所有GeoTIFF图层必须有完全相同的像元大小、范围和坐标系,否则无法对齐成矩阵。地质人员常见问题:化探用的200m插值栅格、遥感用的30m影像、物探用的500m网格,如果不统一到同一分辨率(如100m),模型无法处理。分辨率的选择取决于最稀疏的数据(通常是化探点密度)。

NoData处理:GeoTIFF有NoData值(通常设为-9999或NaN)表示数据缺失区域。如果某个图层在研究区边角有NoData,该区域在所有特征都提取后会被自动排除或需要特殊处理——地质人员需告知AI工程师这些区域是否有地质意义(如"西北角是国境线外,不参与预测")。

🌐 常用坐标系速查表

坐标系名称 类型 EPSG代码 适用范围 地质工作常见用途 注意事项
CGCS2000(地理) 地理坐标 EPSG:4490 全国 国家地调成果标准坐标系,1:5万区调默认 经纬度格式,需投影才能做距离计算
CGCS2000 / 3度带 投影坐标 EPSG:4513–4534
(第25–46带)
全国,按经度带划分 国内矿权登记、地质图标准投影;东经120°区域用第40带(4535) 3度带号 = int(中央经线/3);云南大部分用第37–39带
CGCS2000 / 6度带 投影坐标 EPSG:4491–4512
(第13–24带)
全国 1:25万及更小比例尺区域地质图 精度略低于3度带,大范围区域预测可用
WGS84(地理) 地理坐标 EPSG:4326 全球 GPS记录坐标、遥感影像默认、国际数据库 与CGCS2000差异<1m,通常可直接互用
WGS84 / UTM Zone 46N 投影坐标 EPSG:32646 东经90°–96° 西藏中部、云南西部找矿项目;Landsat/ASTER默认分发 适合跨国对比或用全球开源数据的项目
WGS84 / UTM Zone 47N 投影坐标 EPSG:32647 东经96°–102° 云南大部分、四川西南、西藏东部 西南地区AI找矿项目最常用UTM带之一
WGS84 / UTM Zone 48N 投影坐标 EPSG:32648 东经102°–108° 云南东部、广西、贵州、四川盆地
西安80(地理) 地理坐标 EPSG:4610 全国(旧) 2008年前的地质报告、矿权证、老地质图 ⚠️ 转CGCS2000需四参数(局部精度),切勿直接当CGCS2000用
西安80 / 3度带 投影坐标 EPSG:2349–2370 全国(旧) 1980–2008年国内地质图标准投影 ⚠️ 与CGCS2000 3度带同号但坐标不同,混用误差可达数十米
北京54(地理) 地理坐标 EPSG:4214 全国(旧) 1980年前历史图件、部分矿山老资料 ⚠️ 转WGS84/CGCS2000需七参数,偏差可达百米量级
北京54 / 6度带 投影坐标 EPSG:21413–21423 全国(旧) 建国初期地质图、老矿山测量 ⚠️ 需七参数精确转换;QGIS可通过proj转换,需指定转换网格文件
🔧 实操:旧坐标系转CGCS2000/WGS84的正确流程

西安80 → CGCS2000(推荐四参数法):

两种坐标系均以GRS80椭球为基准,理论上差异极小,但实际上由于国内控制点网平差差异,局部偏差可达0.1–2m。对于1:5万及更大比例尺的精确工作,建议使用四参数(X平移、Y平移、旋转角、尺度因子)进行转换。在QGIS中:图层右键→属性→坐标参考系→使用已知四参数手动定义转换。如无本地四参数,可向省级自然资源厅或测绘院申请。

北京54 → CGCS2000/WGS84(必须七参数):

北京54采用克拉索夫斯基椭球,与GRS80差异显著,直接重投影误差高达50–200m,这是地质图层空间对不上的最常见原因。正确做法:(1) 获取本区域七参数(X/Y/Z平移、X/Y/Z旋转、尺度因子)——通常由原图件编制单位或测绘部门提供;(2) 在QGIS的"CRS转换"中选择"位置七参数转换"并输入参数;(3) 转换后用已知控制点(如矿山建筑物坐标)验证误差是否<5m。

快速判断转换是否正确的方法:

在QGIS中叠加转换后的地质图与谷歌卫星底图(XYZ底图,WGS84)。检查:(1) 主要河流、山脊线是否与地质图构造线位置吻合;(2) 已知矿山坐标是否落在对应位置;(3) 不同来源数据叠加后的地物是否对齐。如果误差>半个像元(在100m分辨率下即>50m),需要重新核查转换参数。

QGIS常用坐标系操作备忘:投影→CRS转换工具(矢量)/ 栅格→投影 / 批量处理:处理工具箱→重投影图层;查看当前图层CRS:图层属性→信息→坐标参考系;在状态栏设置"即时坐标转换"可实时查看鼠标位置在不同CRS下的坐标。

03
特征工程与样本构建
Phase 3 · Feature Engineering & Sample Construction

本阶段是地质人员与AI工程师协作最密切的环节。原始地质数据不能直接输入模型,需要转化为AI能理解的"数值特征"。特征工程是找矿预测中最体现地质功底的环节——好的特征往往比好的算法更重要。地质人员的核心职责是告诉AI工程师"算什么"(而不是"怎么算"),并在特征计算完成后审查结果的地质合理性。同时,样本构建(正负样本的最终划分与空间交叉验证空间交叉验证(Spatial Cross-Validation):将研究区按空间位置分块(而非随机分割)进行交叉验证的方法。避免空间自相关导致的"邻近泄漏"——即训练集和测试集中包含地理位置相邻的样本,使得评估结果过于乐观。策略)也在本阶段确定。

💡 "距已知矿点距离"是最常见的数据泄漏。它会让模型"作弊"——模型只是学会了"离已知矿点近的地方更可能有矿",这是废话,不是找矿。
任务内容责任角色说明
提出特征设计建议(算什么+为什么) 地质人员 基于控矿要素清单,用地质语言描述需计算的特征
审查计算后的特征结果 地质人员 检查特征值分布是否符合地质预期
确定样本划分策略 协作 地质人员提供空间分块建议,AI人员实现划分
编程实现特征计算 AI人员 用Python/GIS工具实现距离、密度、插值等计算
特征标准化与降维 AI人员 Z-score、Min-Max、PCA等
样本不平衡处理 AI人员 SMOTESMOTE(Synthetic Minority Over-sampling Technique):一种处理样本不平衡的方法,通过在少数类(正样本/矿化点)周围生成合成样本来平衡正负样本比例。注意:在空间数据中需谨慎使用,合成的空间坐标可能不具有地质意义。、下采样、类别权重调整
识别数据泄漏风险 协作 地质人员判断特征是否包含"答案信息"

🪨 地质人员操作步骤

→ 04 模型训练
步骤 3.1:提出特征设计建议
① 做什么
根据阶段一的控矿要素清单,逐个要素向AI工程师描述需要计算的派生特征,包括"算什么"和"为什么算这个"。你不需要写代码,但要用地质语言清晰地描述计算逻辑。关键:指明具体的构造方向、元素组合、缓冲区范围等参数。
② 用什么工具
Excel 制作特征设计建议表 · QGIS 辅助可视化验证设计逻辑 · Word 撰写地质依据说明
③ 输出什么
《特征设计建议表.xlsx》,列:控矿要素建议特征名计算描述地质依据数据来源优先级(高/中/低)。建议命名:特征设计建议_项目名_v1.xlsx
④ 交给AI人员时需注意
"计算描述"要具体到参数级别。比如不要写"断裂相关特征",而要写"计算每个网格到EW向(走向80°–100°)韧性剪切带的最近欧氏距离"。如果某特征需要分方向计算(如只看NE向断裂),必须指明方向筛选条件。
⑤ 实操举例
西藏金矿项目——特征设计建议(节选):

| 控矿要素 | 建议特征名 | 计算描述 | 地质依据 | 优先级 |
| EW向剪切带 | dist_EW_shear | 计算每个网格到EW向(走向80°–100°)韧性剪切带的最近欧氏距离 | 金矿化受EW向主剪切带控制 | 高 |
| 断裂交汇 | density_fault_intersect | EW向与NE向断裂交汇点的核密度估计(带宽500m) | 矿化富集于构造交汇部位 | 高 |
| 蚀变 | alteration_index | ASTER波段比值提取绢云母化+硅化蚀变强度指数 | 矿体赋存于强蚀变带 | 高 |
| 化探组合 | AuAsSb_composite | Au-As-Sb三元素Z-score标准化后求和的组合异常指数 | 不用单元素Au,三元素组合更稳健 | 中 |

白云鄂博稀土矿项目——特征设计建议(节选):

| 控矿要素 | 建议特征名 | 计算描述 | 地质依据 | 优先级 |
| 碳酸岩体接触带 | dist_carbonatite_contact | 计算每个网格到碳酸岩体边界的最近距离(正值=外侧,负值=内侧) | REE矿化集中在碳酸岩体与围岩接触带200m范围 | 高 |
| 碳酸岩体缓冲区 | buffer_200m_carbonatite | 碳酸岩体外接触带200m缓冲区的布尔值(0/1) | 高品位段集中在外接触带200m内 | 高 |
| NE向断裂 | dist_NE_fault | 计算每个网格到NE向断裂的最近距离 | NE向断裂控制碳酸岩体展布 | 中 |
⑥ ⚠️ 常见错误
错误:特征设计写得太笼统——"计算断裂相关特征"、"提取化探异常",AI工程师不知道具体计算什么。
正确做法:精确到特征名、计算方法、参数值。比如"计算每个网格到EW向(走向80°–100°)韧性剪切带的最近欧氏距离"而非"计算断裂距离"。
步骤 3.2:审查特征计算结果
① 做什么
AI工程师计算完特征后,逐一审查每个特征的结果是否符合地质预期。重点检查:特征值的分布形态是否合理、特征之间的相关性是否说得通、是否存在数据泄漏、是否有明显不合理的特征被纳入。
② 用什么工具
QGIS 叠加特征栅格图与地质图目视检查 · Excel 查看特征统计摘要 · AI人员提供的特征分布直方图
③ 输出什么
《特征审查报告.docx》,逐特征给出结论:通过 / 需修改(附修改建议) / 不通过(附原因)。建议命名:特征审查报告_项目名_v1.docx
④ 交给AI人员时需注意
对"需修改"的特征给出明确的修改方向,不要只说"不对",要说"哪里不对、应该怎么改"。对"不通过"的特征说明是删除还是替换为其他特征。
⑤ 实操举例
以西藏金矿项目为例,审查特征 dist_EW_shear
✅ 在QGIS中叠加"距EW向剪切带距离"栅格图与已知矿化点,发现32个矿化点中有28个落在距EW剪切带 <1000m 范围内,分布符合地质预期 → 通过

⚠️ 审查特征 elevation(高程):发现矿化点集中在4500–5000m带,但这可能是"矿化出露高程"而非"控矿要素",高程与矿化之间可能只是虚假相关 → 建议降低优先级,或在消融实验消融实验(Ablation Study):逐一移除某个特征或模块后观察模型性能变化的实验方法。在AI找矿中用于判断哪些特征真正有贡献——某特征被删除后AUC大幅下降,说明该特征对模型重要。中验证

❌ 发现AI人员额外加入了 dist_known_deposit(距已知矿点距离)特征 → 不通过!这是典型数据泄漏,必须删除
⑥ ⚠️ 常见错误
错误:不审查特征结果就进入模型训练。最常见的问题:(1) "距已知矿点距离"被当作特征——这是数据泄漏;(2) 蚀变强度与距岩体距离正相关——实际应该负相关,说明计算逻辑有错;(3) "距公路距离"被纳入——人类活动特征不应参与成矿预测。
正确做法:逐特征审查,尤其关注数据泄漏和伪相关。
步骤 3.3:参与样本划分策略讨论
① 做什么
与AI工程师共同确定训练集/测试集的划分方式。核心原则:优先使用空间分块划分(Spatial Block Split)Spatial Block Split(空间分块划分):将研究区划分为若干空间块(如按经纬度网格),每次用部分块做训练、其他块做验证。这样训练和测试数据在空间上完全分离,避免"邻近泄漏"——相邻网格同时出现在训练集和测试集中导致评估虚高。而非随机划分,避免"邻近泄漏"。地质人员需要建议合理的空间分块方案——分块边界最好沿自然地质单元划分。
② 用什么工具
QGIS 绘制空间分块方案图 · Word 撰写分块依据说明
③ 输出什么
《样本划分策略建议.docx》,包含:推荐划分方式(空间分块/随机/混合)、分块依据(地质单元/固定网格)、分块方案图、每块的矿点数量统计。
④ 交给AI人员时需注意
如果研究区矿化点稀少(<30个),空间分块后每块内的矿点可能太少,需要与AI人员讨论折中方案(如减少分块数或使用留一法)。同时说明是否有些矿点质量很差不应进入训练集。
⑤ 实操举例
以西藏金矿项目为例:
32个已知矿化点,工作区约1200km²。建议将工作区沿EW方向分为4个空间块(每块约300km²),分块边界尽量沿NW向次级构造带划分(这些构造带本身可能对矿化有分隔作用)。

统计:Block A含矿点11个(包括2个大型矿点),Block B含8个,Block C含9个,Block D含4个。
→ 建议4折空间交叉验证,每次留出一个块作测试集。
→ Block D矿点偏少,可考虑与相邻块合并后做3折验证。
⑥ ⚠️ 常见错误
错误:使用随机划分代替空间分块。如果训练集和测试集中包含空间上相邻的样本(比如同一矿床的不同网格),模型只需"记住邻近区域"就能获得高分,评估结果虚高。
正确做法:必须使用空间分块划分,确保训练和测试样本在空间上完全分离。
步骤 3.4:识别并排除数据泄漏风险
① 做什么
专门检查特征列表中是否包含"把答案当线索"的泄漏特征。典型泄漏特征包括:距已知矿点距离、矿山开采范围缓冲区、矿权区范围等——这些特征包含了标签信息本身,模型用它们"作弊"而非学习成矿规律。同时检查是否有间接泄漏(如地名编码恰好与矿区位置高度相关)。
② 用什么工具
Excel 逐一审查特征清单 · 地质常识判断 · 与AI人员讨论
③ 输出什么
在《特征审查报告》中增加"数据泄漏检查"专节,列出所有已排除的泄漏特征及排除理由。
④ 交给AI人员时需注意
明确告知AI人员:任何与"已知矿点位置"直接相关的特征都必须排除。如果AI人员自动生成了大量特征(如自动特征工程),地质人员需逐一审查每个特征名称和计算逻辑。
⑤ 实操举例
以白云鄂博稀土矿项目为例:
审查AI工程师生成的28个候选特征:
dist_known_ore_body(距已知矿体距离)→ 直接泄漏,删除
mining_license_buffer(矿权区500m缓冲区)→ 人为信息泄漏,删除
⚠️ road_density(道路密度)→ 矿区附近道路密度高是开采的结果而非成矿原因,建议删除
dist_carbonatite_contact(距碳酸岩体接触带距离)→ 这是成矿条件而非答案本身,保留

关键区分:"距碳酸岩体接触带距离"是成矿条件(合理特征),而"距已知矿体距离"是答案本身(泄漏特征)
⑥ ⚠️ 常见错误
错误:把"距已知矿点距离"当成一个有效特征。模型AUC飙到0.95,看起来效果极好,但实际是模型学会了"离已知矿点越近越可能有矿"——这毫无预测价值。一旦去掉这个特征,AUC可能骤降到0.6。
正确做法:区分"成矿条件"(如距断裂距离、蚀变强度——这些是地质过程的表征)和"答案信息"(如距已知矿点距离——这是结果本身),只保留前者。

📦 阶段三交付物清单

交付物格式负责人验收人
特征设计建议表Excel (.xlsx)地质人员AI工程师
特征审查报告(含泄漏检查)Word (.docx)地质人员AI负责人+地质组长
样本划分策略建议Word + 方案图地质+AI协作项目负责人
最终特征矩阵CSV / GeoTIFFAI人员地质人员复核
正负样本最终版CSV地质+AI协作双方确认签字

💬 与AI团队沟通模板

场景:提交特征设计建议时
我建议计算以下特征(详见附件《特征设计建议表》)。优先级最高的{{优先特征数}}个特征是:[1] {{特征1名称}}——因为{{特征1地质依据}},具体计算方式为{{特征1算法}},数据来源是{{特征1数据源}};[2] {{特征2名称}}——因为{{特征2地质依据}}。请注意:不要计算"距已知矿点距离"等可能导致数据泄漏的特征。断裂距离特征请只计算{{断裂方向}}断裂,不要对所有方向断裂笼统计算。
场景:反馈特征审查结果时
特征审查已完成(详见附件《特征审查报告》)。{{通过数}}个特征通过,{{需修改数}}个需修改,{{不通过数}}个不通过。需重点关注:[1] {{问题特征1}}的计算逻辑有误——{{问题描述1}},建议改为{{修改方案1}};[2] {{泄漏特征}}存在数据泄漏风险,建议删除。修改完成后请重新提交审查。另外,关于样本划分,建议采用{{样本划分方式}}方式,分块方案见附图。
🔬 深入理解:特征工程的常用类型与样本构建原理

常用特征类型:

距离特征(距断裂距离、距岩体距离)→ GIS欧氏距离/缓冲区分析;密度特征(断裂密度、线环构造密度)→ GIS核密度估计;地层组合(地层编码、有利层位标记)→ 独热编码/标签编码;蚀变特征(蚀变强度、蚀变类型)→ 遥感光谱比值法;地球化学(单元素异常、多元素叠加指数)→ Z-score/多重分形;地球物理(布格重力异常、航磁异常导数)→ 滤波、延拓、求导;地形特征(坡度、坡向、地形起伏度)→ DEM派生。

数据标准化:不同特征的量纲差异很大(如 ppm vs nT vs m),必须进行标准化处理。常用方法包括:Z-score标准化(均值为0、方差为1)、Min-Max归一化(缩放到[0,1])。对于高维特征,可使用PCA或自编码器进行降维。

样本构建要点:正样本来源于地质调查和历史勘探资料(已知矿床、矿点、强矿化蚀变点)。负样本选择远离已知矿化、地质背景稳定的区域——关键原则:不要把"未知矿化区"误标为负样本,否则会引入标签噪声。样本不平衡是常态(矿床样本少、背景样本多),常用处理策略包括:下采样(Undersampling)、上采样(SMOTE)、类别权重调整、难例挖掘。

空间交叉验证原理:传统随机K折交叉验证在空间数据上会失效——因为空间自相关(相邻区域性质相似),随机划分会导致训练和测试样本"太像",评估结果过于乐观。空间分块划分(Spatial Block Split)通过确保训练和测试数据在空间上完全分离来解决这个问题。

04
模型训练与优化
Phase 4 · Model Training & Optimization

本阶段以AI/算法工程师为主导,地质人员的角色从"操作者"转变为"监督者与协作者"。模型选择应遵循"从简单到复杂"的原则——先用经典机器学习(随机森林随机森林(Random Forest):一种集成学习方法,通过构建多棵决策树并取平均来提高预测精度和稳定性。在AI找矿中广泛使用,优点是可解释性强(支持特征重要性排名)、对小样本鲁棒、不易过拟合。、XGBoost)建立基线,确认数据和特征没有问题后,再逐步引入深度学习或多模态方法。地质人员不需要亲自调参写代码,但需要确保训练过程中使用的数据版本、特征版本与前序阶段的地质审查结论一致。

💡 建议固定记录:数据版本、特征版本、模型版本、参数配置、训练结果、可解释性分析结果。这是科学可复现性的基础。
任务内容责任角色说明
建立基线模型(RF / XGBoostXGBoost(eXtreme Gradient Boosting):一种高效的梯度提升算法,通过迭代训练多棵决策树并逐步修正误差来提高预测精度。比随机森林精度略高,但可解释性稍弱,对超参数更敏感。 AI人员 先用经典算法确认数据质量
空间交叉验证与超参数调优 AI人员 使用Spatial CV、GridSearch/Optuna
比较不同特征组合(消融实验) AI人员 验证哪些特征组合效果最好
确认训练数据版本与审查一致性 地质人员 确保用的是审查通过的数据和特征
审查特征版本与控矿逻辑一致性 地质人员 模型实际使用的特征是否与地质建议一致
在实验日志中添加地质备注 地质人员 记录地质视角的观察和建议
讨论消融实验结果的地质含义 协作 某特征删除后性能变化是否符合预期
尝试进阶模型(CNN/GNN等) AI人员 基线稳定后可尝试深度学习方法

🪨 地质人员操作步骤

→ 05 评估与可解释性
步骤 4.1:确认训练数据版本一致性
① 做什么
在模型训练开始前,与AI人员核对:训练使用的正负样本是否为阶段一定义并经过审查的版本(而非中间修改版),样本数量是否与预期一致,是否有遗漏或重复。同时确认训练数据中排除了阶段三审查不通过的特征。
② 用什么工具
Excel 对比样本数量 · 查看AI人员提供的数据版本号/哈希值 · 口头或会议确认
③ 输出什么
《训练数据版本确认单》(可为简单的签字确认表),字段:数据项版本号样本数量地质人员确认签名日期
④ 交给AI人员时需注意
要求AI人员在实验日志中记录数据版本号,便于后续溯源。如果后续迭代中修改了样本或特征,必须重新确认。
⑤ 实操举例
以西藏金矿项目为例:
确认单内容:
- 正样本:32个矿化点,版本v2(剔除了2个坐标精度>200m的不可靠点后剩30个)✅
- 负样本:120个背景点,版本v1(5km缓冲区外+稳定地层区)✅
- 特征数量:14个(排除了dist_known_depositroad_density,与审查报告一致)✅
- 特征矩阵文件:feature_matrix_v2_20260415.csv,MD5: a3b5c7d9... ✅
- 地质人员确认签名:[签名] 日期:2026-04-15
⑥ ⚠️ 常见错误
错误:AI人员用了未经审查的中间版本数据训练模型,或者悄悄加回了被审查剔除的特征。地质人员因为"不懂代码"没有检查。
正确做法:不需要看代码,只需核对数据版本号、样本数量和特征列表是否与审查报告一致。
步骤 4.2:审查特征版本与控矿逻辑一致性
① 做什么
要求AI人员提供模型实际使用的特征列表,逐一对照阶段三的《特征审查报告》,确认:(1) 所有"通过"的特征均已纳入;(2) 所有"不通过"的特征已被排除;(3) "需修改"的特征已按建议修正。
② 用什么工具
Excel 对照特征清单(审查版 vs 实际使用版)
③ 输出什么
在《训练数据版本确认单》中增加特征一致性核对结果,标注一致/不一致(原因)
④ 交给AI人员时需注意
如果AI人员在训练过程中自行新增了特征(如自动特征衍生),需要回到地质人员处补审。
⑤ 实操举例
以白云鄂博稀土矿项目为例:
对照检查发现:
dist_carbonatite_contact → 已纳入,与审查一致
buffer_200m_carbonatite → 已纳入
⚠️ gravity_residual → 审查建议"需修改:改用布格重力异常而非剩余重力异常",但实际训练中仍使用剩余重力异常 → 不一致,要求修正
dist_known_ore_body → 审查明确不通过,但发现AI人员在自动特征工程中又生成了类似特征 → 立即删除
⑥ ⚠️ 常见错误
错误:以为阶段三审查完就万事大吉,不再跟进实际训练时用了什么。训练中间过程可能引入偏差。
正确做法:训练前做一次"特征列表比对",5分钟即可完成,但能避免大量返工。
步骤 4.3:记录实验日志中的地质备注
① 做什么
在AI人员的实验日志(MLflow/Excel)中添加地质视角的备注和观察。比如:消融实验中删除某特征后性能变化的地质解释、某次实验结果与地质预期的符合程度、建议下一步尝试的特征组合方向等。
② 用什么工具
Excel 实验日志表 · MLflow Web界面(浏览器访问,不需要编程)· Word 会议纪要
③ 输出什么
实验日志中的地质备注列,每次重要实验至少一条地质解读。格式:实验编号地质备注是否建议调整调整方向
④ 交给AI人员时需注意
地质备注应该是具体的、可操作的建议,而非笼统的"看起来还行"。比如"删除蚀变特征后AUC下降0.08,符合预期——蚀变是该矿床类型的核心控矿要素,建议保留"。
⑤ 实操举例
以西藏金矿项目为例,实验日志地质备注:

实验 #007(删除 dist_EW_shear 的消融实验):
→ AUC从0.82降至0.71,降幅最大
地质备注:"符合预期。EW向韧性剪切带是该区造山型金矿的最核心控矿构造,删除后性能大幅下降合理,说明模型确实学到了构造控矿信号。建议此特征为必选特征。"

实验 #012(添加 elevation 高程特征):
→ AUC从0.82升至0.85
地质备注:"性能提升但需谨慎。高程提升可能是伪相关——矿化出露主要在4500–5000m带是地形侵蚀的结果而非控矿原因。建议在独立测试集中验证此特征是否仍有效,如果仅在训练区有效则为过拟合。"
⑥ ⚠️ 常见错误
错误:只看AUC数字高低就判断模型好坏,不从地质角度解读为什么好/为什么差。AUC高不一定是好事(可能是数据泄漏或过拟合),AUC低也不一定是坏事(可能是数据本身的挑战)。
正确做法:每次重要实验都给出地质解读——"为什么性能变了?变化方向是否合理?"
步骤 4.4:读懂训练曲线——识别过拟合与欠拟合欠拟合(Underfitting):模型在训练集和测试集上都表现差的现象。原因是模型太简单或关键特征缺失,无法捕捉数据中的规律。常见原因:缺少核心控矿要素的特征,或样本标签定义有误。
① 做什么
AI人员在训练过程中会提供"训练集 vs 验证集"的性能曲线图(通常是AUC或Loss随迭代次数变化的折线图)。地质人员不需要理解曲线背后的数学,但需要能识别三种典型模式:正常收敛、过拟合、欠拟合——因为这三种情况需要不同的应对措施。
② 用什么工具
AI人员提供的训练曲线图(PNG/PDF)· 口头讨论确认诊断结论
③ 输出什么
在实验日志中标注:当前训练状态(正常/过拟合/欠拟合)+ 地质人员建议的调整方向
④ 三种模式识别指南
✅ 正常收敛
训练集和验证集性能同步提升,最终趋于稳定,两条线差距较小。

地质建议:继续进行消融实验和可解释性分析。
⚠️ 过拟合
训练集AUC持续升高,但验证集AUC在某点后不再提升甚至下降,两线差距越来越大。

地质建议:回查是否正负样本比例极端不平衡,或样本量太少,可尝试增加正则化或减少特征数量。
❌ 欠拟合
训练集和验证集AUC都很低且几乎不再提升,两条线紧贴在一起但处于低位。

地质建议:检查关键控矿要素是否有特征缺失,或样本标签定义是否有问题;尝试更复杂的模型。
⑤ 实操举例
以西藏金矿项目为例:
AI人员提供的训练曲线显示:训练集AUC从第10轮开始稳定在0.91,但验证集AUC在第8轮达到0.84后开始缓慢下降到0.79。
诊断:轻度过拟合
地质建议:当前14个特征中可能有几个相关性很高的冗余特征(如同时用了"距EW断裂距离"和"EW断裂密度",两者高度相关)。建议去掉冗余特征,或增加负样本数量(从120个扩展到200个)。
⑥ ⚠️ 常见错误
错误:只看训练集AUC高就认为模型好。AI找矿中,训练集AUC=0.99但验证集AUC=0.65是非常常见的过拟合情形,尤其在样本量少的情况下。
正确做法:永远同时看训练集和验证集的性能曲线,两者的差距才是关键信号。
步骤 4.5:读懂模型对比表——如何选最终模型
① 做什么
AI人员会在多种模型(随机森林、XGBoost、SVM等)和多种特征组合中训练,最终提供一个模型对比表。地质人员需要从地质+统计双维度评判,不能只看哪个AUC最高,还需要考虑:模型是否可解释、是否在空间交叉验证中稳定、是否符合地质逻辑。
② 用什么工具
Excel 模型对比表 · 讨论会议 · 《特征重要性审查报告》对照
③ 输出什么
在模型对比表中增加"地质人员推荐"列,并附推荐理由(不超过100字)。最终选定模型需要地质人员和AI负责人共同签字确认。
④ 选模型看什么——优先级排序
评判维度 看什么 优先级
验证集AUC 空间交叉验证下的AUC,非随机分割AUC 最重要
特征重要性地质合理性 控矿要素是否排名靠前、是否有伪相关 最重要
远景图空间分布 高分区域是否在地质有利部位 重要
测试矿点召回率 独立测试矿点落在高分区的比例 重要
模型可解释性 随机森林/XGBoost比深度学习更容易解释 参考
⑤ 实操举例
以白云鄂博稀土矿项目为例,模型对比(简化):

| 模型 | 空间CV AUC | 测试矿点召回率 | 地质合理性 | 推荐 |
| 随机森林(14特征) | 0.84 | 87% | ✅ 高 | ✅ 推荐 |
| XGBoost(14特征) | 0.87 | 90% | ✅ 高 | 备选 |
| XGBoost(14+elevation) | 0.89 | 92% | ⚠️ 中(elevation伪相关) | ❌ |
| CNN(栅格输入) | 0.82 | 83% | ⚠️ 低(不可解释) | ❌ |

最终选择随机森林(14特征):虽然AUC略低于XGBoost,但可解释性更强、地质合理性最高,是本项目的最优选择。XGBoost留作备选,可在第二轮迭代中使用。
⑥ ⚠️ 常见错误
错误:直接选AUC最高的模型。AUC最高的模型可能因为包含伪相关特征(如elevation)而在数字上更好看,但地质上不可信,在新区预测时也更容易失效。
正确做法:先排除包含伪相关或数据泄漏的模型,在剩余候选中再看AUC和召回率。

📦 阶段四交付物清单

交付物格式负责人验收人
训练数据版本确认单Excel / 签字表地质人员AI负责人
特征一致性核对结果Excel地质人员AI工程师
实验日志(含地质备注)MLflow / ExcelAI人员+地质备注项目负责人
训练曲线诊断意见(过/欠拟合判断)Word备注地质人员AI工程师
模型对比表(含地质人员推荐列)ExcelAI人员+地质推荐全团队
最优模型文件.pkl / .ptAI人员AI负责人
🔬 深入理解:模型选择指南与训练流程

模型选择指南:

基线模型(优先尝试):随机森林(RF) → 小样本、非线性关系,稳健可解释;XGBoost/LightGBM → 中等样本量,精度高、训练快;支持向量机(SVM) → 高维特征,小样本表现好。

深度学习(基线稳定后尝试):CNN(卷积神经网络)→ 栅格化化探/磁测图像,自动提取空间纹理特征;GNN(图神经网络)→ 断裂网络拓扑关系,捕捉复杂空间连接。

融合与知识增强方法:多模态融合 → 地质+遥感+化探+物探联合,信息互补;知识图谱+ML → 整合专家知识与数据驱动,可解释性强。

训练流程:(1) 建立基线模型(RF或XGBoost);(2) K折交叉验证(空间分块);(3) 超参数调优(GridSearch / Optuna);(4) 消融实验——比较不同特征组合;(5) 比较不同采样策略(Imbalanced-learn);(6) 尝试进阶模型;(7) 记录每次实验(MLflow / Excel)。

地质人员需了解的关键概念:消融实验是逐一删除某个特征后观察模型性能变化——性能下降越多说明该特征越重要,如果删除某个控矿要素特征后性能几乎不变,说明模型没有有效利用该信息(可能是数据质量问题或特征设计不当)。

05
评估与可解释性分析
Phase 5 · Evaluation & Interpretability Analysis

找矿不是只追求预测分数,而是要让地质逻辑能解释模型的判断。可解释性分析是AI找矿区别于纯数据科学任务的关键环节。地质人员在这一阶段重新回到核心位置——你需要审查SHAPSHAP (SHapley Additive exPlanations):一种可解释性分析方法,基于博弈论中的Shapley值。它计算每个特征对单个预测结果的正/负贡献,帮助理解"模型为什么对某个区域给出高分"。例如:某网格得分高,SHAP分析显示"距EW向剪切带距离"贡献最大且方向为正(越近得分越高),说明模型学到了构造控矿规律。值和特征重要性排名是否符合成矿规律,审查远景图的空间分布是否合理,识别伪相关和模型缺陷。

💡 如果模型预测在一个不可能出矿的地层里有高分,说明特征提取或负样本选择出了问题,需要回溯排查——不要急着接受结果。
任务内容责任角色说明
审查SHAP/特征重要性排名的地质合理性 地质人员 排名是否与成矿理论一致
审查远景图空间分布合理性 地质人员 高分区是否在成矿有利部位
识别伪相关特征 地质人员 排名异常高的非控矿特征
撰写地质审查报告 地质人员 模型结果的全面地质评价
生成SHAP图、PDPPDP(Partial Dependence Plot,部分依赖图):展示某一特征的数值如何影响模型预测概率的可视化工具。横轴是特征值,纵轴是预测概率,可帮助地质人员识别控矿的有效距离阈值,验证成矿概念模型中的参数。图、特征重要性排名 AI人员 使用shap库、sklearn PDP
计算评估指标(AUC、Top-K、Precision/Recall) AI人员 核心指标组合评估
讨论迭代方向 协作 基于审查结果确定是否需要回溯修正

🪨 地质人员操作步骤

→ 06 远景图与靶区
步骤 5.1:审查SHAP值与特征重要性排名
① 做什么
AI工程师会提供一张特征重要性排名图和SHAP分析图,你需要判断:(1) 排名前几的特征在地质上是否说得通;(2) 是否有"伪相关"特征排名异常高;(3) 特征贡献的方向是否正确(如"距岩体越近得分越高"是否符合实际);(4) 是否有重要控矿要素被模型忽略。
② 用什么工具
AI人员提供的SHAP图(PNG/PDF)· Excel 记录审查结论 · Word 撰写审查意见
③ 输出什么
《SHAP/特征重要性审查意见表》,列:特征名重要性排名SHAP贡献方向地质合理性判断(合理/存疑/不合理)说明
④ 交给AI人员时需注意
如果发现排名不合理,需要给出具体的修改建议——是删除该特征重新训练,还是修改特征计算方式,还是需要回溯检查数据质量。
⑤ 实操举例
以西藏金矿项目为例,审查SHAP结果:

特征重要性排名前5:
1. dist_EW_shear(距EW向剪切带距离)→ SHAP方向:距离越近得分越高 → ✅ 合理:造山型金矿受EW向剪切带控制,这是最核心的控矿要素排第一完全正确
2. alteration_index(蚀变强度指数)→ SHAP方向:蚀变越强得分越高 → ✅ 合理
3. elevation(高程)→ SHAP方向:4500–5000m带得分最高 → ⚠️ 存疑:高程可能是伪相关(矿化出露高程是侵蚀的结果),建议做消融实验验证
4. AuAsSb_composite(Au-As-Sb组合异常)→ ✅ 合理
5. density_fault_intersect(断裂交汇密度)→ ✅ 合理

⚠️ 关注点:aeromagnetic_deriv(航磁一阶导数)排名倒数第2,但成矿概念模型中认为航磁可指示隐伏构造。排名低可能原因:(1) 数据分辨率不够;(2) 化极处理参数不准。建议追查。
⑥ ⚠️ 常见错误
错误:只看"模型AUCAUC (Area Under the ROC Curve):ROC曲线下面积,衡量模型区分"有矿"与"无矿"能力的综合指标。值域0~1,越接近1表示模型区分能力越强。0.5表示随机猜测水平。高就说明结果好",不检查特征重要性排名是否符合地质逻辑。AUC高可能是模型学到了伪相关或数据泄漏的结果。
正确做法:AUC只是统计指标,必须结合SHAP分析判断模型"学到了什么"——如果学到的是成矿规律则可信,如果学到的是噪声或伪相关则需要修正。
步骤 5.2:审查远景图空间分布合理性
① 做什么
看模型输出的成矿概率图,判断空间分布是否合理:(1) 高分区域是否主要落在已知成矿带内及其延伸方向;(2) 是否在明显不合理的位置出现高分(如第四系覆盖区预测基岩型矿床);(3) 高分区域的形态是否合理(沿断裂带分布 vs 随机散点);(4) 已知矿点是否都落在较高分区域。
② 用什么工具
QGIS 叠加远景图与地质图、构造图、已知矿点 · ArcGIS 空间分析 · 目视判读
③ 输出什么
《远景图空间审查意见》,标注在打印版远景图上或制作标注版PDF,圈出"合理区域"(绿圈)和"不合理区域"(红圈)并附原因说明
④ 交给AI人员时需注意
对每个"不合理高分区"需说明具体原因(如"此处为XX地层,不具备成矿条件"),帮助AI人员判断是负样本不足还是特征遗漏导致的问题。
⑤ 实操举例
以白云鄂博稀土矿项目为例,审查远景图:

合理区域:高概率区主要分布在已知碳酸岩体的外接触带(主矿和东矿周边200–500m范围),形态沿NE向断裂带延伸,与成矿概念模型一致

新发现潜力区:在主矿西南方向约3km处出现一个中-高概率区,叠加地质图发现该处有一个小型碳酸岩体露头(前人未系统勘查),值得关注

不合理区域:工作区东北角出现一片高分区,但该处为白云鄂博群H1–H5层位(碎屑岩段),远离碳酸岩体,地质上不具备稀土成矿条件 → 可能原因:该区域重力异常偏高(可能是其他因素引起),负样本在此区域覆盖不足

⚠️ 已知矿点检查:主矿和东矿的所有钻孔位置均落在高概率区(前10%)内,但有2个外围矿化线索点(REO品位较低)得分偏低(后40%),需要追查原因
⑥ ⚠️ 常见错误
错误:"模型说这里有矿就说明有矿"——模型输出的是"概率"而非"结论",必须经过地质审查和野外验证。
正确做法:把远景图当作"决策支持工具"而非最终答案,逐区域审查空间合理性。
步骤 5.3:识别伪相关并提出调整建议
① 做什么
结合SHAP分析和远景图审查结果,识别模型是否学到了与矿化无关的虚假关联(伪相关),并向AI工程师提出具体的调整建议:剔除特征、替换特征、补充负样本、修正数据等。
② 用什么工具
地质知识判断 · QGIS 空间叠加分析 · Word 撰写调整建议
③ 输出什么
《迭代调整建议书》,列出每个问题的原因分析和具体调整措施,作为下一轮模型训练的输入
④ 交给AI人员时需注意
建议按优先级排序:哪些是"必须修正否则结果不可信"的问题,哪些是"改了更好但不改也能接受"的问题。避免给AI人员一长串问题而不分轻重缓急。
⑤ 实操举例
以西藏金矿项目为例:
发现问题1:elevation(高程)排名第3且SHAP贡献很大 → 判断:可能是伪相关
→ 建议:进行消融实验——删除elevation后看AUC和空间分布变化。如果AUC下降但远景图空间分布更合理(不再集中于特定高程带),则确认为伪相关并永久删除

发现问题2:工作区南部某区域模型给出高分但地质图显示为第四系冲积层
→ 原因分析:该区域化探Au异常偏高(可能是上游矿化剥蚀运移导致),且负样本在此区域分布不足
→ 建议:(1) 在该区域补充负样本;(2) 在特征中添加"地层时代"编码以区分基岩和第四系
⑥ ⚠️ 常见错误
错误:发现问题后只说"结果不对",不给出原因分析和调整方向。AI人员不知道从哪里入手修正。
正确做法:对每个问题给出"问题描述 → 可能原因 → 具体建议"的三段式反馈。
步骤 5.4:撰写模型结果地质审查报告
① 做什么
综合以上审查结果,撰写一份正式的《模型结果地质审查报告》,给出模型是否通过地质审查的总体结论(通过/有条件通过/不通过需返工),并附上详细的问题清单、原因分析和调整建议。
② 用什么工具
Word 撰写报告 · QGIS 导出标注版远景图作为附件
③ 输出什么
《模型结果地质审查报告.docx》,包含:总体结论、SHAP审查意见、远景图空间审查意见、伪相关分析、迭代建议、标注版远景图附件。建议命名:地质审查报告_模型v[X]_项目名.docx
④ 交给AI人员时需注意
如果结论是"不通过需返工",需要明确指出是回到哪个阶段(修改特征?补充负样本?更换模型?),避免AI人员盲目调参。
⑤ 实操举例
审查报告结论示例(西藏金矿项目模型v1):

总体结论:有条件通过
模型整体趋势合理——EW向剪切带控矿信号被有效捕捉,高概率区主要分布在已知成矿带及其延伸方向。但存在以下问题需在v2版本修正:
1. 【必须修正】删除elevation特征(伪相关风险)
2. 【必须修正】工作区南部第四系区域误判高分,需补充负样本
3. 【建议优化】航磁特征贡献偏低,建议重新检查化极参数后更新特征
4. 【建议优化】2个已知矿化点得分偏低,可能与化探覆盖空白有关
⑥ ⚠️ 常见错误
错误:"一次出图就结束"——AI找矿是迭代过程,第一版模型几乎不可能完美。
正确做法:认真写审查报告,明确指出需要迭代的问题和方向。通常需要2–3轮迭代才能达到满意效果。
步骤 5.5:读懂SHAP图的三种常见形式
① 做什么
AI人员通常会提供三种SHAP图:Bar图(整体重要性)、Beeswarm图(特征值与贡献方向)、Waterfall图(单个网格点的解释)。这三种图回答不同的问题,地质人员需要知道从每种图里看什么。
② 三种SHAP图解读指南
📊 Bar图(SHAP Feature Importance)
看什么:横轴是特征的平均SHAP绝对值,条越长说明该特征整体影响越大。
地质问题:控矿要素是否排名靠前?是否有意外高排名的非控矿特征?
注意:这个图只告诉你"谁重要",不告诉你"怎么影响"——需要配合Beeswarm图看方向。
🐝 Beeswarm图(SHAP Summary Plot)
看什么:每个点是一个样本,横轴是SHAP值(正=对预测"有矿"有正贡献,负=负贡献),颜色是特征值大小(红=高值,蓝=低值)。
地质问题:特征值高时贡献是正还是负?
典型合理模式:"距断裂距离"特征,距离小(蓝色点)应在横轴右侧(正贡献),距离大(红色点)应在左侧(负贡献)——即"越近越有矿"。
预警信号:如果颜色和位置关系反常(距离大反而正贡献),说明特征计算或样本可能有问题。
🌊 Waterfall图(单点解释)
看什么:针对某一个具体的高概率网格点,逐特征显示"为什么这个点得分高"——每个特征的贡献以瀑布方式叠加。
何时用:当某个靶区让你觉得"说不通"时,要求AI人员对该靶区中心点做Waterfall图,看模型究竟是凭什么给这里打高分。
实操场景:发现一个不合理的高分区 → 要求该区域的Waterfall图 → 如果主要贡献来自一个可疑特征(如elevation)→ 确认删除该特征并重新训练。
③ 实操举例
以西藏金矿项目为例,读Beeswarm图:

特征 dist_EW_shear(距EW向剪切带距离):
→ 低值点(蓝色,距离近)集中在横轴右侧(SHAP值为正)✅ 合理:距剪切带越近越有矿

特征 elevation(高程):
→ 中等值点(4500–5000m)集中在右侧,高值和低值都在左侧
分析:4500–5000m带对应最多矿化点的高程区间,但这是"矿化出露在哪个高程"的统计结果,不是"高程控制成矿"的机理。这正是伪相关的典型SHAP特征——数字上似乎有规律,但地质上没有成因联系。
决策:删除该特征,重新训练。
步骤 5.6:读懂PDP图——特征与成矿概率的阈值关系
① 做什么
PDP(Partial Dependence Plot,部分依赖图)展示某一个特征的数值如何影响预测概率——横轴是特征值,纵轴是预测概率。这个图对地质人员特别有价值:它可以帮你识别控矿要素的有效范围和阈值,这些量化信息反过来可以验证或修正成矿概念模型中的参数设定。
② 怎么读PDP图——地质视角的四个问题
你应该问 地质含义 合理 vs 可疑
曲线在哪个值附近发生拐点? 控矿有效距离/阈值 合理:距离<500m骤升,符合"矿体集中在剪切带500m内"
曲线是单调的还是U形/倒U形? 有利区间(不是越近越好也不是越远越好) 正常:接触带有最优距离,太近或太远都差
曲线是否平坦(没有变化)? 该特征对模型几乎没有贡献 追查:数据质量?特征计算有误?
拐点值是否与概念模型一致? 数据验证了地质判断,或提示修正 若模型说300m、你认为200m,可讨论是否修正缓冲区参数
③ 实操举例
以白云鄂博稀土矿项目为例:

PDP图:dist_carbonatite_contact(距碳酸岩体接触带距离)
横轴0–2000m,曲线形态:0–180m区间预测概率高(约0.72),180–400m快速下降,400m以上趋于背景值(约0.25)。

地质解读:模型识别出的"控矿有效距离"约为180m,与成矿概念模型中设定的"200m接触带缓冲区"基本吻合(偏差20m在数据精度范围内)✅

发现新信息:曲线在距离0–30m处有一个小谷底(概率略低),然后在30–180m段最高。说明碳酸岩体内部(接触带<30m的核心区)成矿概率反而略低——可能是碳酸岩体本身成矿物质比外接触带少。这个细节在成矿概念模型中没有明确说明,可供修订参考。
⑥ ⚠️ 常见错误
错误:只让AI人员做SHAP分析,忘记要PDP图。SHAP告诉你"谁重要",PDP告诉你"怎么重要(阈值在哪)"——两者配合才完整。
正确做法:对每个高优先级特征都要求提供PDP图,并与成矿概念模型中的定量参数对比。

📦 阶段五交付物清单

交付物格式负责人验收人
SHAP/特征重要性审查意见表Excel (.xlsx)地质人员AI工程师
SHAP三图解读记录(Bar/Beeswarm/Waterfall)PDF标注版地质人员AI工程师
PDP图地质阈值比对表Excel (.xlsx)地质人员AI工程师+地质组长
远景图空间审查意见(标注版)PDF/PNG地质人员全团队
迭代调整建议书Word (.docx)地质人员AI负责人
模型结果地质审查报告Word (.docx)地质人员项目负责人
评估指标汇总表ExcelAI人员全团队

💬 与AI团队沟通模板

场景:反馈模型结果时
模型{{模型版本}}的地质审查已完成,总体结论为{{审查结论}}。主要发现:[1] 在{{问题区域}}的预测结果{{高分合理性}},地质原因是{{地质原因}};[2] SHAP排名中{{异常特征}}排名异常{{异常方向}},可能是{{疑似原因}};[3] 建议{{优化建议}}。详见附件《地质审查报告》。如果需要,我可以提供{{补充信息}}来支持下一轮优化。
场景:讨论伪相关问题时
我注意到{{可疑特征}}在SHAP分析中排名第{{SHAP排名}},但从地质角度看这个关联不合理,原因是{{不合理原因}}。建议做一次消融实验——删除该特征后观察:(1) AUC是否显著下降;(2) 远景图空间分布是否变得更合理。如果AUC略降但空间分布改善,说明模型之前学到的是伪相关而非真实成矿信号。
🔬 深入理解:评估指标体系与可解释性方法

核心评估指标:

AUC(ROC曲线下面积)→ 衡量整体区分能力,核心指标★★★★★;Top-K命中率 → 预测概率前K%区域中命中已知矿点的比例,最直观★★★★★;Precision → 预测为矿的区域中实际是矿的比例,减少无效钻探★★★★;Recall → 实际矿点中被正确识别的比例,避免漏矿★★★★;空间一致性 → 不同随机种子、不同特征组合下预测结果的稳定性★★★★;不确定性分析 → 模型输出概率的置信区间★★★。

可解释性分析方法:

特征重要性(Feature Importance)→ 哪些控矿要素对预测贡献最大(RF feature_importances_);SHAP值 → 每个特征对单个预测的正/负贡献(shap库);PDP图(Partial Dependence Plot)→ 单个特征与预测概率的关系曲线(sklearn PDP);地质复核 → 模型高分区是否符合成矿规律(地质专家判断);伪相关识别 → 模型是否学到了与矿化无关的虚假关联(消融实验+专家审查)。

在找矿任务中,可解释性比纯粹的预测精度更重要。一个AUC=0.80但地质可解释性好的模型,比AUC=0.90但无法解释的模型更有价值——因为前者给出的靶区可以用成矿理论论证,后者给出的靶区无法说服项目决策者投入验证资源。

06
远景图输出与靶区圈定
Phase 6 · Prospectivity Map Output & Target Delineation

模型通过地质审查后,将整个研究区的网格数据输入模型,为每个像素/网格单元输出成矿概率值(0~1),生成成矿远景预测图。接下来地质人员行使"最终审判权"——将模型高分区域与成矿概念模型对照,筛选"模型高分 + 地质合理"的区域,圈定靶区多边形并排列验证优先级。

💡 找矿结果天然带有不确定性,必须把"概率图"当作决策支持工具,而不是最终结论。地质人员对靶区圈定拥有最终决策权。
任务内容责任角色说明
叠加地质判断修正远景图 地质人员 排除不合理高分区
圈定靶区多边形并排序 地质人员 综合概率、地质有利度、成本
为每个靶区建议验证方式 地质人员 踏勘/槽探/浅钻/深钻
全区网格预测输出概率栅格 AI人员 输出GeoTIFF格式概率图
按阈值分级(高/中/低潜力) AI人员 阈值由地质+AI共同确定
确定概率分级阈值 协作 结合Top-K命中率确定合理的高/中/低分界
不确定性分析与置信度标注 协作 数据空白区的预测结果应降低置信度

🪨 地质人员操作步骤

→ 07 野外验证
步骤 6.1:叠加地质判断修正远景图
① 做什么
在QGIS中将模型输出的成矿概率栅格与地质图、构造图、已知矿点叠加显示,逐区域审查。对明显不合理的高分区域进行人工修正——标注为"模型误判区"并附原因,排除城市、自然保护区、地质矛盾区等不适合勘探的区域。
② 用什么工具
QGIS(栅格叠加、矢量编辑、制图输出)· ArcGIS(空间分析)· CorelDRAW(美化输出图件)
③ 输出什么
《修正后远景预测图》(GeoTIFF + PDF出图版),标注修正区域和原因。命名:远景图_修正版_项目名_v[X].tif远景图_修正版_出图.pdf
④ 交给AI人员时需注意
修正区域需附 Shapefile 格式的修正多边形,便于AI人员在后续迭代中将这些区域作为约束条件纳入模型。
⑤ 实操举例
以白云鄂博稀土矿项目为例:
在QGIS中叠加模型输出的200m网格概率栅格与1:5万地质图:
✅ 主矿-东矿接触带沿线高概率区 → 保留,符合预期
✅ 西南方向新发现的碳酸岩小岩体周围 → 保留为新靶区
❌ 东北角H1–H5碎屑岩段高分区 → 标注为"模型误判区",绘制修正多边形将其从高潜力区降级
❌ 包钢矿区已采空范围 → 标注为"不可勘探区"排除
⑥ ⚠️ 常见错误
错误:完全信赖模型输出,不做任何人工修正就直接圈靶区。
正确做法:模型输出是"初筛",地质人员的叠加审查是"复核"。两者结合才是最终的远景判断。
步骤 6.2:圈定靶区多边形
① 做什么
在修正后的远景图上,提取高潜力区边界,手动或半自动绘制靶区多边形。靶区边界应考虑:概率阈值等值线、地质单元边界、构造线走向、地形可达性。每个靶区编号并记录面积、平均概率、所在地质单元等属性。
② 用什么工具
QGIS(矢量编辑 → 新建Shapefile → 手工绘制多边形 / 栅格转矢量提取等值线)
③ 输出什么
《靶区多边形.shp》,属性表字段:target_idarea_km2mean_probmax_probgeo_unitpriorityremarks。坐标系与项目统一坐标系一致。命名:靶区多边形_项目名_v[X].shp
④ 交给AI人员时需注意
Shapefile需包含完整的.shp/.shx/.dbf/.prj四个文件,确保.prj文件中坐标系定义正确。属性表字段名建议用英文(避免中文编码问题)。
⑤ 实操举例
以白云鄂博稀土矿项目为例:
在QGIS中新建Shapefile图层(CGCS2000 3度带39带),手工绘制靶区多边形:

| target_id | area_km2 | mean_prob | geo_unit | priority |
| BYE-T01 | 2.8 | 0.82 | 碳酸岩体SW接触带 | A(最高) |
| BYE-T02 | 1.5 | 0.75 | 西南新碳酸岩体周围 | A |
| BYE-T03 | 3.2 | 0.68 | NE断裂带北延段 | B |
| BYE-T04 | 2.1 | 0.61 | 东矿外围接触带 | B |
| BYE-T05 | 4.5 | 0.55 | 远端重力异常区 | C |
⑥ ⚠️ 常见错误
错误:靶区多边形只根据概率阈值自动提取,不考虑地质合理性和地形可达性,产出一堆"高分但不可行"的靶区。
正确做法:自动提取+人工修正相结合。靶区边界应沿地质单元边界微调,并排除明显不可勘探的区域。
步骤 6.3:靶区优先级排序
① 做什么
对筛选后的靶区进行优先级排序(A/B/C三级),综合考虑:地质有利程度(控矿要素的重叠度)、模型概率分数高低、与已知矿床的空间关系(延伸带 vs 新发现区)、验证难度和成本(交通可达性、地形条件、需要的验证手段级别)。
② 用什么工具
Excel 制作靶区优先级评分矩阵 · QGIS 叠加分析
③ 输出什么
《靶区优先级清单.xlsx》,列:靶区编号优先级模型概率地质评分成本评估综合得分建议验证方式备注
④ 交给AI人员时需注意
清单需附简要的地质论证——为什么这个靶区排在A级?仅凭"模型分数高"不够,必须有地质理由支撑。这对后续向项目决策者汇报至关重要。
⑤ 实操举例
以西藏金矿项目为例:
沿EW向主剪切带延伸方向圈定了6个靶区,排序逻辑:

A级(优先验证):
- XZ-T01:位于EW向剪切带与NE向裂隙交汇部位,概率0.85,ASTER显示强绢云母化异常,距已知矿点延伸方向3km → 成矿有利条件高度重叠

B级(次优先):
- XZ-T03:位于EW向剪切带南侧,概率0.72,化探Au-As异常明显但缺少蚀变信息(云层遮挡区域),需补充遥感数据确认

C级(后续关注):
- XZ-T06:远离主剪切带,概率0.58,仅有化探异常支撑,地质依据不足,建议先做地表踏勘再决定是否投入工程验证
⑥ ⚠️ 常见错误
错误:只按模型概率从高到低排序就当作优先级清单,不考虑地质合理性和验证成本。
正确做法:概率 × 地质有利度 × 可行性的综合评分。一个概率0.7但地质依据充分的靶区,可能比概率0.85但依据不足的靶区更值得优先验证。
步骤 6.4:制定每个靶区的验证方案
① 做什么
为每个靶区给出具体的验证手段建议:地表踏勘+采样、槽探、加密物探测线、浅钻、深钻等,并估算预期工作量和成本。
② 用什么工具
Excel 制作验证方案表 · QGIS 规划测线/钻孔位置 · Word 撰写验证方案说明书
③ 输出什么
《验证方案.docx》+ 验证部署图(标注踏勘路线、测线位置、建议钻孔位置)。命名:验证方案_项目名_v[X].docx
④ 交给AI人员时需注意
验证方案中需说明"验证成功的标准"和"验证失败后的备选方案",便于后续闭环分析。
⑤ 实操举例
靶区验证方案示例:

| 靶区类型 | 验证手段 | 预期成果 | 地质人员任务 |
| 表层可及(XZ-T01) | 地表踏勘+槽探 | 确认蚀变/矿化线索 | 制定踏勘路线、布置槽探 |
| 有物探异常(BYE-T03) | 加密物探测线 | 缩小异常范围 | 解释异常地质含义 |
| 有化探异常(XZ-T03) | 浅钻验证(3孔×100m) | 揭露矿化体 | 确定钻孔位置、角度、深度 |
| 重点靶区(BYE-T01) | 深钻验证(2孔×300m) | 控制矿体规模 | 设计钻孔方案(产状、穿矿位置) |
⑥ ⚠️ 常见错误
错误:所有靶区都建议"打深钻",不考虑靶区成熟度和成本效益。C级靶区可能只需要一次地表踏勘就能初判。
正确做法:验证手段分级——A级靶区可上工程验证,B/C级先做低成本的地表/物化探复核。

📦 阶段六交付物清单

交付物格式负责人验收人
修正后远景预测图GeoTIFF + PDF地质+AI协作项目负责人
靶区多边形Shapefile地质人员GIS工程师
靶区优先级清单Excel (.xlsx)地质人员项目负责人
验证方案Word + 部署图地质人员项目负责人
不确定性分析图GeoTIFFAI人员地质人员审查
🔬 深入理解:概率阈值选择与不确定性

模型输出的是每个网格的成矿概率(0~1连续值),需要通过阈值划分来定义高/中/低潜力区。阈值选择没有统一标准,通常结合:(1) Top-K命中率——选择使已知矿点被覆盖90%以上的概率阈值作为"高潜力区"下限;(2) 面积占比——高潜力区面积不宜超过研究区的20%–30%,否则筛选意义不大;(3) 自然断点——概率直方图中的自然间断作为分级依据。

不确定性分析同样重要:(1) 多次随机种子训练取方差——方差大的区域说明模型对该区域的判断不稳定;(2) 数据空白区的不确定性天然更高,应在远景图上标注;(3) 模型对不同矿床类型的敏感度不同——大型矿床通常被准确识别,但小型矿化点可能被遗漏。

07
野外验证与闭环迭代
Phase 7 · Field Verification & Closed-loop Iteration

AI找矿最重要的是闭环,不是一次性出图。模型预测的高潜力区必须经过野外验证,验证结果要回填到数据库中,用于更新和改进模型。"预测 → 验证 → 反馈 → 优化"的循环是持续提升预测精度的核心机制。无论靶区命中还是未命中,都有极高的信息价值——命中证明模型有效,未命中则帮助定位模型的不足。

💡 验证结果的回填质量直接决定了下一轮迭代的改进幅度。一个高质量的"未命中"分析比十个"命中但不分析"更有价值。
任务内容责任角色说明
设计野外踏勘路线 地质人员 结合靶区位置和地形条件
实施地质踏勘并记录验证结果 地质人员 矿化线索、蚀变观察、采样
验证结果数据标准化回填 地质人员 按统一格式回填数据库
撰写验证复盘报告 地质人员 命中/未命中原因分析
用未参与训练的矿点独立验证 AI人员 留出数据的统计验证
更新样本库、特征库和模型 AI人员 纳入新数据进入下一轮迭代
复盘分析与迭代方向确定 协作 基于验证结果决定下一步

🪨 地质人员操作步骤

→ 踩坑警示
步骤 7.1:设计野外踏勘路线
① 做什么
根据靶区优先级清单和验证方案,设计每个靶区的踏勘路线。路线应横穿靶区核心区域,经过关键地质控制点(构造接触带、蚀变带等),并预设采样点位。同时标注安全风险点和后勤需求。
② 用什么工具
QGIS / Google Earth(路线规划和3D地形预判)· 奥维地图(导入路线到手持GPS)· Excel 采样点位表
③ 输出什么
《踏勘路线图》(PDF/KMZ,可导入GPS)+ 《踏勘任务书》(每个靶区的踏勘目标、路线、预设采样点、需携带装备清单)
④ 交给AI人员时需注意
踏勘路线的GPS轨迹需实时记录,回来后提交给AI人员用于后续空间分析。每个采样/观察点的坐标精度需与项目坐标系一致。
⑤ 实操举例
以西藏金矿项目靶区XZ-T01为例:
踏勘路线设计:
起点:EW向剪切带南缘出露处(E 87.25°, N 29.15°)
→ 沿NE方向横穿EW-NE断裂交汇带(重点观察蚀变类型和矿化特征)
→ 经过ASTER遥感显示的强绢云母化异常中心
→ 终点:剪切带北缘出露处
路线全长约4km,预设采样点8个(每500m一个,交汇带核心加密至200m间距)
携带装备:地质锤、罗盘、GPS(坐标系设置为WGS84 UTM 46N)、样品袋、标签、野外记录本、卫星电话(海拔4800m无手机信号)
⑥ ⚠️ 常见错误
错误:踏勘路线设计不考虑地形实际条件(如西藏5000m高海拔区域日均有效工作时间仅4–5小时),规划路线过长导致关键区域观察不充分。
正确做法:先用Google Earth做3D地形预判,评估实际可行性后再确定路线长度和采样密度。
步骤 7.2:记录验证结果(命中与未命中)
① 做什么
在野外踏勘过程中,系统记录每个靶区的验证结果。对命中的靶区:记录实际控矿要素与模型特征的对应关系、矿化类型和规模初判。对未命中的靶区:分析原因(数据问题?特征遗漏?成矿模型需修正?),判断是否值得继续探索。
② 用什么工具
野外记录本 / 手机 App(如地质通)· GPS定位 · 相机拍照 · 回营后整理到 Excel 标准表格
③ 输出什么
《验证结果记录表.xlsx》,字段:target_idpoint_ideastingnorthingobservationmineralization(Y/N/Uncertain)alteration_typesample_idphoto_idconfidence
④ 交给AI人员时需注意
验证结果中的"Y(命中)"和"N(未命中)"将直接成为下一轮模型迭代的新样本。坐标精度和矿化判断准确性至关重要——不确定的点标注为"Uncertain"而非强行判定。
⑤ 实操举例
命中情景(XZ-T01):
在EW-NE断裂交汇带发现强绢英岩化蚀变带,宽约50m,见石英脉含细粒黄铁矿,地表拣块样Au品位1.2g/t。与模型特征完全吻合——dist_EW_shear=150m(模型预测该区域概率0.85)。→ 判定:命中,建议扩大探索范围并布置槽探。

未命中情景(XZ-T05):
踏勘发现该区域地表为第四系冰碛物覆盖(厚度>10m),无基岩出露,无法直接观察矿化特征。化探Au异常可能来自上游搬运物质。→ 判定:Uncertain(非"未命中"),建议补充浅层物探(激电/磁法)后再判断。

明确未命中情景(XZ-T06):
踏勘发现该区域基岩为未蚀变的石英砂岩,构造以脆性断裂为主(无韧性剪切特征),与造山型金矿的控矿条件不符。模型高分可能来自化探异常中的高As值(但As可能与非矿化硫化物有关)。→ 判定:未命中,原因:化探As异常为假异常。
⑥ ⚠️ 常见错误
错误:第一个钻孔没穿到矿就判定靶区"未命中"并放弃。实际上可能只是钻孔位置/角度不对。
正确做法:综合踏勘观察、蚀变特征和采样结果做整体判断。"Uncertain"是合理的结论,不必强行二分。
步骤 7.3:验证数据标准化回填
① 做什么
将验证结果按统一格式回填到项目数据库中:命中点 → 新的正样本;明确未命中点 → 新的负样本;不确定点 → 标注待定。同时更新控矿要素清单(如果野外发现了新的控矿因素)和成矿概念模型(如果需要修正)。
② 用什么工具
Excel(标准格式回填)· QGIS(更新Shapefile)· 项目数据库(如有)
③ 输出什么
更新后的正样本表(增加新命中点)、更新后的负样本表(增加确认无矿点)、更新后的控矿要素清单(如有修正)。文件名加后缀_v2_post_field
④ 交给AI人员时需注意
新样本的坐标系必须与项目统一坐标系一致。新正样本需标注"验证来源:野外踏勘[日期]"以区分原始矿点数据。新负样本需附无矿化依据(不能只说"没看到",要说明基岩条件和观察情况)。
⑤ 实操举例
以西藏金矿项目为例,回填更新:
正样本表更新:原30个 → 新增3个(XZ-T01踏勘发现的3个矿化点),更新为33个
新增记录格式:XZ-T01-V01, 487250, 3225430, occurrence, high, field_2026-06

负样本表更新:原120个 → 新增2个(XZ-T06确认无矿化的2个观察点)

控矿要素清单更新:野外发现XZ-T01的矿化蚀变宽度约50m(原概念模型估计200m),建议将"蚀变缓冲区"参数从200m调整为100m
⑥ ⚠️ 常见错误
错误:验证完就结束了,结果没有回填到数据库。下一轮迭代时模型还是用老数据训练,浪费了验证获得的宝贵信息。
正确做法:验证结果回填是闭环的关键环节。每次野外回来后一周内完成数据回填,趁记忆清晰。
步骤 7.4:撰写验证复盘报告
① 做什么
综合所有靶区的验证结果,撰写一份验证复盘报告,分析命中/未命中的原因,评估模型的实际预测能力,并提出下一轮迭代的改进方向——包括数据补充需求、特征修正建议、模型调整方向。
② 用什么工具
Word 撰写报告 · Excel 统计命中率 · QGIS 制作验证结果叠加图
③ 输出什么
《验证复盘报告.docx》,包含:各靶区验证结果汇总、命中率统计、成功/失败原因分析、成矿概念模型修正建议、下一轮迭代改进计划。命名:验证复盘报告_第[N]轮_项目名.docx
④ 交给AI人员时需注意
对每个未命中靶区的原因分析要落实到可操作的改进措施——是回到阶段一修正成矿模型?阶段二补充数据?阶段三调整特征?还是阶段四换模型?明确的回溯路径是高效迭代的关键。
⑤ 实操举例
验证复盘报告结论示例:

总体命中率:6个靶区中,2个命中(XZ-T01/T02)、1个不确定(XZ-T05)、3个未命中 → 命中率33%(A级靶区命中率67%)

成功因素:EW向剪切带控矿信号被模型有效捕捉,命中靶区均位于剪切带-裂隙交汇部位

失败分析:
- XZ-T06:化探As假异常导致误判 → 下一轮需加入"As异常与矿化关联度"筛选
- XZ-T04:基岩未蚀变 → 需补充更高分辨率的蚀变遥感数据

下一轮迭代方向:
1. 回到阶段二:补充Sentinel-2蚀变填图,覆盖遥感空白区
2. 回到阶段三:新增"化探As-Au比值"特征以区分真/假异常
3. 新增3个正样本 + 2个负样本进入下一轮训练
⑥ ⚠️ 常见错误
错误:只关注命中的靶区,不分析失败原因。"一次出图就结束"是AI找矿最常见的陷阱。
正确做法:失败案例的复盘价值极高——它告诉你模型在哪里出了问题、下一轮该怎么改。

📦 阶段七交付物清单

交付物格式负责人验收人
踏勘路线图与任务书PDF/KMZ + Word地质人员项目负责人
验证结果记录表Excel (.xlsx)地质人员数据工程师
更新后正负样本表CSV地质人员AI工程师
更新后控矿要素清单Excel (.xlsx)地质人员地质组长
验证复盘报告Word (.docx)地质人员全团队

💬 与AI团队沟通模板

场景:提交验证结果与迭代建议时
第{{验证轮次}}轮野外验证已完成,总体命中率{{总命中率}}(A级靶区命中率{{A级命中率}})。详细结果见附件《验证复盘报告》。新增{{新增正样本}}个正样本和{{新增负样本}}个负样本,已按统一格式回填(见附件更新后样本表)。下一轮迭代建议:[1] 补充{{补充数据}}以覆盖当前数据空白;[2] 新增/修改特征{{新增特征}}以解决{{解决问题}};[3] 修正成矿概念模型中关于{{修正参数}}的参数(由{{原参数值}}调整为{{新参数值}})。请基于更新后的数据和建议启动下一轮模型训练。
场景:提交靶区验证建议时
推荐靶区{{靶区编号}},优先级{{优先级}}。理由:模型得分{{模型得分}},同时具备以下控矿有利条件:[1] {{控矿特征}}。建议验证手段:{{验证手段}}。预估投入:{{预估投入}}。验证成功标准:{{成功标准}}。
🔬 深入理解:闭环迭代的价值与实践

AI找矿的真正价值不在于"一次性给出完美预测"——这在现实中几乎不可能,因为地质系统的复杂性远超模型的表达能力。真正的价值在于迭代学习:每一轮验证都为模型提供了新的"经验",使其对研究区的成矿规律认识越来越深。

典型的迭代路径:第一轮(粗筛)→ 使用基础数据和初始模型,圈出10–20个候选靶区 → 踏勘验证筛选到5–8个;第二轮(精筛)→ 补充验证数据、修正特征,模型精度提升 → 对剩余靶区重新评估并补充新靶区;第三轮(定位)→ 加密数据采集、高分辨率建模 → 精确确定钻探位置。

闭环的关键环节:(1) 数据回填——验证结果必须进入训练集;(2) 失败分析——未命中靶区的原因要转化为模型改进方向;(3) 模型修正——不是重新训练就行,要结合新的地质认识调整特征和样本;(4) 文档记录——每轮迭代的改进和结果必须完整记录,形成知识积累。

⚠️ 地质人员九大踩坑警示
Common Pitfalls · 点击展开查看正确操作步骤

以下每个"坑"都附有正确操作的具体步骤——不只是告诉你"不能这么做",更给出可执行的替代方案。点击标题展开。

坑一
把数据交给AI团队就不管了
错误做法:把数据发给AI团队后"甩手掌柜",等着模型出结果,对中间过程不参与。
核心问题:AI工程师能检查格式错误,但无法判断数据的地质可信度。甩手的结果是模型"完美"但预测图在地质上毫无意义。
✔ 正确操作:三个不能缺席的关键节点
① 阶段二:数据审查——逐套数据打A/B/C/D质量评分,不合格的标注原因,不是交给AI人员就完事
② 阶段三:特征审查——AI人员计算完特征后,在QGIS里叠图检查每个特征的空间分布是否符合地质预期
③ 阶段五:结果审查——拿到远景图后逐区域检查,高概率区是否在地质有利部位,写出有依据的审查意见
坑二
负样本随便选选就行
错误做法:在研究区内随机撒点作为负样本,把"未勘探区"当"无矿区"使用。
核心问题:未勘探 ≠ 无矿。随机负样本会让模型把"勘探空白区"学习为负类,直接污染训练集。
✔ 正确操作:三区分原则
① 确定无矿区(可做负样本)——地质上完全不具备成矿条件:稳定克拉通盖层、无热液活动的变质核杂岩内部、已系统勘查证实无矿的区段
② 不确定区(标为"未知",不做负样本)——有地质条件但未系统勘查的区域,宁可不用也不要污染
③ 空间策略——负样本与正样本之间设置缓冲区(建议≥正样本密度对应距离的2倍),避免过近的不确定区混入;采用地质分层抽样而非纯随机
坑三
模型 AUC 高就说明结果好
错误做法:只看AUC=0.93就认为"非常完美",直接拿结果出图。
核心问题:AUC过高反而是警示信号——可能是数据泄漏(把答案当特征)或过拟合(测试集与训练集空间太近)。
✔ 正确操作:三步验证法
① 确认用的是空间交叉验证AUC——不是随机分割的AUC,后者因为空间自相关会虚高0.05–0.15
② 检查特征重要性排名——控矿要素是否排名靠前?如果"高程"或"距路距离"排第一,99%是数据偏差或伪相关
③ 目视审查远景图——高分区是否落在地质有利部位?在QGIS叠图检查,用地质眼光做最终判断
坑四
模型说这里有矿就说明有矿
错误做法:把高概率区直接当"矿床位置",不经地质审查就部署钻探工程。
核心问题:模型只学了"与已知矿化相似的地质条件",不等于"确定有矿"。两者差距是野外验证。
✔ 正确操作:靶区评级→分步验证
① 地质审查——高概率区叠加地质图,逐区检查是否有控矿构造/地层/蚀变支撑,给出A/B/C优先级
② 低成本验证先行——A级靶区先做路线地质调查+土壤化探加密,再决定是否上重砂/激电/钻探
③ 成本递进原则——验证成本:路线调查(最低)→ 浅钻/槽探(中)→ 深孔(最高),每步验证结果决定是否进入下一步,不要跳级
坑五
把"距已知矿点距离"当特征
错误做法:把"距已知矿点/矿体距离"作为训练特征,模型AUC飙升到0.95+。
核心问题:这是把答案当线索——等于告诉模型"哪里有矿",然后让模型"预测"哪里有矿,毫无实际找矿价值。
✔ 正确操作:区分"成矿条件"与"答案信息"
✅ 可用特征(成矿条件)——距控矿断裂距离、距岩体接触带距离、化探元素组合异常、蚀变强度指数、地层岩性编码
❌ 禁用特征(答案信息)——距已知矿点距离、距已知矿体距离、距前人化探高异常点距离(高异常点本身就是矿化指示)
判断原则——问自己:"如果是一个真正的未知新区,这个特征还存在吗?"如果答案是"不存在",就是答案信息,禁止使用
坑六
一次出图就结束
错误做法:模型出了一张远景图就算项目完成,靶区验证结果不回填数据库,不更新模型。
核心问题:第一版模型几乎不可能完美。更重要的是,验证结果本身是最宝贵的新数据——不迭代等于白白浪费。
✔ 正确操作:闭环迭代四步
① 记录验证结果——野外验证后,不管命中还是未命中,都记录坐标+岩性+矿化信息,更新矿点数据库
② 原因分析——未命中靶区追查:是负样本定义问题?特征缺失?还是数据质量问题?定位到具体阶段
③ 定向修正——根据原因回到对应阶段(阶段一修概念模型/阶段二补数据/阶段三改特征),不要盲目调参
④ 版本管理——每轮迭代留存完整记录(数据版本+特征版本+模型版本+验证结果),便于对比改进效果
坑七
只用一种算法、样本极少也硬上监督学习
错误做法:只用随机森林一种算法;或已知矿点只有5–6个却强行用监督学习。
核心问题:单一算法无法发现不同类型的成矿信号;样本过少时监督学习会严重过拟合,预测结果完全不可信。
✔ 正确操作:按样本量选策略
样本 <10个——优先考虑知识驱动方法(证据权重法证据权重法(Weights of Evidence, WofE):一种知识驱动的矿产预测方法,通过统计每个证据图层与已知矿点的空间关联来计算权重,不需要大量训练样本。样本少时(<10个)优先于监督机器学习方法。 WofE、模糊综合评判),或引入邻区同类矿床扩充样本再建模
样本 10–30个——监督学习可尝试,但必须用空间交叉验证(LOO-CV),结果解读要保守;同时跑 WofE 做对比
样本 >30个——监督学习较可靠;建议至少对比 RF + XGBoost + SVM 三种,选地质可解释性最好的,不是AUC最高的
坑八
忽略前人工作
错误做法:觉得"AI能从数据中自己学出控矿规律",不系统整理前人报告中的定性知识。
核心问题:AI只能学到数据里已有的规律,而前人报告里的定性认识(如"矿体赋存于F1断裂200m内")本身就是最有价值的先验知识,不整理则白白浪费。
✔ 正确操作:结构化提取前人知识
① 收集来源——区调报告、矿床研究论文、勘查报告、矿山生产总结,尤其重视定量化的控矿描述
② 结构化提取——制作《历史知识提取表》,列:知识内容 / 来源 / 确定性等级(确定/较确定/推测)/ 是否可量化 / 量化参数
③ 转化为特征参数——"矿体在F1断裂两侧200m"→ 特征 dist_F1_fault,缓冲区参数=200m;"蚀变核心区半径300m"→ 特征 alteration_core,参数=300m
坑九
不区分矿床类型就开始建模
错误做法:目标矿种只写"金矿"就开始采集数据和建模,不区分造山型、浅成低温热液型、卡林型等亚类。
核心问题:同一元素在不同矿床类型中控矿要素、化探指示元素、蚀变组合完全不同——混在一起建模等于用一套模型同时预测两种完全不同的地质过程。
✔ 正确操作:先分类,再建模
① 确定主攻矿床类型——根据区域地质背景和已有矿床资料,确定研究区内最可能存在的1–2种主要矿床类型
② 各类型分别建模——如研究区同时存在造山型金矿和浅成低温热液型金矿,需分别设计控矿要素清单、分别准备正样本、分别建模,最后分别出图
③ 参考元素组合表——见本手册附录"化探元素组合参考表",按矿床类型选择对应的指示元素组合特征
⚗️
化探元素组合参考表
Geochemical Element Assemblages · 特征设计时的指示元素速查 · 按矿床类型分类

在特征工程阶段,化探数据的特征设计核心是使用元素组合异常而非单元素异常——组合异常比单元素更稳健、更能反映成矿过程的特异性。本表按矿床类型列出主要指示元素、成矿套化元素、干扰元素注意事项,以及推荐的组合方式。

💡 使用方法:找到目标矿床类型 → 主要指示元素用于特征设计的核心元素 → 成矿套化元素组合构建综合异常指数(Z-score加权求和)→ 注意干扰元素可能引起的虚假异常。
💎 更完整的矿床知识卡片(含地球物理、AI特征推荐、找矿标志)已整合至
造山型金矿Orogenic Au
Au_As_Sb
目标 Au
全套元素 Au · As · Sb · Bi · W · Mo
近矿晕 Au · As · Bi · Te
前缘晕 Sb · Hg · Tl · As
As背景值受围岩影响大;Sb在剥蚀较深区浓度低;W可指示深部热液
浅成低温热液金矿Epithermal Au
Au_Ag_As_Sb_Hg
目标 Au · Ag
全套元素 Au · Ag · As · Sb · Hg · Tl · Se
近矿晕 Au · Ag · Cu · Pb · Zn
前缘晕 Hg · Tl · As · Sb
Hg易挥发,水系沉积物中含量不稳定;高硫型以As为主,低硫型以Sb/Hg为主
卡林型金矿Carlin-type Au
Au_As_Sb_Hg_Tl
目标 Au
全套元素 Au · As · Sb · Hg · Tl · Ba
近矿晕 Au · As · Sb · Hg
前缘晕 Tl · Hg · As
Au本身低含量(ppb级),As是最重要的pathfinder;碳酸盐岩地区Ba背景高,需校正
斑岩铜矿Porphyry Cu
Cu_Mo_Au
目标 Cu · Mo · Au
全套元素 Cu · Mo · Au · Re · Ag · Pb · Zn
近矿晕 Cu · Mo · Au · Re
前缘晕 Pb · Zn · Ag · As
Mo在氧化带中易淋失,还原带中富集;Re是Mo的伴生元素,可指示斑岩型成矿
矽卡岩铁铜矿Skarn Fe-Cu
Cu_Au_Bi_Co
目标 Fe · Cu · Au
全套元素 Cu · Fe · Au · Ag · Co · Bi · Sn
近矿晕 Cu · Fe · Au · Bi
前缘晕 Pb · Zn · As · Ag
Fe在水系沉积物中背景高,需用异常衬度而非绝对值;Sn可指示深部花岗岩来源
VMS铜锌矿VMS Cu-Zn
Cu_Zn_Pb_Ag
目标 Cu · Zn · Pb
全套元素 Cu · Zn · Pb · Ag · Ba · Se · Co
近矿晕 Cu · Zn · Pb · Ag
前缘晕 Ba · Mn · Fe
Ba在海相地层中背景复杂;Zn易迁移,水系异常范围大但精度低
铅锌矿(MVT型)MVT Pb-Zn
Pb_Zn_Cd_Ag
目标 Pb · Zn
全套元素 Pb · Zn · Cd · Ag · Ge · Ga · Tl
近矿晕 Pb · Zn · Cd · Ag
前缘晕 Ge · Ga · Tl · Ba
Cd是Zn的固定伴生元素,Cd/Zn比值稳定;Ge/Ga可区分不同成因的锌矿
碳酸岩型稀土矿Carbonatite REE
Ce_La_Nb_P
目标 REE · Nb · P
全套元素 La · Ce · Nd · Nb · P · Ba · Sr · Th
近矿晕 REE · Nb · P · Ba
前缘晕 Sr · Ba · Th
REE在化探中背景差异大;P与磷灰石有关,可指示碳酸岩体;Th/U比值可辅助区分碳酸岩和花岗岩来源
离子吸附型稀土矿Ion-adsorption REE
Y_HREE_index
目标 HREE · LREE
全套元素 Y · Dy · Er · Gd · La · Ce · Nb
近矿晕 Y · HREE 为主
前缘晕 La · Ce · LREE
土壤化探比水系沉积物更有效;注意区分HREE富集型和LREE富集型,两者风化壳特征不同
锡钨多金属矿Sn-W polymetallic
Sn_W_Mo_Bi
目标 Sn · W
全套元素 Sn · W · Mo · Bi · As · Pb · Zn · Li · F
近矿晕 Sn · W · Mo · Bi
前缘晕 Pb · Zn · As · F
F在水系沉积物中难检测,土壤化探更有效;Li可指示花岗岩分异程度
铬铁矿(超基性岩)Chromite
Cr_Ni_Co
目标 Cr
全套元素 Cr · Ni · Co · Pt · Pd
近矿晕 Cr · Ni · Co
前缘晕
超基性岩区Cr、Ni背景本身高,需用异常衬度;PGE分析成本高,通常只在重要靶区使用
🔬 深入理解:怎么用这张表设计化探组合特征?

为什么用组合而不用单元素:单元素Au异常受背景噪声影响大,且在化探采样中检出限波动容易产生假异常。元素组合异常的信噪比更高——如果Au、As、Sb三个元素同时呈高值,这种"共生异常"的成矿指示意义远强于单元素高值。

组合特征的两种构建方式:

(1) Z-score加权求和:对每个元素做Z-score标准化(减均值除标准差),然后直接加和或加权加和。公式:composite = Z(Au) + Z(As) + Z(Sb)。优点是简单、可解释;缺点是默认各元素权重相等。

(2) 异常叠加计数:每个元素独立判断是否超过背景阈值(如均值+2倍标准差),超过记1分、不超过记0分,最终求和。公式:anomaly_count = (Au>threshold) + (As>threshold) + (Sb>threshold)。优点是更稳健,不受极端值干扰;适合背景复杂的地区。

关于采样介质的注意事项:水系沉积物适合区域尺度扫面(1:25万–1:5万),代表较大汇水盆地的平均;土壤化探适合矿田尺度精查(1:1万–1:2000),代表局部风化剖面。两种介质的元素分布规律不完全相同,来自不同介质的化探数据不能直接混用,需要分别建立背景值和阈值。

🛠 推荐工具速查表
Tool Reference Guide · 按用途分类 · 标注地质人员掌握程度
📍 GIS 空间分析
QGIS 开源GIS平台,空间数据管理、缓冲区分析、距离计算、制图输出 地质必会
ArcGIS 商业GIS平台,空间分析功能更全面,支持ModelBuilder自动化 地质必会
MapGIS 国产GIS,中国地质行业常用,支持中文地质图标准符号 地质必会
GeoPandas Python空间数据处理库,矢量数据读写、空间运算 了解即可
rasterio Python栅格数据读写库,GeoTIFF处理 了解即可
💻 编程环境
Python 3.10+ AI找矿主流编程语言,数据处理与建模核心 了解即可
Jupyter Notebook 交互式编程环境,适合数据探索和结果展示 了解即可
VS Code 代码编辑器,支持Python、Git等 AI负责
🤖 机器学习
Scikit-learn 经典ML算法库(随机森林、SVM、交叉验证、特征选择) AI负责
XGBoost 梯度提升算法,找矿预测中最常用的高精度模型之一 AI负责
LightGBM 轻量级梯度提升,大数据量时比XGBoost更快 AI负责
Imbalanced-learn 处理类别不平衡(SMOTE上采样、下采样等) AI负责
🔍 可解释性
SHAP 特征贡献分析——每个特征对预测的正/负影响 了解即可
LIME 局部可解释性——解释单个预测结果 AI负责
PDP Plot 偏依赖图——单个特征与预测概率的关系曲线 了解即可
🛰 遥感处理
Google Earth Engine 云端大规模遥感数据分析平台 了解即可
ENVI 遥感图像处理与分析,蚀变信息提取 地质必会
ERDAS IMAGINE 遥感影像处理,支持多光谱分析 了解即可
📊 实验管理与插值
MLflow 实验跟踪与模型版本管理(Web界面,地质人员可浏览不用编程) 了解即可
Weights & Biases 实验跟踪、可视化和团队协作平台 AI负责
pykrige Python克里金插值克里金插值(Kriging):一种基于地统计学的空间插值方法,利用样点间的空间相关性(变差函数)对未采样位置进行最优无偏估计。常用于化探点数据插值成连续栅格图。IDW(反距离权重)是其简化替代方法。库,化探数据空间插值 AI负责
Excel 数据整理、清单制作、实验日志记录 地质必会
Word 报告撰写、文档输出 地质必会
🧠 深度学习
PyTorch 深度学习框架,支持CNN、GNN等模型 AI负责
TensorFlow 深度学习框架,生态丰富 AI负责
📊
成果解读与汇报指南
Output Interpretation Guide · 如何读懂预测图?如何向领导/甲方解释AI的结果?

AI找矿预测完成后,地质人员面临一个新挑战:如何判断预测结果是否可信?如何向非技术背景的决策者(项目负责人、甲方、投资方)解释"AI说这里有矿"意味着什么?这一节提供成果解读的核实流程和汇报的沟通框架。

💡 关键原则:AI预测图不是"找矿结论",而是"优先级排序工具"——它告诉你哪些区域更值得去野外验证,但最终判断还需要地质人员结合实际情况决策。

🗺️ 如何读懂预测概率图:五步核查法

核查步骤1:高概率区是否符合成矿地质背景?
① 做什么
将预测概率图叠加到地质图上,检查高概率区(通常设>0.7)是否落在地质上有意义的位置:是否在控矿构造附近、是否在有利成矿地层内、是否有已知的地化/地物异常支撑。
✅ 合格标准
至少80%的高概率区能在地质图上找到对应的成矿有利要素;高概率区与已知矿化点的空间关系符合控矿逻辑。
⚠️ 预警信号
高概率区大量出现在地质上完全不利的区域(如稳定盖层、侵蚀残丘)→ 模型可能学到了噪声或地形偏差,需要回溯特征工程。
核查步骤2:已知矿点的召回率是否达标?
① 做什么
检查测试集中的已知矿化点(未参与训练的部分)有多少落在高概率区内。这是对模型"不遗漏已知矿"能力的直接检验。
✅ 参考标准
在 P=0.5 阈值下,测试集矿点召回率 >70%;在 P=0.3 阈值下,召回率 >85%。具体阈值取决于找矿目标(宁可多圈靶区还是提高精度)。
⚠️ 预警信号
召回率低于50% → 模型严重欠拟合,需检查是否存在样本定义问题或关键特征缺失。
核查步骤3:特征重要性排序是否符合地质逻辑?
① 做什么
查看AI人员提供的特征重要性图(如随机森林的feature importance或SHAP图),检查排名靠前的特征是否是你认为最关键的控矿要素。
✅ 合格信号
成矿概念模型中标注为"必要条件"的特征(如"距主控断裂距离")排名靠前;排名靠后的是"辅助条件"特征。
⚠️ 预警信号
地形(高程/坡度)或行政边界类特征排名异常靠前 → 可能存在采样偏差(野外工作主要集中在某些高程或行政区);需重新审查负样本分布。

💬 向非技术背景决策者汇报的沟通框架

📋 汇报话术模板

场景:解释"预测概率"是什么意思(向甲方/领导)
这张预测图上,颜色越红的区域,AI认为与已知矿化点的地质条件越相似。概率值{{概率示例值}}不代表"这里有{{概率百分比}}%可能存在矿床",而是"这里的地质组合在我们研究区内,有{{概率百分比}}%的相似度与已知矿化点匹配"。它的作用是帮助我们把有限的野外验证工作优先放在最有潜力的区域,而不是把整个工作区都踏遍。
场景:解释AI预测的可信度依据(向项目负责人)
模型性能评估结果:在独立测试集上,AUC值为{{AUC值}}(0.8以上为较好),意味着模型区分"有矿区"和"无矿区"的能力达到{{区分能力百分比}}%。在概率阈值0.5下,已知测试矿点的预测命中率为{{命中率}}%。目前圈定的{{靶区数}}个优选靶区,地质依据分别为:靶区A主要依据是{{靶区A依据}},靶区B主要依据是{{靶区B依据}}。建议优先验证靶区A和B,预期野外工作量{{工作量}}人/天。
场景:解释AI预测与传统找矿的关系(防止过度期望)
AI找矿预测是对传统找矿方法的增强,而不是替代。本次项目处于{{项目阶段}}阶段。它的优势在于:能同时处理{{数据层数}}+套数据、自动发现多要素的空间组合规律、提供全覆盖的概率图而不是局部异常。它的局限在于:只能学到已知矿化点呈现出的规律,对全新类型矿化无法预测;{{关键制约}}和成矿概念模型的准确性直接决定了预测上限。因此,AI的结论需要与地质人员的经验判断结合,不能机械地"AI说哪里有就去哪里钻探"。

🎯 靶区优先级评分卡

评分维度 A级靶区(优先验证) B级靶区(次优先) C级靶区(备选)
预测概率 >0.75,连片高概率区 0.55–0.75,零散高概率区 0.4–0.55,孤立点
地质依据 多套数据异常叠合(≥3项),成矿概念模型完全匹配 2套数据异常叠合,部分匹配 单一数据异常,理由较弱
已知线索 有前人化探异常/民采/矿化线索 有弱化探异常或地物反映 无直接线索
可工作性 交通便利,无明显法规障碍 需一定工程准备 地形困难或法规限制区
不确定性来源 数据质量好,特征置信度高 部分特征为插值推断 关键特征缺失区域
🔬 深入理解:AUC、Recall、Precision这些指标,地质人员需要了解多少?

AUC(ROC曲线下面积):衡量模型"整体区分能力"的综合指标。取值0.5–1.0,0.5表示随机猜测,0.8以上通常认为较好。直觉理解:从研究区随机抽一个矿化点和一个非矿化点,AUC就是"模型给矿化点打分更高"的概率。AUC越高,模型"把矿化区和非矿化区区分开来"的能力越强。

Recall(召回率):已知矿化点中被模型正确预测出来的比例。找矿中通常希望Recall高(不漏矿),即使Precision(精度)有所下降(多圈一些非矿区)也可以接受。找矿是"宁可多圈不可漏矿"的场景,应优先关注Recall。

Prediction Rate Curve:许多找矿预测文章使用的可视化工具——按概率从高到低排序研究区,计算"圈出X%面积时能捕获多少比例的测试矿点"。曲线越陡(同样面积内捕获矿点越多),模型效果越好。这是向甲方汇报最直观的性能指标。

地质人员需要了解的底线:不需要会计算这些指标,但需要能读懂AI人员提供的评估报告,并对以下问题有判断:测试集是否是独立的(未参与训练)?测试矿点的数量是否足够(<10个时结论不可靠)?评估结果是否使用了空间交叉验证(避免临近泄漏)?