1. 标准目录结构
dataset_root/
train/
A/
B/
label/
val/
A/
B/
label/
test/
A/
B/
label/
每个 split 都必须同时包含 A、B、label 三个子目录。
2. 命名与配对规则
同名一一对应:A/000123.png、B/000123.png、label/000123.png。
推荐只使用文件名本体,不要额外前缀(如 test_),便于预测与标签自动配对。
3. 尺寸与类型要求
单次实验内尺寸尽量一致(常见:256x256、512x512、1024x1024)。
图像格式建议统一为 .tif/.tiff/.png;若混用格式,训练前建议先批处理统一。
4. Label 规范
二分类推荐:背景=0,变化=1
像素类型:建议单通道,uint8
避免问题:不要使用彩色 RGB 掩膜作为训练标签
5. nodata 处理建议
预处理阶段将 nodata 统一映射为固定值(常用 0)。
训练配置中确认
ignore_index 与标签语义一致。同一数据集内不要混用多种 nodata 编码。
6. 上线前快速检查
1. A/B/label 文件数量一致。
2. 随机抽检 20 对样本,确认错位与空图问题。
3. 先跑短训(小迭代)确认环境和日志正常。
4. 再跑正式训练与测试。
推荐流程(平台内)
数据上传 → 样本预处理(批量命名 / uint8 / nodata / 切分) → 样本可视化抽检 → 训练验证测试 → 样本解译(GT vs Pred)