在撰写科研论文的过程中,尤其是在计算机视觉、机器人、SLAM以及三维重建等领域,准确理解并使用核心术语对于展示研究的科学性、系统性具有至关重要的作用。术语不仅是论文结构的骨架,也是向同行传达研究设计与创新思路的重要桥梁。
本文旨在从实际科研写作的角度,系统性分析高频科研术语的定义与应用,帮助初学者准确理解其含义,掌握其写作位置与逻辑,最后以SLAM与3D高斯泼溅(3D Gaussian Splatting)为案例,构建完整科研论文结构流程,提升科研表达能力。
定义: 指整个研究方法从输入到输出的执行步骤链条。通常包括数据输入、特征提取、处理模块、输出预测。
举例:
SLAM领域:
相机输入 → 特征提取(ORB)→ 特征匹配 → 位姿估计(PnP/ICP)→ 地图优化(BA)→ 三维地图更新
写作位置: 方法介绍部分首段,或模型概览图说明中。
示例:
Our pipeline consists of a feature extraction stage, a pose estimation module, and a global mapping backend.
定义: 指用来对比的新方法的参考模型,通常是已有的经典方法或简化版本。用于衡量新方法的改进幅度。
种类:
传统方法 baseline(如 SVM、传统图割)
当前主流方法 baseline(如 UNet、ResNet)
自建 baseline(如移除新方法中某个模块)
当前主流的三维重建方法(3DGS、NeRF)
举例:
在医学图像分割中,可能以 UNet 作为 baseline,对比改进后的网络效果。
在点云配准任务中,ICP 是常用 baseline。
比如ORB-SLAM2 是许多视觉 SLAM 的 baseline。
写作位置: 实验设置部分,作为对比对象;消融实验中用于量化贡献。
示例:
We use ORB-SLAM3 as our baseline system for monocular SLAM comparison.
定义: 描述方法体系结构的术语,比pipeline更高层次,强调架构与系统设计的统一性。
写作位置: 方法章节概述,通常配合结构图说明。
举例:
两阶段检测框架(如 Faster R-CNN)
encoder-decoder 框架(如 SegNet)
多视角结构光框架(Structure-from-Motion + MVS)
双目稠密建图框架(Stereo Matching + Fusion)
示例:
The framework integrates SfM-based initialization with differentiable 3D Gaussian rendering.
定义: 方法中的独立功能单元,可重复使用和组合。pipeline 或 framework 中的组成部分,通常是一个具体功能单元,如“特征提取模块”、“注意力模块”等。
写作位置: 方法详细描述部分,每小节常对应一个模块。
举例:
SE 模块(Squeeze-and-Excitation)
Transformer Block
ASPP 模块(Atrous Spatial Pyramid Pooling)
LoopClosureModule(回环检测)
DepthEstimationModule(稠密深度估计)
GraphOptimizationModule(图优化)
示例:
We design a Gaussian Visibility Module to select optimizable splats during training.
定义: Ablation 关注的是同一模型内部的变体,通过禁用、替换或修改特定模块来观察性能变化,并量化每个组件的贡献。它不涉及与外部方法(baseline 或 SOTA)之间的横向对比。
写作位置: 实验分析部分,配表格呈现对比结果。
举例:
示例:
Removing opacity optimization significantly drops PSNR, indicating its importance.
定义: 特征提取主网络,在深度模型中起核心作用,如ResNet、Transformer等。
写作位置: 方法部分结构说明,或模型设计对比中。
举例:
示例:
We adopt ResNet-18 as the visual backbone for depth-aware SLAM.
定义: 用于评估模型性能的标准公开数据集,常含挑战性场景和统一评分指标,一般具有公开、可复现、通用性强等特点。
写作位置: 实验部分,数据介绍及对比基准设置说明。
常见的benchmark:
示例:
Our method is evaluated on the KITTI Odometry and Mip-NeRF360 benchmarks.
定义: 量化评估模型性能的标准数值,如PSNR、SSIM、ATE等。
写作位置: 实验结果展示,图表或文字中解释意义。
常见指标:
精确率 / 召回率(Precision / Recall)
平均精度均值(mAP)
Dice / IoU
RMSE(重建误差)
ATE / RPE(SLAM)
示例:
We report Absolute Trajectory Error (ATE) and Relative Pose Error (RPE) to evaluate SLAM accuracy.
定义: 模型从输入原始数据到输出最终结果是一个连续训练的流程,中间不需要人为干预或手动特征。
写作位置: 方法优点陈述或摘要中。
举例:
从图像到分类结果,无需手动特征提取。
端到端训练的语义分割网络。
输入为 RGB-D 图像序列,输出为稠密点云地图。
示例:
The entire system is end-to-end trainable and requires no handcrafted features.
定义: 模型在训练数据之外的场景中仍然表现良好的能力。
写作位置: 跨数据集测试、小样本学习或迁移实验部分。
示例:
The model generalizes well to unseen urban scenes with different lighting conditions.
含义:
Quantitative:通过指标(数值)来评价
Qualitative:通过可视化或样例图来直观展示
举例:
Quantitative results are reported in Table 2, while qualitative comparisons are shown in Fig. 5.
术语 | 中文含义 | 示例 |
---|---|---|
Pipeline | 流程/处理管线 | 数据 → 特征提取 → 分类 → 输出 |
Baseline | 基准模型 | 与 UNet 进行对比 |
Framework | 整体架构 | 两阶段检测框架 |
Module | 模块 | Attention 模块、聚合模块 |
Ablation | 消融实验 | 去掉注意力模块后性能下降 |
Backbone | 主干网络 | 使用 ResNet-50 提取特征 |
Benchmark | 基准数据集 | 在 Cityscapes 上测试 |
Metrics | 评价指标 | Dice、IoU、mAP |
End-to-End | 端到端 | 不需要中间手动步骤的完整流程 |
Generalization | 泛化能力 | 迁移到其他数据集也有好结果 |
科研论文结构通常包括:
Abstract(摘要)
Introduction(引言)
Related Work(相关工作)
Method(方法)
Experiments(实验)
Discussion(分析)
Conclusion(总结)
Pipeline: 图像输入 → ORB特征提取 → 匹配 → PnP+IMU融合 → 图优化(BA) → 回环检测 → 地图构建
Baseline: ORB-SLAM3
Backbone: ResNet-18(深度辅助)
Benchmark: KITTI、EuRoC MAV
Metrics: ATE, RPE
Ablation: 去除IMU模块、关闭回环检测
术语 | 在 3D Gaussian Splatting 中的含义与角色 |
---|---|
Pipeline | 从图像或视频 → SfM重建(如COLMAP) → 初始化 3D 高斯 → Differentiable 渲染 → 优化(位置、颜色、形状) |
Baseline | 与之比较的其他方法:NeRF、Mip-NeRF360、Instant-NGP、NeuS、3DGS v1/v2 |
Framework | 包含初始化、可微渲染、梯度优化、显存控制、密度更新等子系统的整体结构 |
Backbone | 可选的辅助网络或特征提取主干,例如用于视角选择、特征增强(虽然3DGS原生没有网络主干) |
Module | 如 Gaussian Initialization、Visibility Computation、Alpha Splatter、SG Renderer、Loss Block 等 |
Ablation | 比如关闭透明度优化、固定 covariance 矩阵、去除视角依赖性等配置对比分析 |
Benchmark | 数据集如:Tanks and Temples、Mip-NeRF360、BlendedMVS、ScanNet、matrix_city、自采集场景等 |
Metrics | PSNR、SSIM、LPIPS、Chamfer Distance(3D重建评估)、Rendering Time(效率) |
End-to-End | COLMAP输出 → 自动初始化 → Differentiable splatting → 联合优化 → 渲染出图 |
Generalization | 在新场景、新视角、新背景下保持性能,比如大尺度城市、室内-室外混合场景 |
科研写作不仅是技术的表达,更是思路、逻辑与结构的传达。理解并正确使用如 pipeline、baseline、framework 等内推,有助于让研究思路更清晰、论文结构更标准、表达更专业。