好脾气先生

论文翻译：3D Gaussian Splatting for Real-Time Radiance Field Rendering

文章目录

1 介绍
- 2.1 传统场景重建与渲染
- 2.2 神经渲染与辐射场
- 2.3 基于点的渲染和亮度表示
3 概览
4 可微高斯抛雪球
5 带有自适应密度控制的3D高斯优化
- 5.1 优化
- 5.2 高斯的自适应控制
6 高斯的快速可微光栅化器
7 实现，结果和评估
- 7.1 实现
- 7.2 结果和评估
- 7.3 消融研究
- 7.4 局限
8 讨论和结论

最近在做三维重建的相关工作，看了原版论文，做了机翻，自己又润色了一下，应该还算通顺，欢迎各位交流批评；（仅仅是重要部分翻译，没有全篇翻译）

1 介绍

我们的解决方案建立在三个主要组成部分上。首先，我们引入3D高斯作为灵活且富有表现力的场景表示。我们与之前的NeRF类方法使用相同的输入，即通过运动恢复结构（Structure-from-Motion, SfM）校准的相机[Snavely等人，2006]，并使用SfM过程中免费产生的稀疏点云初始化一组3D高斯。与大多数需要多视图立体（Multi-View Stereo, MVS）数据的基于点的解决方案不同[Aliev等人，2020; Kopanas等人，2021; Rückert等人，2022]，我们仅以SfM点作为输入就能获得高质量的结果。请注意，对于NeRF-合成数据集，即使使用随机初始化，我们的方法也能实现高质量。我们展示了3D高斯是一个很好的选择，因为它们是可微的体积表示，但也可以非常高效地通过将它们投影到2D，并使用标准α-混合，使用与NeRF等效的图像形成模型进行光栅化。我们方法的第二个组成部分是优化3D高斯的属性——3D位置、不透明度α、各向异性协方差和球谐（Spherical Harmonics, SH）系数——与自适应密度控制步骤交错进行，在优化过程中我们添加并偶尔移除3D高斯。优化过程产生了一个相当紧凑、无结构的、精确的场景表示（所有测试场景的1-500万个高斯）。我们方法的第三个也是最后一个要素是我们的实时渲染解决方案，它使用快速的GPU排序算法，并受到基于瓦片的光栅化的启发，遵循最近的工作[Lassner和Zollhofer 2021]。然而，由于我们的3D高斯表示，我们可以执行各向异性splatting，它尊重可见性排序——感谢排序和α-混合——并允许通过跟踪所需的尽可能多的排序splat的遍历来实现快速准确的反向传递。

总之，我们提供了以下贡献：

引入各向异性3D高斯作为辐射场的高质量、无结构表示。
一种优化3D高斯属性的方法，与自适应密度控制交错进行，为捕获的场景创建高质量的表示。
一种快速、可微的GPU渲染方法，具有可见性感知能力，允许各向异性splatting和快速反向传播，以实现高质量的新视图合成。

我们在之前发布的数据集上的结果表明，我们可以从多视图捕获中优化我们的3D高斯，并实现与最佳质量的先前隐式辐射场方法相等或更好的质量。我们还可以达成与最快方法相似的训练速度和质量，并且重要的是，为新视图合成提供了首个具有高质量的实时渲染。

2.1 传统场景重建与渲染

最早的新视图合成方法基于光场，首先是密集采样[Gortler等人，1996；Levoy和Hanrahan，1996]，然后允许非结构化捕获[Buehler等人，2001]。运动恢复结构（Structure-from-Motion, SfM）[Snavely等人，2006]的出现开启了一个全新领域，其中可以使用一组照片来合成新视图。SfM在校准相机期间估计了一个稀疏点云，最初用于简单的3D空间可视化。随后的多视图立体（Multi-View Stereo, MVS）在多年来产生了令人印象深刻的完整3D重建算法[Goesele等人，2007]，促进了几种视图合成算法的发展[Chaurasia等人，2013；Eisemann等人，2008；Hedman等人，2018；Kopanas等人，2021]。所有这些方法都将输入图像重新投影并混合到新视图相机中，并使用几何体引导这种重新投影。这些方法在许多情况下都取得了优异的结果，但通常无法完全从未重建区域或“过度重建”中恢复，当MVS生成不存在的几何体时。最近的神经渲染算法[Tewari等人，2022]大幅减少了这些伪影，并避免了在GPU上存储所有输入图像的压倒性成本，在大多数方面超越了这些方法。

2.2 神经渲染与辐射场

深度学习技术很早就被用于新视图合成[Flynn等人，2016；Zhou等人，2016]；卷积神经网络（CNN）被用来估计混合权重[Hedman等人，2018]，或者用于纹理空间解决方案[Riegler和Koltun，2020；Thies等人，2019]。基于多视图立体（MVS）的几何是这些方法的主要缺点；此外，使用CNN进行最终渲染经常导致时间上的闪烁。
Soft3D[Penner和Zhang，2017]首次提出了用于新视图合成的体积表示；随后提出了结合体积光线步进的深度学习技术[Henzler等人，2019；Sitzmann等人，2019]，这些技术建立在连续可微的密度场上，以表示几何体。使用体积光线步进进行渲染由于需要查询大量的样本，因此成本显著。**神经辐射场（NeRF）[Mildenhall等人，2020]引入了重要性采样和位置编码来提高质量，但使用了一个大型多层感知器，这对速度产生了负面影响。NeRF的成功导致了大量跟进方法的出现，这些方法通过引入正则化策略来解决质量和速度问题；**目前新视图合成图像质量的最新技术是Mip-NeRF360[Barron等人，2022]。虽然渲染质量非常出色，但训练和渲染时间仍然非常高；我们能够在提供快速训练和实时渲染的同时，达到或在某些情况下超越这种质量。
最近的方法主要关注更快的训练和/或渲染，主要是通过利用三个设计选择：使用空间数据结构来存储（神经）特征，这些特征在体积光线步进期间随后被插值，不同的编码，以及MLP容量。这些方法包括不同变体的空间离散化[Chen等人，2022b,a；Fridovich-Keil和Yu等人，2022；Garbin等人，2021；Hedman等人，2021；Reiser等人，2021；Takikawa等人，2021；Wu等人，2022；Yu等人，2021]，码本[Takikawa等人，2022]，以及编码，例如哈希表[Müller等人，2022]，允许使用更小的MLP或完全放弃神经网络[Fridovich-Keil和Yu等人，2022；Sun等人，2022]。
这些方法中最值得注意的是InstantNGP[Müller等人，2022]，它使用哈希网格和占用网格来加速计算，并使用更小的MLP来表示密度和外观；以及Plenoxels[Fridovich-Keil和Yu等人，2022]，它们使用稀疏体素网格来插值连续的密度场，并且能够完全放弃神经网络。两者都依赖于球谐函数：前者直接表示方向效应，后者对其颜色网络的输入进行编码。虽然两者都提供了出色的结果，但这些方法在某些情况下仍然难以有效表示空白空间，部分取决于场景/捕获类型。此外，图像质量在很大程度上受到用于加速的结构化网格选择的限制，渲染速度受到对每个光线步进步骤需要查询许多样本的需求的阻碍。我们使用的无结构、显式的GPU友好的3D高斯实现了更快的渲染速度和更好的质量，而无需神经组件。

2.3 基于点的渲染和亮度表示

基于点的方法有效地渲染了不连续和无结构的几何样本（即点云）[Gross和Pfister 2011]。在最简单的形式中，点样本渲染[Grossman和Dally 1998]光栅化一组固定大小的无结构点，它可能利用图形API原生支持的点类型[Sainz和Pajarola 2004]或在GPU上并行软件光栅化[Laine和Karras 2011; Schütz等人 2022]。虽然忠于底层数据，点样本渲染存在空洞，引起混叠，并且是严格不连续的。关于高质量基于点的渲染的开创性工作通过“splatting”比像素大的范围的点原语来解决这些问题，例如圆形或椭圆形光盘、椭球体或surfels[Botsch等人 2005; Pfister等人 2000; Ren等人 2002; Zwicker等人 2001b]。

最近，人们对可微基于点的渲染技术[Wiles等人 2020; Yifan等人 2019]产生了兴趣。点已经通过神经特征增强，并使用CNN进行渲染[Aliev等人 2020; Rückert等人 2022]，从而实现快速甚至实时视图合成；然而，它们仍然依赖于MVS进行初始几何体的获取，因此继承了它的伪影，最明显的是在困难情况下的过度或不足重建，例如无特征/反光区域或薄结构。

基于点的α-混合和NeRF风格的体积渲染在本质上共享相同的图像形成模型。具体来说，颜色 $C$ 是通过沿射线进行体积渲染得到的：

$C=\sum_{i=1}^{N} T_{i}\left(1-\exp \left(-\sigma_{i} \delta_{i}\right)\right) \mathbf{c}_{i} ， \text { with } T_{i}=\exp \left(-\sum_{j=1}^{i-1} \sigma_{j} \delta_{j}\right) \quad (1)$

其中，密度 $\sigma$ 、透射率 $T$ 和颜色 $c$ 的样本是沿射线以间隔 $\delta_i$ 取的。可以重写为：

$\sum_{i=1}^{N} T_i \alpha_i c_i, \quad (2)$

其中

$\alpha_i = (1 - \exp(-\sigma_i \delta_i)) \quad \text{and} \quad T_i = \prod_{j=1}^{i-1} (1 - \alpha_j)$

一个典型的基于点的神经方法（例如，[Kopanas等人，2022, 2021]）通过混合N个有序点来计算像素的颜色 $C$ ：

$\sum_{i \in N} c_i \alpha_i \prod_{j=1}^{i-1} (1 - \alpha_j), \quad (3)$

其中 $c_i$ 是每个点的颜色， $\alpha_i$ 是通过计算具有协方差 $\Sigma$ 的2D高斯函数乘以每个点的学习透明度来给出的[Yifan等人，2019]。

从方程2和方程3，我们可以清楚地看到图像形成模型是相同的。然而，渲染算法却非常不同。NeRF是一种连续表示，隐式地表示空闲/被占用的空间；需要昂贵的随机采样来找到方程2中的样本，从而产生噪声和计算成本。相比之下，点是无结构的、离散的表示，它足够灵活，可以创建、销毁和移动类似于NeRF的几何形状。这是通过优化不透明度和位置来实现的，如Kopanas等人[2021]的先前工作所示，同时避免了完整的体积表示的缺点。

Pulsar[Lassner和Zollhofer 2021]实现了快速的球体光栅化，这启发了我们基于分块和排序的渲染器。然而，鉴于上述分析，我们希望保持（近似）传统的α-混合在排序的splats上，以拥有体积表示的优势：与他们的顺序无关的方法形成对比，我们的光栅化尊重可见性顺序。**此外，我们在像素中的所有splats上反向传播梯度，并光栅化各向异性splats。**所有这些元素都有助于我们结果的高视觉质量（见第7.3节）。此外，上述提到的先前方法也使用CNN进行渲染，这导致时间上的不稳定。尽管如此，Pulsar[Lassner和Zollhofer 2021]和ADOP[Rückert等人 2022]的渲染速度激发了我们开发快速渲染解决方案的动力。

专注于反射效果，Neural Point Catacaustics[Kopanas等人 2022]的漫反射基于点的渲染轨迹通过使用MLP克服了这种时间上的不稳定性，但仍然需要MVS几何作为输入。这一类中的最新方法[Zhang等人 2022]不需要MVS，并且还使用SH表示方向；然而，它只能处理一个物体的场景，并且需要掩模进行初始化。虽然对于小分辨率和低点数很快，但它如何扩展到典型数据集的场景尚不清楚[Barron等人 2022; Hedman等人 2018; Knapitsch等人 2017]。我们使用3D高斯进行更灵活的场景表示，避免了对MVS几何的需求，并得益于我们针对投影高斯的基于瓦片的渲染算法，实现了实时渲染。

一项最近的研究[Xu等人，2022]利用点通过径向基函数方法来封装辐射场。他们在优化过程中整合了点修剪和密集化技术，但他们依赖于体积光线步进来实现，并且无法达到实时显示率。

在人类动作捕捉领域，3D高斯已被用来描绘捕捉到的人体[Rhodin等人，2015; Stoll等人，2011]；最近，它们已经与体积光线步进结合用于视觉任务[Wang等人，2023]。神经体积原语的概念也已在类似的背景下提出[Lombardi等人，2021]。虽然这些方法激发了我们采用3D高斯作为场景表示的选择，但它们集中在重建和渲染单个孤立对象（如人体或面部）的特定场景上，这些场景的深度复杂性很小。相比之下，我们对各向异性协方差的优化、我们交叉的优化/密度控制，以及我们高效的渲染深度排序使我们能够处理包括背景在内的完整、复杂的场景，无论是室内还是室外环境，以及具有大量深度复杂性的场景。

3 概览

我们的输入是一组静态场景的图像，以及通过SfM [Schönberger 和 Frahm 2016] 校准的相应相机，这会产生一个稀疏点云作为副作用。从这些点出发，我们创建了一组3D高斯（第4节），由位置（均值）、协方差矩阵和不透明度 $α$ 定义，这允许非常灵活的优化机制。这导致了一个相当紧凑的3D场景表示，部分原因是可以使用高度各向异性的体积splat来紧凑地表示细结构。辐射场的方向外观组成部分（颜色）通过球谐函数（SH）表示，遵循标准做法 [Fridovich-Keil 和 Yu 等人 2022; Müller 等人 2022]。我们的算法通过一系列3D高斯参数的优化步骤，即位置、协方差、 $\alpha$ 和SH系数，以及用于自适应控制高斯密度的操作，来创建辐射场表示（第5节）。我们方法的关键在于我们基于瓦片的光栅化器（第6节），它允许各向异性splat的α-混合，由于快速排序而尊重可见性顺序。我们的快速光栅化器还包括一个快速的反向传递，通过跟踪累积的α值，没有限制可以接受梯度的高斯数量。我们方法的概览在图2中进行了说明。

4 可微高斯抛雪球

我们的目标是优化场景表示，以允许从一组没有法线的稀疏的（SfM）点开始进行高质量的新视角合成。为此，我们需要一个原始对象，它继承了不同可微体积表示的属性，同时是无结构和显式的，以允许非常快速的渲染。我们选择了3D高斯，它们是可微的，并且可以轻松地投影到2D splats上，允许快速的α-混合进行渲染。

我们的表现与之前使用2D点[Kopanas等人，2021；Yifan等人，2019]的方法相似，并假设每个点都是一个带有法线的小型平面圆。鉴于SfM点的极端稀疏性，估计法线非常困难。同样地，从这样的估计中优化非常嘈杂的法线将非常具有挑战性。

相反，我们将几何形状建模为一组不需要法线的3D高斯。我们的高斯由在世界空间中定义的完整3D协方差矩阵 $\Sigma$ 定义在点（均值） $μ$ 中心：这个高斯在我们混合过程中乘以 $α$ 。

$e^{-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)}$

然而，我们需要将我们的3D高斯投影到2D以进行渲染。Zwicker等人[2001a]展示了如何将此投影到图像空间。给定视图变换 $W$ ，相机坐标系中的协方差矩阵 $Σ^{'}$ 如下给出： $\Sigma' = J W \Sigma W^T J^T$ ，其中 $J$ 是投影变换的仿射近似的雅可比矩阵。Zwicker等人[2001a]还表明，如果我们跳过 $Σ^{'}$ 的第三行和列，我们将获得一个 $\times 2$ 方差矩阵，具有与从带有法线的平面点开始的先前工作[Kopanas等人，2021]相同的结构和属性。

一个明显的方法将直接优化协方差矩阵Σ以获得代表辐射场的3D高斯。然而，协方差矩阵只有当它们是正半定时才具有物理意义。对于我们所有参数的优化，我们使用梯度下降，这不能很容易地约束以产生这样的有效矩阵，更新步骤和梯度可以很容易生成无效的协方差矩阵。

因此，我们选择了一种更直观但同样富有表现力的表示形式进行优化。一个3D高斯的协方差矩阵 $Σ$ 类似于描述一个椭圆体的构造。给定一个缩放矩阵S和旋转矩阵R，我们可以找到相应的 $\Sigma = R S S^T R^T$ 。为了允许独立地优化这两个因素，我们分别存储它们：一个3D向量 $s$ 用于缩放，一个四元数 $q$ 来表示旋转。这些可以轻松地转换为它们各自的矩阵并组合，确保归一化 $q$ 以获得有效的单位四元数。

为了避免在训练期间由于自动微分而产生的显著开销，我们显式地推导出了所有参数的梯度。确切的导数计算细节在附录A中。这种适用于优化的各向异性协方差表示使我们能够优化3D高斯以适应捕获场景中不同形状的几何形状，从而得到相当紧凑的表示。图3展示了这样的案例。

5 带有自适应密度控制的3D高斯优化

我们方法的核心是优化步骤，它创建了一组密集的3D高斯，准确代表场景以进行自由视点合成。除了位置 $\mathbf{p}$ 、 $\alpha$ 和协方差 $\Sigma$ 之外，我们还优化代表每个高斯颜色 $\mathbf{c}$ 的球谐系数，以正确捕获场景的视角依赖性外观。这些参数的优化与控制高斯密度的步骤交错进行，以更好地代表场景。

5.1 优化

优化基于连续迭代的渲染过程，将得到的图像与捕获数据集中的训练视图进行比较。由于3D到2D投影的歧义，几何体可能被错误地放置。因此，我们的优化需要能够创建几何体，并且在几何体被错误放置时也能够销毁或移动它。3D高斯协方差的参数质量对表示的紧凑性至关重要，因为可以用少量大型各向异性高斯来捕获大面积的均匀区域。

我们使用随机梯度下降技术进行优化，充分利用标准的GPU加速框架，以及为某些操作添加自定义CUDA内核的能力，遵循最新的最佳实践[Fridovich-Keil 和 Yu 等人 2022; Sun 等人 2022]。特别是，我们的快速光栅化（见第6节）在优化效率中至关重要，因为它是优化的主要计算瓶颈。

我们使用Sigmoid激活函数对α进行约束，将其限制在[0-1)范围内，并获取平滑的梯度，对协方差的尺度使用指数激活函数，原因相同。我们估计初始协方差矩阵为各向同性高斯，其轴等于到最近三个点的平均距离。我们使用与Plenoxels [Fridovich-Keil 和 Yu 等人 2022] 类似的标准指数衰减调度技术，但仅用于位置。损失函数是L1结合D-SSIM项：

$\lambda )L_1 + \lambda L_{D-SSIM}$

5.2 高斯的自适应控制

我们从SfM得到的初始稀疏点集开始，然后应用我们的方法来自适应地控制高斯的数量及其在单位体积1上的密度，允许我们从最初的稀疏高斯集合过渡到更好地表示场景的更密集的集合，并具有正确的参数。在优化预热后（见第7.1节），我们每100次迭代进行一次密集化，并移除本质上是透明的高斯，即 $\alpha$ 小于阈值 $\varepsilon_\alpha$ 的高斯。

我们对高斯的自适应控制需要填充空白区域。它专注于缺少几何特征的区域（“欠重建”），但也在高斯覆盖场景大面积的区域（通常对应于“过重建”）。我们观察到这两种情况都具有大的视图空间位置梯度。直观地说，这很可能是因为它们对应于尚未很好地重建的区域，优化试图移动高斯以纠正这一点。

由于这两种情况都是密集化的良好候选者，我们对平均视图空间位置梯度大小超过阈值 $\tau_{pos}$ 的高斯进行密集化，在测试中我们将其设置为0.0002。接下来，我们将介绍这个过程的详细信息，如图4所示。

对于位于欠重建区域的小高斯，我们需要覆盖必须创建的新几何体。为此，克隆高斯是首选，只需创建相同大小的副本，并沿着位置梯度的方向移动它。

另一方面，在方差高的区域的大高斯需要被分成更小的高斯。我们用两个新的高斯替换这样的高斯，并将它们的尺度除以我们在实验中确定的因子 $φ = 1.6$ 。我们还使用原始的3D高斯作为PDF(Probability Density Function)来初始化它们的位置。

在第一种情况下，我们检测并处理增加系统总体积和高斯数量的需求，而在第二种情况下，我们保持总体积但增加高斯的数量。**与其他体积表示类似，我们的优化可能会因为靠近输入相机的浮动物而陷入困境；在我们的情况下，这可能导致高斯密度的不合理增加。**调节高斯数量增加的有效方法是每N = 3000次迭代将 $α$ 值设置接近零。然后优化会增加需要的高斯的 $α$ 值，**同时允许我们的剔除方法按上述描述剔除 $α$ 小于 $\varepsilon_\alpha$ 的高斯。高斯可能会收缩或增长并与其他人重叠，但我们定期移除在worldspace中非常大的高斯和在viewspace中过大的高斯。**这种策略总体上很好地控制了高斯的总数。我们的模型中的高斯始终保持欧几里得空间中的原语；与其他方法[Barron等人，2022；Fridovich-Keil和Yu等人，2022]不同，我们不需要对远距离或大高斯进行空间压缩、变形或投影策略。

6 高斯的快速可微光栅化器

我们的目标是实现快速的整体渲染和快速排序，以允许近似α-混合——包括各向异性的splat——并避免之前工作中存在的可以接受梯度的splat数量的限制[Lassner和Zollhofer 2021]。
为了实现这些目标，我们设计了一种基于区块的高斯splat光栅化器，受到最近软件光栅化方法[Lassner和Zollhofer 2021]的启发，该方法预先对整个图像的原语进行排序，避免了每像素排序的成本，这阻碍了之前的α-混合解决方案[Kopanas等人 2022, 2021]。我们的快速光栅化器允许在任意数量的混合高斯上进行高效的反向传播，只需额外的内存消耗，并且每像素的开销是恒定的。我们的光栅化流水线是完全可微的，并且考虑到2D投影（第4节），可以光栅化类似于之前2D splatting方法[Kopanas等人 2021]的各向异性splat。

我们的方法首先将屏幕分割成16×16的区块，然后继续对视锥体和每个区块中的3D高斯进行裁剪。具体来说，我们只保留与视锥体相交的99%置信区间的高斯。此外，我们使用保护范围来删除极端位置的高斯（比如，那些靠近近平面和远在视锥体外的高斯），因为计算它们的投影2D协方差将是不稳定的。然后，我们根据它们覆盖的区块数量实例化每个高斯，并将每个实例分配一个结合视图空间深度和区块ID的键。然后我们使用单个快速GPU基数排序[Merrill和Grimshaw 2010]根据这些键对高斯进行排序。注意，没有额外的逐像素排序，混合是基于这种初始排序执行的。因此，我们的α-混合在某些配置中可以是近似的。然而，当splat接近单个像素的大小时，这些近似变得可以忽略不计。我们发现这种选择在收敛场景中不会产生可见伪影的情况下大大增强了训练和渲染性能。

排序高斯后，我们通过识别每个区块上splat的深度排序的第一个和最后一个元素，为每个区块生成一个列表。对于光栅化，我们为每个区块启动一个线程块。每个块首先协作地将高斯包加载到共享内存中，然后，对于给定的像素，通过从前到后遍历列表，累积颜色和α值，从而最大化数据加载/共享和处理的并行性。当我们在像素中达到目标α饱和度时，相应的线程停止。定期查询区块中的线程，并在所有像素都饱和时（即，α变为1）终止整个瓦片的处理。附录C中详细介绍了排序和整体光栅化方法的高级概述。

在光栅化期间，α的饱和度是唯一的停止标准。与以前的工作不同，我们不限制可以接受梯度更新的混合基元的数量。我们执行此属性，以允许我们的方法处理具有任意、变化深度复杂性的场景，并准确学习它们，而无需进行特定于场景的超参数调整。在反向传递期间，因此我们必须恢复每个像素在前向传递中混合的完整序列。一种解决方案是将每个像素混合点的任意长列表存储在全局内存中[Kopanas等人 2021]。为了避免隐含的动态内存管理开销，我们选择再次遍历每个区块的列表；我们可以重新利用前向传递中排序的高斯数组和区块范围。为了便于梯度计算，我们现在从后向前遍历它们。

遍历从影响区块中任何像素的最后一个点开始，再次协作地将点加载到共享内存中。**此外，每个像素只有在其深度低于或等于前向传递期间对其颜色做出贡献的最后一个点的深度时，才会开始（昂贵的）重叠测试和处理。**计算第4节中描述的梯度需要在原始混合过程中每一步累积的不透明度值。而不是在反向传递中遍历显式的逐渐缩小的不透明度列表，我们可以通过仅在前向传递结束时存储总累积不透明度来恢复这些中间不透明度。具体来说，每个点在前向过程中存储最终累积的不透明度 $α$ ；在我们的前向后遍历中，我们将其除以每个点的 $α$ ，以获得梯度计算所需的系数。

7 实现，结果和评估

7.1 实现

我们使用PyTorch框架用Python实现了我们的方法，并编写了自定义的CUDA内核用于光栅化，这些内核是之前方法[Kopanas等人，2021]的扩展版本，并使用了NVIDIA CUB排序例程进行快速基数排序[Merrill和Grimshaw 2010]。我们还使用开源的SIBR[Bonopera等人，2020]构建了一个交互式查看器，用于交互式查看。我们使用此实现来测量我们实现的帧率。源代码和我们所有的数据可在以下网址获取：https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/

优化细节。为了稳定性，我们在较低分辨率下“预热”计算。具体来说，我们使用4倍较小的图像分辨率开始优化，并在250次和500次迭代后分别上采样两次。
球谐系数的优化对缺少角度信息很敏感。对于典型的“类似于NeRF”的捕获，其中中心物体被拍摄在围绕它的整个半球上的照片观察，优化工作良好。然而，如果捕获缺少角度区域（例如，当捕获场景的角落，或执行“内外翻转”[Hedman等人，2016]捕获）时，优化可能会产生完全错误的SH的零阶分量的值（即，基础色或漫反射颜色）。为了克服这个问题，我们首先只优化零阶分量，然后在每1000次迭代后增加SH的一个阶数，直到所有4个SH阶数都被表示。

7.2 结果和评估

结果：我们在总共13个真实场景上测试了我们的算法，这些场景来自之前发布的数据集和合成的Blender数据集[Mildenhall等人，2020]。特别是，我们在Mip-Nerf360[Barron等人，2022]中呈现的所有场景上测试了我们的方法，这是当前NeRF渲染质量的最高水平，还有来自Tanks&Temples数据集[2017]的两个场景和由Hedman等人[Hedman等人，2018]提供的两个场景。我们选择的场景具有完全不同的捕获风格，涵盖了有界的室内场景和大型无界的户外环境。我们在评估中对所有实验使用相同的超参数配置。除了Mip-NeRF360方法（见下文），所有结果都在A6000 GPU上运行报告。

在补充材料中，我们展示了一些场景的渲染视频路径，这些场景包含远离输入照片的视图。

现实世界场景：在质量方面，当前的最先进水平是Mip-Nerf360[Barron等人，2021]。我们将此方法作为质量基准进行比较。我们还与两种最新的快速NeRF方法进行了比较：InstantNGP[Müller等人，2022]和Plenoxels[Fridovich-Keil和Yu等人，2022]。

我们对数据集使用训练/测试分割，采用Mip-NeRF360建议的方法，每8张照片取一张进行测试，以生成一致且有意义的比较，使用文献中最常用的标准PSNR、L-PIPS和SSIM指标生成评估指标；请参见表1。表中的所有数字都来自我们运行作者代码的所有先前方法的结果，除了Mip-NeRF360在他们自己的数据集上的结果，我们从原始出版物中复制了这些数字，以避免当前SOTA的混淆。对于我们图表中的图像，我们使用了我们自己的Mip-NeRF360运行：这些运行的数字在附录D中。我们还展示了平均训练时间、渲染速度和用于存储优化参数的内存。我们报告了InstantNGP的基本配置(Base)的结果，它运行了35K次迭代，以及作者建议的略大网络（Big），以及我们的两种配置，7K和30K次迭代。我们在图6中展示了我们两种配置的视觉质量差异。在许多情况下，7K次迭代的质量已经相当不错了。

训练时间在数据集上有所不同，我们分别报告。请注意，图像分辨率也在数据集上有所不同。在项目网站上，我们提供了所有用于计算所有方法（我们的和以前的工作）在所有场景上测试视图的所有渲染图。请注意，我们保持了所有渲染的原生输入分辨率。

表格显示，我们的完全收敛模型实现了与SOTA Mip-NeRF360方法相当，有时略好的质量；请注意，在同一硬件上，他们的平均训练时间是48小时2，与我们的35-45分钟相比，他们的渲染时间是10秒/帧。我们在5-10分钟的训练后实现了与InstantNGP和Plenoxels相当的质量，但额外的训练时间允许我们实现SOTA质量，其他快速方法并非如此。对于Tanks & Temples，我们在类似的训练时间（我们的情况下约7分钟）实现了与基本InstantNGP类似的质量。
我们还展示了我们的方法和选定的先前渲染方法在图5中为我们和之前的渲染方法选择的左出测试视图的这种比较的视觉结果；我们方法的结果是在30K次训练迭代后得到的。我们看到，在某些情况下，即使是Mip-NeRF360也有剩余的伪影，我们的方法避免了（例如，在Bicycle、Stump中的模糊，或在Room的墙壁上的模糊）。在补充视频和网页上，我们提供了从远处的路径比较。我们的方法倾向于保留视觉细节，即使是从远处也能很好地覆盖的区域，这并不总是以前的方法的情况。

合成有界场景：除了现实场景外，我们还评估了我们的方法在合成Blender数据集[Mildenhall等人，2020]上的效果。所讨论的场景提供了一组详尽的视图，尺寸有限，并提供了确切的相机参数。在这种情况下，我们甚至可以在随机初始化下实现最先进的结果：我们从100K个均匀随机高斯开始训练，这些高斯位于包含场景边界的体积内。我们的方法迅速并自动地将它们修剪到大约6-10K个有意义的高斯。经过30K次迭代训练的最终模型大小大约达到每个场景200-500K个高斯。我们在表2中使用白色背景进行兼容性比较，报告并比较了我们实现的PSNR得分与以前的方法。示例可以在图10中看到（从左边数第二张图像）以及在补充材料中。训练的合成场景以180-300 FPS的速度渲染。
紧凑性。与以前的显式场景表示相比，我们优化中使用的各向异性高斯能够用较少的参数建模复杂形状。
我们通过评估我们的方法与[Zhang等人，2022]获得的高度紧凑的基于点的模型来展示这一点。我们从他们通过使用前景掩模进行空间雕刻获得的初始点云开始，优化直到我们达到他们报告的PSNR得分。这通常在2-4分钟内发生。
我们使用大约四分之一的点数超过了他们报告的指标，平均模型大小为3.8 MB，而他们的是9 MB。我们注意到，对于这个实验，我们只使用了我们的球谐函数的两个度数，与他们的类似。

7.3 消融研究

我们分离了我们所做的不同贡献和算法选择，并构建了一系列实验来衡量它们的效果。具体来说，我们测试了算法的以下方面：从SfM初始化，我们的密集化策略，各向异性协方差，我们允许无限数量的splat具有梯度，以及使用球面谐波。每个选择的数量效应在表3中进行了总结。

从SfM初始化：我们还评估了从SfM点云初始化3D高斯的重要性。对于这次消融，我们在输入相机的边界框大小的三倍的立方体内均匀采样。我们观察到，即使没有SfM点，我们的方法也表现得相对较好，避免了完全失败。相反，它主要在背景上降级，见图7。
在训练视图没有很好地覆盖的区域，随机初始化方法似乎有更多的浮动物，这些浮动物无法通过优化来移除。另一方面，合成的NeRF数据集没有这种行为，因为它没有背景，并且由输入相机很好地约束（见上面的讨论）。

密集化：接下来，我们评估了我们的两种密集化方法，更具体地说，是第5节中描述的克隆和分裂策略。我们分别禁用每种方法，并使用其余方法不变进行优化。结果表明，分裂大高斯对于允许背景的良好重建很重要，见图8，而克隆小高斯而不是分裂它们允许更好地和更快地收敛，特别是当场景中出现细结构时。

具有梯度的splat的无限深度复杂性：我们评估了在最前面的N个点之后跳过梯度计算是否会给我们带来速度而不影响质量，正如Pulsar [Lassner和Zollhofer 2021]所建议的。在这个测试中，我们选择N=10，这是Pulsar中默认值的两倍，但这导致了由于梯度计算中的严重近似而不稳定优化。对于Truck场景，质量降低了11dB的PSNR（见表3，Limited-BW），视觉结果在图9中展示了Garden。

各向异性协方差：我们方法中的一个重要算法选择是优化3D高斯的完整协方差矩阵。为了演示这种选择的效果，我们进行了消融，通过优化一个单一的标量值来移除各向异性，该标量值控制所有三个轴上的3D高斯的半径。这种优化的结果在图10中以视觉形式呈现。我们观察到，各向异性显著提高了3D高斯与表面对齐的质量，这反过来又允许在保持相同数量的点的同时，大大提高渲染质量。

球面谐波：最后，使用球面谐波提高了我们的总体PSNR得分，因为它们补偿了视角依赖效应（表3）。

7.4 局限

我们的方法并非没有局限性。在场景观察不佳的区域，我们会出现伪影；在这些区域，其他方法也同样面临挑战（例如，参见图11中的Mip-NeRF360）。尽管如上所述，各向异性高斯有许多优点，我们的方法可能会产生拉长的伪影或“斑驳”的高斯（见图12）；同样，在这些情况下，先前的方法也面临挑战。

我们的优化偶尔也会产生弹出伪影，这通常发生在创建大高斯的区域，尤其是在视角依赖外观的区域。这些弹出伪影的一个原因是光栅化器中的保护带简单地拒绝了高斯。更系统化的剔除方法可以减轻这些伪影。另一个因素是我们简单的可见性算法，它可能导致高斯突然切换深度/混合顺序。这可以通过抗锯齿来解决，我们将其留作未来的工作。此外，我们目前没有对我们的优化应用任何正则化；这样做将有助于处理未观察到的区域和弹出伪影。

虽然我们使用了相同的超参数进行了全面评估，但早期实验表明，在非常大的场景（例如，城市数据集）中收敛可能需要降低位置学习率。

尽管与以前的基于点的方法相比，我们非常紧凑，但我们的内存消耗比基于NeRF的解决方案要高得多。在大型场景的训练期间，未优化原型的峰值GPU内存消耗可能超过20 GB。然而，通过仔细实现优化逻辑的低级实现（类似于InstantNGP），这个数字可以显著降低。渲染训练场景需要足够的GPU内存来存储完整模型（对于大规模场景是几百兆字节）和额外的30-500 MB用于光栅化器，这取决于场景大小和图像分辨率。我们注意到，有很多机会进一步减少我们方法的内存消耗。点云的压缩技术是一个研究充分的领域[De Queiroz和Chou 2016]；将这些方法适应我们的表示形式将是很有趣的。

8 讨论和结论

我们提出了第一种真正允许实时、高质量辐射场渲染的方法，适用于各种场景和捕获风格，同时所需的训练时间与最快的先前方法具有竞争力。

我们选择的3D高斯基元保留了体积渲染的属性，以便进行优化，同时直接允许快速基于splat的光栅化。我们的工作表明，与广泛接受的观点相反，对于快速和高质量的辐射场训练，连续表示并不是严格必要的。
我们的训练时间的大部分（约80%）花在Python代码上，因为我们在PyTorch中构建了我们的解决方案，以使我们的方法易于被其他人使用。只有光栅化例程是实现为优化的CUDA内核。我们预计，将其余优化完全移植到CUDA，如InstantNGP [Müller等人，2022]中所做的那样，可能能够为性能至关重要的应用实现显著的进一步加速。

我们还展示了利用实时渲染原理的重要性，利用GPU的强大功能和软件光栅化流水线架构的速度。这些设计选择是训练和实时渲染性能的关键，为以前的体积光线步进提供了性能优势。

看看我们的高斯是否可以用于执行捕获场景的网格重建将是很有趣的。除了由于网格的广泛使用而带来的实际意义外，这将使我们能够更好地了解我们的方法在体积和表面表示之间的连续体中究竟处于什么位置。

总之，我们提出了第一个辐射场的实时渲染解决方案，其渲染质量与之前的最昂贵的方法相匹配，训练时间比现有的最快解决方案具有竞争力。

你可能感兴趣的:(视觉重建论文翻译,3d)

MotionLCM 部署优化踩坑解决bug AI算法网奇 aigc与数字人深度学习宝典文生motion
目录依赖项windowstorchok：渲染黑白图问题解决：humanml3d：sentence-t5-large下载数据：报错：Nomodulenamed'sentence_transformers'继续报错：fromtransformers.integrationsimportCodeCarbonCallback解决方法：推理相关转mesh：module‘matplotlib.cm‘hasno
【项目实战】容错机制与故障恢复：保障系统连续性的核心体系本本本添哥 004 -研效与DevOps运维工具链 002 -进阶开发能力分布式
在分布式系统中，硬件故障、网络波动、软件异常等问题难以避免。容错机制与故障恢复的核心目标是：通过主动检测故障、自动隔离风险、快速转移负载、重建数据一致性，最大限度减少故障对业务的影响，保障系统“持续可用”与“数据不丢失”。以下从核心机制、实现方式、典型案例等维度展开说明。一、故障检测：及时发现异常节点故障检测是容错的第一步，需通过多维度手段实时感知系统组件状态，确保故障被快速识别。1.健康检查与心
5G基站信号加速器！AD8021ARZ-REEL7亚德诺超低噪声高速电压放大器专利失真消除技术! 深圳市尚想信息技术有限公司 5G通信高速运放 ADI黑科技 8K视频医疗超声
AD8021ARZ-REEL7ADI：重新定义高速放大器的性能极限！一、产品简介AD8021ARZ-REEL7是ADI（亚德诺半导体）推出的超低噪声高速电压反馈放大器，采用XFCB工艺和专利失真消除技术，专为4K/8K视频处理、医疗成像、5G通信等超高频应用设计。以1.8GHz带宽和0.1nV/√Hz超低噪声，成为高速信号调理的终极解决方案！二、五大颠覆性优势军工级信号保真度1.8GHz-3dB带
元宇宙中的视觉技术：虚拟化身与场景生成 xcLeigh 计算机视觉CV 元宇宙虚拟化身场景生成 AIGC 数字孪生
元宇宙中的视觉技术：虚拟化身与场景生成前言一、元宇宙与视觉技术的深度关联1.1元宇宙概念深度剖析1.2视觉技术：元宇宙的“灵魂之窗”二、虚拟化身：数字世界的“第二自我”2.1虚拟化身技术的深度解析2.1.1核心技术构成2.1.2技术实现原理与流程2.2虚拟化身的应用领域及案例展示2.2.1游戏娱乐领域2.2.2教育培训领域三、场景生成：构建元宇宙的虚拟天地3.1场景生成技术全景透视3.1.1关键技
2024最新微信红包封面序列号大全+领取时间表(持续更新) 全网优惠分享
微信红包封面序列号兑换码，每天，我们都在奔波于现实的雾霾里。工作、生活、压力、困扰，如同无尽的泥潭，让我们时刻感到疲惫不堪。然而，在这个被喧嚣包围的世界，我们是否还能保持内心的宁静和平淡？微.信搜索:「封面院」关注公众号可领取红包封面序列号。最新微信红包封面序列号：先到先得，抢完为止：1、pdiqgLsY1lR2、vC8tY0VRf3D3、j0kzzrfwl6Y4、dqRCUZ0lwmJ5、ldT
D13-0729-阿凡提阿凡提在冰川
D13D13-0729-阿凡提如何避开听力训练中的常见坑——Zoe分享听力训练中的常见坑听力训练中的常见坑看不懂，写不出：生词障碍，背景知识能看看懂，写不出：口音、语音现象（连读、弱读、爆破等）、语法一些语音现象失去爆破：两个爆破音连在一起，前面的失去爆破击穿：辅音、爆破音后面接h一般不发音，Youkown听力练习最大的坑听完不复习表现：：听完不对材料进行复习，仅仅对一些错词进行更正，不做进一步拓
2021-08-03英语单词背诵Unit33 从入门到放弃_菠萝君
这里的单词只是我个人的一些联想记忆，如果大家有什么更好的记忆方式，可以在评论区分享出来，感谢。或者有什么觉得特别难记忆的单词和语法也可以分享出来，大家一起讨论记忆。Unit33dumb 拆分：du（毒）+mb（面包）联想：毒面包吃下去就变哑了释义：a.哑的，哑口无言的，愚蠢的dye 对比：eye眼睛dye染料，染色ruralechoreflectrepeat 拆分：rep（热评）+eat（吃）
几张电影票《阿凡达水之道》梅落如雪
夫喜欢视觉和听觉的盛宴，追求极致画面和声音的享受，我却一直不愿意为家里买一个硕大的电视。因为这些年，走在贫农的路线，却始终努力追求高端电视，最终的经验是，买一台好电视--浪费！我说阿凡达出来水之道，他却说如果不去万达的电影院，别的影院去没意思，视觉效果和听觉效果都不好。唉，我摸摸口袋里的三瓜俩枣，心里默默心疼了一下银子。为了几两碎银子，天天上班，我容易嘛。结果这小子追求这个。。。。他说要不不去看了
Python数据可视化：用代码绘制数据背后的故事 AAEllisonPang Python 信息可视化 python 开发语言
引言：当数据会说话在数据爆炸的时代，可视化是解锁数据价值的金钥匙。Python凭借其丰富的可视化生态库，已成为数据科学家的首选工具。本文将带您从基础到高级，探索如何用Python将冰冷数字转化为引人入胜的视觉叙事。一、基础篇：二维可视化的艺术表达1.1Matplotlib：可视化领域的瑞士军刀importmatplotlib.pyplotaspltimportnumpyasnpx=np.linsp
Python Gradio：实现交互式图像编辑 PythonAI编程架构实战家 Python编程之道 python 开发语言 ai
PythonGradio：实现交互式图像编辑关键词：Python,Gradio,交互式图像编辑,计算机视觉,深度学习,图像处理,Web应用摘要：本文将深入探讨如何使用Python的Gradio库构建交互式图像编辑应用。我们将从基础概念开始，逐步介绍Gradio的核心功能，并通过实际代码示例展示如何实现各种图像处理功能。文章将涵盖图像滤镜应用、对象检测、风格迁移等高级功能，同时提供完整的项目实战案例
4D卓越团队-习书C3 林晔0302
第三章4D系统-----神奇坐标的诞生一诞生背景：1物理学背景简化的二乘二矩阵，坐标系；2荣格1905年发表的人的性格发展理论；词汇参考MBTI指标坐标轴X：作出决策是用情感还是逻辑坐标轴Y：获取信息是靠直觉还是感觉。五感：视觉听觉嗅觉味觉触觉占70%二4D系统分析领导力领导者特征四维度：情感与直觉----绿色培养型情感与感觉---黄色包容型逻辑与直觉---蓝色展望型逻辑与感觉--橙色指导型三4D
高铁站违规撑伞识别误检率↓79%：陌讯多模态融合算法实战解析 2501_92722744 算法人工智能目标检测计算机视觉目标跟踪
原创声明本文为原创技术解析，核心技术参数与架构参考自《陌讯技术白皮书》，禁止未经授权的转载与改编。一、行业痛点：密集场景下的违规撑伞识别难题在高铁站、地铁站等交通枢纽，违规撑伞（如非雨天在站台、通道内持伞）可能引发客流拥堵、设备刮擦等安全隐患。然而，传统视觉识别方案面临三大核心挑战：环境干扰大：进出站口光线突变（正午强光/夜间弱光）导致伞面特征提取不稳定，某枢纽站点实测数据显示，阴雨天违规撑伞识别
window显示驱动开发—Direct3D 11 视频设备驱动程序接口 (DDI) 程序员王马 windows图形显示驱动开发音视频
这些设备驱动程序接口(DDI)是新的或针对Windows8更新的：CalcPrivateCryptoSessionSizeCalcPrivateAuthenticatedChannelSizeCalcPrivateVideoDecoderOutputViewSizeCalcPrivateVideoDecoderSizeCalcPrivateVideoProcessorEnumSizeCalcPri
window显示驱动开发—支持 Direct3D 版本 10.1
1.Direct3D10.1的版本标识(1)版本号与头文件定义API版本号:D3D10_1_SDK_VERSION(在d3d10_1.h中定义)运行时检测:通过ID3D10Device::CheckFeatureSupport查询D3D10_FEATURE_LEVEL_10_1支持。D3D10_FEATURE_LEVELfeatureLevel=D3D10_FEATURE_LEVEL_10_1;i
window 显示驱动开发-Direct3D 呈现性能改进（四）程序员王马 windows图形显示驱动开发驱动开发
调用资源创建、映射和取消映射函数的行为更改对于WDDM1.3及更高版本驱动程序实现的这些函数，Direct3D运行时为映射默认方案提供一组受限的输入值。这些受限值仅适用于支持功能级别11.1及更高版本的驱动程序。CreateResource(D3D11)函数—这些输入D3D11DDIARG_CREATERESOURCE结构成员受到限制：调用资源创建、映射和取消映射函数的行为更改对于WDDM1.3及
基于深度学习的目标检测算法综述：从RCNN到YOLOv13，一文看懂十年演进！人工智能教程深度学习目标检测算法人工智能自动驾驶 YOLO 机器学习
一、引言：目标检测的十年巨变2012年AlexNet拉开深度学习序幕，2014年RCNN横空出世，目标检测从此进入“深度时代”。十年间，算法从两阶段到单阶段，从Anchor-base到Anchor-free，从CNN到Transformer，从2D到3D，从监督学习到自监督学习，迭代速度之快令人目不暇接。本文将系统梳理基于深度学习的目标检测算法，带你全面了解技术演进、核心思想、代表算法、工业落地与
环境艺术设计必学的“3D建模与渲染软件”指南
在环境艺术设计领域，掌握高效的设计软件是学生入门阶段普遍关注的核心问题。优秀的软件如同设计师的得力助手，能够精准表达设计创意、显著提升工作效率，在设计流程的各个环节都发挥着不可或缺的作用。根据功能划分，环艺设计常用软件主要涵盖建模、渲染、后期处理及辅助工具四大类。本文将为您梳理环艺设计中必学的核心软件。一、核心建模软件建模是将设计构思转化为三维模型的关键步骤。以下两款软件在环艺设计中应用最为广泛：
云端渲染：重塑影视、游戏与设计行业的算力革命
导言：云端渲染技术通过将繁重的图形计算任务迁移至云端强大的计算集群，有效突破了传统渲染对高性能本地硬件和漫长等待周期的依赖，显著降低了制作成本与门槛。它正日益成为驱动影视、游戏及设计行业创新的核心技术。本文将深入解析云端渲染的技术原理，并探讨其如何深刻变革这三大行业的格局与未来。一、云端渲染的技术原理：解构算力革新云端渲染，其核心在于将高负载的图形处理任务——如复杂的3D建模、动画特效、光影计算及
2025年7月技术问答第1期大势智慧实景三维三维建模教程问答答疑干货
1.如图，用重建大师时重建好几次空间区域都是空的，周围的建模成功，该如何处理？答：确定下是中间两个缺失瓦块的名称，可以对瓦块右键清理中间结果，重新提交下生产。2.网格大师可以合并OSGB和3Dtiles的根结点吗，，不是想要的单独只有一个目录的那种，是不是只有最高级的那个文件夹里面的瓦片才是最终结果？答：根节点合并，只合并头文件，不会把瓦块整个合并。网格大师是一款能够解决实景三维模型空间参考、原点
BEYOND BINARY REWARDS: TRAINING LMS TOREASON ABOUT THEIR UNCERTAINTY 樱花的浪漫大模型与智能体对抗生成网络与动作识别强化学习人工智能语言模型自然语言处理机器学习深度学习
https://gist.github.com/josherich/8a30dbf3d6ae0cae1048c3331f38fe80https://gist.github.com/josherich/8a30dbf3d6ae0cae1048c3331f38fe801引言与此担忧一致，研究表明，即使最初校准良好的大型语言模型（LLMs）在RL训练后也会变得过度自信（Lengetal.,2
古桥拿什么来拯救你 81d1aa263da清风
一缕清风查看网页版>拿什么拯救你，古桥2011-10-2215:53热衷于旧影觅踪的绿盦先生和远望先生，在松陵南郊意外找到了这座被荒弃许久的古桥“太平桥”。乱藤野蔓遮盖下露出残桥的一截身影，让人心生怜惜。河没了，路没了，村庄没了，桥遗弃了。还有多少可以遗忘？还有多少可以丢弃？视觉在模糊，走过的岁月在流逝，心中的印痕却难抹去，淡忘的记忆在追踪定格的影象中回放。脑波中荡漾，那桥、那水、那人、那事...
Python 网络科学（三）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/3df7c5feb0bf40d7b9d88197a04b0b37译者：飞龙协议：CCBY-NC-SA4.0第八章：自我中心网络分析前一章内容非常丰富，我们学习了如何可视化和分析整个网络。相比之下，本章应该会感觉更简单，内容也会少得多。在之前的章节中，我们学习了如何获取和创建网络数据，如何从网络数据构建图形，如何清理图形数据，以及如何做一些有趣的事情
不会PS也不会建模，却想把敦煌鸣沙山塞进小方块里！自律的音律
掐指一算，好像很久没出特殊玩法的教程了~刚好前几天有小伙伴提问：有没有立体图表可以参考一下？由此延伸到以前发的一篇文章，里面整合了一些高质量的立体图表：我知道，PPT自带的图表你已经看腻了，是时候养养眼啦！那么问题来了，文章中的这种效果，要是只会PPT能不能做？经过@隔壁家老廖的提醒，通过关键词microworld找到了一些参考图：仔细想了想，似乎也没有很难，主要是用到了裸眼3D效果，结合切面光影
Uncovering Bias in Large Vision-Language Models at Scale with Counterfactuals 樱花的浪漫因果推断大模型与智能体人工智能算法机器学习语言模型自然语言处理
UncoveringBiasinLargeVision-LanguageModelsatScalewithCounterfactuals-ACLAnthologyhttps://aclanthology.org/2025.naacl-long.305/1.概述最近，大型视觉-语言模型（LVLMs）因其能够将语言模型（LLMs）的对话能力扩展到多模态领域而受到欢迎。具体来说，LVLMs可以根据文本提
视觉Transformer还有哪些点可以研究？怎么应用？计算机视觉工坊 3D视觉从入门到精通学习算法开源
0.这篇文章干了啥？今天笔者为大家推荐一篇最新的综述，详细总结了Transformer的网络架构、优化策略、发展方向，还会定期更新Github，研究注意力机制的小伙伴一定不要错过。注意机制有助于人类视觉系统有效地分析和理解复杂场景，它能够聚焦于图像的关键区域，同时忽略无关紧要的部分。受此概念启发，注意机制已经被引入到计算机视觉（CV）中，以动态地为图像中的不同区域分配权重。这使得神经网络能够专注于
Halcon试用与许可指南：2022年7月版我就是夏迎春
本文还有配套的精品资源，点击获取简介：本文件提供了Halcon软件的试用证书和许可证相关资料的集合，为潜在用户提供免费体验Halcon各项功能的途径，包括图像处理、形状匹配、OCR和条形码读取等。用户可以通过试用版全面了解软件功能，评估是否符合项目需求，并指导如何正确管理和优化许可证使用，以符合预算和需求。1.Halcon软件概述在当今高度自动化的工业时代，机器视觉系统发挥着至关重要的作用。Hal
30周年，不忘初心，砥砺前行 nwcrazysword
2018年12月22日，冬至。时隔六年，全公司员工再次聚在一起，举行30周年庆典。出席大佬中有不少曾经的老前辈，如今也是各大互联网公司领军人物，当晚同坐一堂，心里也是蛮激动的。整晚，虽与大奖无缘，可也算是坐在演唱会一般的舞台前，感受视觉盛宴。
2020-03-16 寻一束光
什么时候开学呢？我还是有些期待，希望孩子们早些进入正常的学习状态。虽然每天听课作业时间安排的比较紧凑，可时间一长，孩子的眼睛撑不住了。视觉疲劳，如果缓解呢？还有小的，虽然每天也能正常上课。作业，看书，可明显没有规律，更多的时间还是想着多看几眼电视，我自己呢，感觉也有些休息的疲惫了，上课做饭，不规律的饮食，一下子让自己失控了。心理和身体，都在失控中。我害怕这样下去，自己变得越发不想出去。看来，什么事
从互相指责到深度对话：重建亲密关系的伦理与艺术北京百思可瑞教育北京百思可瑞教育北京百思可瑞教育咨询有限公司百思可瑞教育心理咨询师北京百思可瑞教育北京百思可瑞教育咨询有限公司百思可瑞教育
从互相指责到深度对话：重建亲密关系的伦理与艺术“你从来不考虑我的感受！”“你总是这样自私！”当亲密关系陷入互相指责的漩涡，这样的对话模式像一把双刃剑，在刺伤对方的同时也割裂着彼此的情感联结。指责的背后，往往藏着未被听见的呼喊与未被满足的需求——那些渴望被理解、被珍视的灵魂诉求。指责的根源常是表达受挫的产物。当一方感到自己的需求被忽视或情感被伤害时，本能地选择攻击对方的人格而非描述自己的感受。一句“
三国萌将风檐展书读_d1b0
全新三国，全新演绎！游戏采用新一代Unity3d引擎、实时打击计算等众多技术，通过最轻松的操作即可体验到策略战斗、双技能战斗、多角色养成和搞笑幽默的三国故事等内容。清新呆萌画风，爆笑穿越剧情，让你尽可任性耍酷扮傻，活力四射。萌趣的风格，反转的故事，为玩家全新打造专属于你的爆笑三国。
遍历dom 并且存储（将每一层的DOM元素存在数组中）换个号韩国红果果 JavaScript html
数组从0开始！！ var a=[],i=0; for(var j=0;j<30;j++){ a[j]=[];//数组里套数组，且第i层存储在第a[i]中 } function walkDOM(n){ do{ if(n.nodeType!==3)//筛选去除#text类型 a[i].push(n); //con
Android+Jquery Mobile学习系列(9)-总结和代码分享白糖_ JQuery Mobile
目录导航经过一个多月的边学习边练手，学会了Android基于Web开发的毛皮，其实开发过程中用Android原生API不是很多，更多的是HTML/Javascript/Css。个人觉得基于WebView的Jquery Mobile开发有以下优点： 1、对于刚从Java Web转型过来的同学非常适合，只要懂得HTML开发就可以上手做事。 2、jquerym
impala参考资料 dayutianfei impala
记录一些有用的Impala资料 1. 入门资料 >>官网翻译： http://my.oschina.net/weiqingbin/blog?catalog=423691 2. 实用进阶 >>代码&架构分析： Impala/Hive现状分析与前景展望：http
JAVA 静态变量与非静态变量初始化顺序之新解周凡杨 java 静态非静态顺序
今天和同事争论一问题，关于静态变量与非静态变量的初始化顺序，谁先谁后，最终想整理出来！测试代码： import java.util.Map; public class T { public static T t = new T(); private Map map = new HashMap(); public T(){ System.out.println(&quo
跳出iframe返回外层页面 g21121 iframe
在web开发过程中难免要用到iframe，但当连接超时或跳转到公共页面时就会出现超时页面显示在iframe中，这时我们就需要跳出这个iframe到达一个公共页面去。首先跳转到一个中间页，这个页面用于判断是否在iframe中，在页面加载的过程中调用如下代码： <script type="text/javascript"> //<!-- function
JAVA多线程监听JMS、MQ队列 510888780 java多线程
背景：消息队列中有非常多的消息需要处理，并且监听器onMessage（）方法中的业务逻辑也相对比较复杂，为了加快队列消息的读取、处理速度。可以通过加快读取速度和加快处理速度来考虑。因此从这两个方面都使用多线程来处理。对于消息处理的业务处理逻辑用线程池来做。对于加快消息监听读取速度可以使用1.使用多个监听器监听一个队列；2.使用一个监听器开启多线程监听。对于上面提到的方法2使用一个监听器开启多线
第一个SpringMvc例子布衣凌宇 spring mvc
第一步：导入需要的包；第二步：配置web.xml文件 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee" xmlns:xsi=
我的spring学习笔记15-容器扩展点之PropertyOverrideConfigurer aijuans Spring3
PropertyOverrideConfigurer类似于PropertyPlaceholderConfigurer，但是与后者相比，前者对于bean属性可以有缺省值或者根本没有值。也就是说如果properties文件中没有某个bean属性的内容，那么将使用上下文（配置的xml文件）中相应定义的值。如果properties文件中有bean属性的内容，那么就用properties文件中的值来代替上下
通过XSD验证XML antlove xml schema xsd validation SchemaFactory
1. XmlValidation.java package xml.validation; import java.io.InputStream; import javax.xml.XMLConstants; import javax.xml.transform.stream.StreamSource; import javax.xml.validation.Schem
文本流与字符集百合不是茶 PrintWrite()的使用字符集名字别名获取
文本数据的输入输出; 输入;数据流,缓冲流输出;介绍向文本打印格式化的输出PrintWrite(); package 文本流; import java.io.FileNotFound
ibatis模糊查询sqlmap-mapping-**.xml配置 bijian1013 ibatis
正常我们写ibatis的sqlmap-mapping-*.xml文件时，传入的参数都用##标识，如下所示： <resultMap id="personInfo" class="com.bijian.study.dto.PersonDTO"> <res
java jvm常用命令工具——jdb命令(The Java Debugger) bijian1013 java jvm jdb
用来对core文件和正在运行的Java进程进行实时地调试，里面包含了丰富的命令帮助您进行调试，它的功能和Sun studio里面所带的dbx非常相似，但 jdb是专门用来针对Java应用程序的。现在应该说日常的开发中很少用到JDB了，因为现在的IDE已经帮我们封装好了，如使用ECLI
【Spring框架二】Spring常用注解之Component、Repository、Service和Controller注解 bit1129 controller
在Spring常用注解第一步部分【Spring框架一】Spring常用注解之Autowired和Resource注解（http://bit1129.iteye.com/blog/2114084）中介绍了Autowired和Resource两个注解的功能，它们用于将依赖根据名称或者类型进行自动的注入，这简化了在XML中，依赖注入部分的XML的编写，但是UserDao和UserService两个bea
cxf wsdl2java生成代码super出错,构造函数不匹配 bitray super
由于过去对于soap协议的cxf接触的不是很多,所以遇到了也是迷糊了一会.后来经过查找资料才得以解决. 初始原因一般是由于jaxws2.2规范和jdk6及以上不兼容导致的.所以要强制降为jaxws2.1进行编译生成.我们需要少量的修改: 我们原来的代码 wsdl2java com.test.xxx -client http://..... 修改后的代
动态页面正文部分中文乱码排障一例 ronin47
公司网站一部分动态页面，早先使用apache+resin的架构运行，考虑到高并发访问下的响应性能问题，在前不久逐步开始用nginx替换掉了apache。不过随后发现了一个问题，随意进入某一有分页的网页，第一页是正常的（因为静态化过了）；点“下一页”，出来的页面两边正常，中间部分的标题、关键字等也正常，唯独每个标题下的正文无法正常显示。因为有做过系统调整，所以第一反应就是新上
java-54- 调整数组顺序使奇数位于偶数前面 bylijinnan java
import java.util.Arrays; import java.util.Random; import ljn.help.Helper; public class OddBeforeEven { /** * Q 54 调整数组顺序使奇数位于偶数前面 * 输入一个整数数组，调整数组中数字的顺序，使得所有奇数位于数组的前半部分，所有偶数位于数组的后半
从100PV到1亿级PV网站架构演变 cfyme 网站架构
一个网站就像一个人，存在一个从小到大的过程。养一个网站和养一个人一样，不同时期需要不同的方法，不同的方法下有共同的原则。本文结合我自已14年网站人的经历记录一些架构演变中的体会。 1：积累是必不可少的架构师不是一天练成的。 1999年，我作了一个个人主页，在学校内的虚拟空间，参加了一次主页大赛，几个DREAMWEAVER的页面，几个TABLE作布局，一个DB连接，几行PHP的代码嵌入在HTM
[宇宙时代]宇宙时代的GIS是什么？ comsci Gis
我们都知道一个事实，在行星内部的时候，因为地理信息的坐标都是相对固定的，所以我们获取一组GIS数据之后，就可以存储到硬盘中，长久使用。。。但是，请注意，这种经验在宇宙时代是不能够被继续使用的宇宙是一个高维时空
详解create database命令 czmmiao database
完整命令 CREATE DATABASE mynewdb USER SYS IDENTIFIED BY sys_password USER SYSTEM IDENTIFIED BY system_password LOGFILE GROUP 1 ('/u01/logs/my/redo01a.log','/u02/logs/m
几句不中听却不得不认可的话 datageek
1、人丑就该多读书。 2、你不快乐是因为：你可以像猪一样懒，却无法像只猪一样懒得心安理得。 3、如果你太在意别人的看法，那么你的生活将变成一件裤衩，别人放什么屁，你都得接着。 4、你的问题主要在于：读书不多而买书太多，读书太少又特爱思考，还他妈话痨。 5、与禽兽搏斗的三种结局：(1)、赢了，比禽兽还禽兽。(2)、输了，禽兽不如。(3)、平了，跟禽兽没两样。结论：选择正确的对手很重要。 6
1 14:00 PHP中的“syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM”错误 dcj3sjt126com PHP
原文地址：http://www.kafka0102.com/2010/08/281.html 因为需要，今天晚些在本机使用PHP做些测试，PHP脚本依赖了一堆我也不清楚做什么用的库。结果一跑起来，就报出类似下面的错误：“Parse error: syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM in /home/kafka/test/
xcode6 Auto layout and size classes dcj3sjt126com ios
官方GUI https://developer.apple.com/library/ios/documentation/UserExperience/Conceptual/AutolayoutPG/Introduction/Introduction.html iOS中使用自动布局（一） http://www.cocoachina.com/ind
通过PreparedStatement批量执行sql语句【sql语句相同，值不同】梦见x光 sql 事务批量执行
比如说：我有一个List需要添加到数据库中，那么我该如何通过PreparedStatement来操作呢？ public void addCustomerByCommit(Connection conn , List<Customer> customerList) { String sql = "inseret into customer(id
程序员必知必会----linux常用命令之十【系统相关】 hanqunfeng Linux常用命令
一.linux快捷键 Ctrl+C : 终止当前命令 Ctrl+S : 暂停屏幕输出 Ctrl+Q : 恢复屏幕输出 Ctrl+U : 删除当前行光标前的所有字符 Ctrl+Z : 挂起当前正在执行的进程 Ctrl+L : 清除终端屏幕，相当于clear 二.终端命令 clear : 清除终端屏幕 reset : 重置视窗，当屏幕编码混乱时使用 time com
NGINX IXHONG nginx
pcre 编译安装 nginx conf/vhost/test.conf upstream admin { server 127.0.0.1:8080; } server { listen 80; &
设计模式--工厂模式 kerryg 设计模式
工厂方式模式分为三种： 1、普通工厂模式：建立一个工厂类，对实现了同一个接口的一些类进行实例的创建。 2、多个工厂方法的模式：就是对普通工厂方法模式的改进，在普通工厂方法模式中，如果传递的字符串出错，则不能正确创建对象，而多个工厂方法模式就是提供多个工厂方法，分别创建对象。 3、静态工厂方法模式：就是将上面的多个工厂方法模式里的方法置为静态，
Spring InitializingBean/init-method和DisposableBean/destroy-method mx_xiehd java spring bean xml
1.initializingBean/init-method 实现org.springframework.beans.factory.InitializingBean接口允许一个bean在它的所有必须属性被BeanFactory设置后，来执行初始化的工作，InitialzingBean仅仅指定了一个方法。通常InitializingBean接口的使用是能够被避免的，（不鼓励使用，因为没有必要
解决Centos下vim粘贴内容格式混乱问题 qindongliang1922 centos vim
有时候，我们在向vim打开的一个xml，或者任意文件中，拷贝粘贴的代码时，格式莫名其毛的就混乱了，然后自己一个个再重新，把格式排列好，非常耗时，而且很不爽，那么有没有办法避免呢？答案是肯定的，设置下缩进格式就可以了，非常简单：在用户的根目录下直接vi ~/.vimrc文件然后将set pastetoggle=<F9> 写入这个文件中，保存退出，重新登录，
netty大并发请求问题 tianzhihehe netty
多线程并发使用同一个channel java.nio.BufferOverflowException: null at java.nio.HeapByteBuffer.put(HeapByteBuffer.java:183) ~[na:1.7.0_60-ea] at java.nio.ByteBuffer.put(ByteBuffer.java:832) ~[na:1.7.0_60-ea]
Hadoop NameNode单点问题解决方案之一 AvatarNode wyz2009107220 NameNode
我们遇到的情况 Hadoop NameNode存在单点问题。这个问题会影响分布式平台24*7运行。先说说我们的情况吧。我们的团队负责管理一个1200节点的集群(总大小12PB)，目前是运行版本为Hadoop 0.20，transaction logs写入一个共享的NFS filer(注：NetApp NFS Filer)。经常遇到需要中断服务的问题是给hadoop打补丁。 DataNod