好多关于balltree的博客, 但都说的不清不楚, 看得头大.
先贴一张github上搜来的balltree的节点结构:
lowest_leaf, highest_leaf不知道是什么.
left_child, right_child好解释, 左右节点.
permutation, 好像是存储什么东西的排序, 不懂.
ranges, 存储半径.
centers, 存储圆心/球心.
weights, 权重? 不懂.
dims, 维度, 估计是在叶节点生效的, 用于存储真实点的坐标.
num_points, 存储簇内有多少点.
next=1, 不懂.
balltree是个构建很费时间的树, 但在高维空间上的效果比kdtree效果好. 所以构建和搜索时看到频繁的遍历操作, 请不要惊慌.
空间中散落着很多个点.
任务来了, 给了一个balltree里的点 g ( x , y ) g(x,y) g(x,y), 要求找出它的最近点.
虽然不能直接找到, 但balltree可以帮我们筛掉一部分点不去遍历.
首先, g g g上面肯定是一个小簇, 所以从它下手, 遍历小簇里的所有点,找到最近的那个点 g ′ g' g′.
它虽然不是最近的点, 但既然在一个簇里, 距离也不会拉太大, 所以可以依照它为标准, 寻找更近的点. 这个 g ′ g' g′被大家叫做上界.
怎么找更近的点呢? 你可以以 g g g 为圆心, 以与 g ′ g' g′ 的距离为半径画个圆, 所有在圆内的点中必有最近点. 但我们不可能遍历整个图去看哪些点在圆内, 要是能遍历全图还要balltree干嘛.
思考一下, 如果我画的这个以上界距离为半径 r r r , 以目标点 g ( x , y ) g(x,y) g(x,y)为圆心的圆里存在一个点的话, 那这个点肯定藏在某个簇里对不对? 它藏在簇里, 也就是说藏在那个簇形成的圆里, 也就是说如果这个点存在, 那它应该在我画的圆和已有簇的圆的相交区域里. 至此, 我们可以怀疑, 所有与我们画的圆相交的簇里, 都有可能存在目标点 g g g 的最近点. 这就是balltree分簇画圆的目的.
假如我们根据上界 r r r 和目标点 g g g 画出的圆与某个簇 F F F 画出的圆相交, 就看看它的两个子簇 c h i l d 1 , c h i l d 2 child1, child2 child1,child2 , 我们是否和它们也相交.
假如都没有相交, 因为 F F F 的点都在子簇里, 我们和 F F F 相交的部分就不可能有点, 因为有点必定会与某个子簇相交.
假如和 c h i l d 1 child1 child1 相交, c h i l d 2 child2 child2 不相交, 那就看看 c h i l d 1 child1 child1 里面的两个子簇 g r a n d C h i l d 1 , g r a n d C h i l d 2 grandChild1, grandChild2 grandChild1,grandChild2.
假如和两个 c h i l d child child 都相交, 那就两个下面的子簇都看看.
就这么一直看下去, 直到我们发现我们看到了叶节点. balltree的叶节点里存储的是具体的点, 没有半径和圆心.此时直接拿点出来与目标点计算距离.
当然, 如果还没挖到叶节点, 就找不到相交的圆了, 就说明这一枝不存在相交的点, 直接放弃这一枝的搜索.
不在balltree里, 就没法确定所在的簇, 就没法确定上界, 就没法画出贯穿一切搜索的上界圆.
所以对于这种问题, 目标点必须自己带一个上界, 例如: 求点 A A A在半径为 R R R范围内的最近点.
以下是原论文链接:
Ball*-tree: Efficient spatial indexing for constrained nearest-neighbor search in metric spaces
论文里给出的题设也是如此, 在 4 − 1 4-1 4−1节.
不过为了找到个大概的上界, 倒是可以借助每个簇中必有的点: 观测点.
每个簇都有两个观测点, 分别属于两个子簇. 它在一定程度上反映了当前簇的位置.
如果我每次取簇的两个观测点, 然后每次选择离得比较近的观测点所在的子簇, 到最后会获得一个距离上不是最近但也差不多的点.
这样我就可以以它为上界画圆, 再走一遍balltree.我的代价就是跑了两次tree.