On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving

@[TOC](On the Road with GPT-4V(ision): Early Explorations
of Visual-Language Model on Autonomous Driving)

摘要

对自动驾驶技术的追求取决于感知、决策和控制系统的复杂集成。传统的方法，无论是数据驱动的还是基于规则的，都因无法把握复杂驾驶环境的细微差别和其他道路使用者的意图而受到阻碍。这一直是一个重要的瓶颈，特别是在开发安全可靠的自动驾驶所需的常识推理和细致入微的场景理解方面。视觉语言模型（VLM）的出现代表了实现完全自动驾驶汽车的新前沿。本报告对最新的VLM GPT-4V（Vision）及其在自动驾驶场景中的应用进行了详尽的评估。我们探索模型的能力，理解和推理驾驶场景，作出决定，并最终采取行动的能力的驱动程序。我们的综合测试涵盖了从基本的场景识别到复杂的因果推理和各种条件下的实时决策。我们的研究结果表明，GPT-4V表现出上级性能的场景理解和因果推理相比，现有的自治系统。它展示了在真实的驾驶环境中处理配送外场景、识别意图和做出明智决策的潜力。然而，挑战仍然存在，特别是在方向识别，交通灯识别，视觉基础和空间推理任务。这些局限性突出了进一步研究和开发的必要性。项目现已在GitHub上提供，供感兴趣的各方访问和利用：GitHub添加链接描述

图一：这幅插图展示了从传统自动驾驶管道到GPT-4V等视觉语言模型集成的过渡。这张照片是由DALL·E3生成的。

1.介绍

1.1Motivation and Overview

长期以来，对全自动驾驶汽车的追求一直受到依赖于感知、决策和规划控制系统的管道的限制。传统的方法，无论是基于数据驱动的算法还是基于规则的方法，都在几个关键领域存在不足。具体来说，他们表现出的弱点，准确地感知开放词汇的对象，并努力解释周围的交通参与者的行为意图。其原因在于传统方法只能描述有限采集数据的抽象特征或根据预定规则处理问题，而它们缺乏处理罕见但重要的角落情况的“常识”，并且无法从数据中总结驾驶相关知识以进行细致入微的场景理解和有效的因果推理。

大型语言模型（LLM）的出现，例如GPT-3.5 [12]，GLM [7，24]，Llama [18，19]等，在解决这些问题方面显示出了一线希望。LLM配备了基本的常识推理形式，从而在理解复杂的驾驶场景方面显示出希望。然而，它们在自动驾驶中的应用主要局限于决策和规划阶段[8，20，5，11]。这种限制是由于它们固有的无法处理和理解视觉数据，而视觉数据对于准确感知驾驶环境和安全驾驶车辆至关重要。

GPT-4V [15，16，13，22]是一种前沿的视觉语言模型（VLM），它的最新发展为研究和开发开辟了新的前景。与其前身（GPT-4 [14]）不同，GPT-4V具有强大的图像理解能力，标志着在缩小自动驾驶技术的感知差距方面迈出了重要一步。这一新发现的优势提出了一个问题：GPT-4V能否作为提高自动驾驶中场景理解和因果推理的基石？

在本文中，我们的目的是回答这个关键问题进行详尽的评估GPT-4V的能力。我们的研究深入研究了模型在自动驾驶领域内场景理解和因果推理的复杂方面的表现。通过详尽的测试和深入的分析，我们阐明了GPT-4V的功能和局限性，预计将为研究人员在自动驾驶行业中探索潜在的未来应用提供宝贵的支持。

我们对GPT-4V的能力进行了难度越来越大的测试，从场景理解到推理，最后在真实驾驶场景中测试其作为驾驶员的持续判断和决策能力。我们对GPT-4V在自动驾驶领域的探索主要集中在以下几个方面：

1.情景理解：该测试旨在评估GPT-4V的基本识别能力。它涉及识别驾驶时的天气和照明条件，识别各国的交通信号灯和标志，以及评估不同类型相机拍摄的照片中其他交通参与者的位置和行动。此外，出于好奇心，我们探索了不同视角的模拟图像和点云图像。

2.推理：在测试的这一阶段，我们深入研究了在自动驾驶环境中评估GPT-4V的因果推理能力。这项评价包括几个关键方面。首先，我们仔细研究了它在处理复杂的角落情况下的性能，这通常会挑战数据驱动的感知系统。其次，我们评估了它在提供环绕视图方面的能力，这是自动驾驶应用中的一个重要功能。鉴于GPT-4V无法直接处理视频数据，我们利用连接的时间序列图像作为输入，以衡量其时间相关性的能力。此外，我们还进行了测试，以验证其将真实场景与导航图像相关联的能力，进一步检查其对自动驾驶场景的整体理解。

3.充当司机：为了充分发挥GPT-4V的潜力，我们赋予它经验丰富的驾驶员角色，让它根据环境在真实的驾驶情况下做出决策。我们的方法涉及以一致的帧速率对驾驶视频进行采样，并逐帧将其馈送到GPT-4V。为了帮助其做出决策，我们提供了重要的车辆速度和其他相关信息，并传达了每个视频的驾驶目标。我们要求GPT-4V采取必要的行动，并为其选择提供解释，从而在现实驾驶场景中突破其能力的界限。

总之，我们提供了初步的见解，作为激励未来GPT-4V自动驾驶领域研究工作的基础。基于上述信息，我们使用独特且引人入胜的图像-文本对汇编，有条不紊地构建并展示了我们调查的定性结果。虽然这种方法可能不那么严格，但它提供了进行全面分析的机会。

1.2 Guidance

本文重点介绍自动驾驶领域的测试，采用精选的代表不同驾驶场景的图像和视频。测试样本来自各种渠道，包括开源数据集，如nuScenes [3]，Waymo Open数据集[17]，Berkeley Deep Drive-X（eXplanation）Dataset（BDD-X）[9]，D2-city [4]，Car Crash Dataset（CCD）[2]，TSDD [1]，CODA [10]，ADD [21]以及DAIR-V2X [23]和CitySim [25]等V2X数据集。此外，一些样本来自CARLA [6]仿真环境，其他样本来自互联网。值得注意的是，测试中使用的图像数据可能包括时间戳截至2023年4月的图像，可能与GPT-4V模型的训练数据重叠，而本文中使用的文本查询完全是重新生成的。

本文中详细描述的所有实验均在2023年11月5日之前进行，使用网络托管的GPT-4V（Vision）（9月25日版本）。我们承认，最新版本的GPT-4V在11月6日OpenAI DevDay之后获得了更新，与我们的测试结果相比，当呈现相同的图像时，可能会产生不同的响应。

2.Basic Capability of Scenario Understanding

为了实现安全有效的自动驾驶，一个基本的先决条件是对当前场景的透彻理解。复杂的交通场景包括无数的驾驶条件，每个驾驶条件都有各种各样的交通参与者。对这些元素的准确识别和理解是自动驾驶汽车做出明智和适当驾驶决策的基本能力。在本节中，我们提出了一系列旨在评估GPT-4V理解交通场景的能力的测试。我们专注于两个主要方面：模型对周围环境的理解及其识别各种交通参与者的行为和状态的能力。通过这些评估，我们的目标是揭示GPT-4V的能力，在解释动态交通环境。

2.1 Understanding of Environment

在评估GPT-4V理解周围环境的能力时，我们进行了一系列测试，包括以下关键方面：识别时间的能力，对主要天气条件的理解，以及识别和解释交通信号灯和标志的能力。这些要素在塑造自动驾驶系统的决策过程中具有至关重要的意义。例如，很明显，在夜间或在具有挑战性的天气条件下驾驶需要高度的谨慎，而在白天或在有利的天气条件下，可以采用更悠闲的驾驶策略。此外，交通信号灯和道路标志的正确解释对于自动驾驶系统的有效性至关重要。在本节中，我们使用车辆的前视图像作为主要的视觉输入。这里使用的视觉数据来自nuScenes [3]，D2-city[4]，BDD-X [9]和TSDD [1]。

一天中的时间理解。我们评估GPT-4V的理解时间差异的能力，通过提供白天和夜间的图像。我们指示模型描述这些图像中描绘的交通场景，结果如图2所示。研究结果表明，当呈现白天场景时，GPT-4V成功地将其识别为具有“中等交通”的多车道城市道路。此外，该模型熟练地认识到存在的人行横道上的道路。当面对类似的夜间场景时，GPT-4V的表现甚至更好。它不仅能分辨出时间是“黄昏还是傍晚”，还能检测到远处尾灯亮着的车辆，并推断出“它要么静止不动，要么正在远离你”。

图2：在一天中全面理解时间的能力的结果。绿色突出了理解中的正确答案。查看第2.1节的详细讨论。

图3：识别车辆行驶季节的结果。绿色突出了理解中的正确答案。有关详细讨论，请参阅第2.1节

天气理解天气是影响驾驶行为的重要环境因素。我们从nuScenes [3]数据集中选择了在不同天气条件下在同一个十字路口拍摄的四张照片。我们让GPT-4V负责识别这些图像中描绘的天气状况。结果如图3所示。结果表明，GPT-4V在识别每幅图像中的天气状况（即多云、晴天、阴天和雨天）方面具有显著的准确性。此外，它为这些结论提供了合理的理由，引用了诸如阳光阴影或街道潮湿等因素。

图4：理解红绿灯能力的结果。格林强调了理解中的正确答案。有关详细讨论，请参阅第2.1节。

图5：理解交通灯的能力的结果。绿色表示理解上的正确答案，红色表示理解上的错误答案。查看第2.1节的详细讨论。

交通灯理解交通信号灯的识别在自动驾驶系统的功能中起着关键作用。不正确识别或错过交通信号灯不仅会导致违反交通法规，而且会造成交通事故的严重风险。不幸的是，GPT-4V在该测试中的性能福尔斯不足，如图4和图5所示。在图4中，GPT-4V展示了区分黄色路灯和红色交通灯的能力，特别是在夜间条件下。然而，在图5中，当面对一个较小的交通灯，在图像的远处有一个倒计时计时器时，GPT-4V错误地将倒计时识别为红色，并忽略了真正的2秒红色倒计时。只有当交通灯被放大到占据图像的重要部分时，模型才能提供正确的响应。此外，GPT-4V在随后的测试中出现了错误识别交通信号灯的情况，这对于成熟的自动驾驶系统来说是不可接受的。

交通标志理解交通标志包含司机需要遵守的各种规则和指示。自动驾驶系统可以通过识别交通标志来理解并遵守这些规则，从而降低交通事故的风险，提高驾驶安全性。因此，我们选择了来自新加坡和中国的代表性图像进行测试。从图6中的左侧示例可以看出，该模型可以识别大多数道路标志，包括附近的“SLOW”和远处的高度限制“4.5m”，但它错误地识别了“Speed Bump”标志。右边样本中的三个符号都被正确识别。这表明GPT-4V具有值得称赞的识别交通标志的能力，但仍有进一步改进的余地。

2.2 Understanding of Traffic Participants

准确理解交通参与者的状态和行为是驾驶的基础。现有的自动驾驶系统通常使用各种摄像头和传感器来感知交通参与者，以便获得关于他们的更全面的信息。在本节中，我们评估了GPT-4V使用各种传感器输入（包括2D图像、3D点云可视化以及从V2X设备和自动驾驶模拟软件获取的图像）理解交通参与者行为的能力。这里使用的视觉数据来自nuScenes [3]，ADD [21]，Waymo [17]，DAIR-V2X [23]，CitySim [25]和Carla [6]模拟。

前视图相机照片。为了测试模型的基本识别能力，包括交通参与者识别和车辆计数，我们输入了一系列的驾驶场景的前视图，并获得了GPT-4V的输出结果。从图7的左侧可以看出，该模型可以完整准确地描述驾驶场景：它可以识别行人，交通标志，交通灯状态和周围环境。图7的右侧显示，模型可以识别车辆类型及其尾灯，并可以猜测其打开尾灯的意图。但是，模型在不相关的地方输出了一些不正确的语句，例如认为前面的汽车有后视摄像头。在图8中，对GPT-4V的计数能力进行了测试。

图7：通过前视摄像头照片描述交通参与者的结果。绿色表示理解上的正确答案，红色表示理解上的错误答案，黄色表示执行任务上的无能。查看第2.2节的详细讨论。

图8：通过前视摄像头照片描述交通参与者的结果。绿色表示理解上的正确答案，红色表示理解上的错误答案，黄色表示结果正确但细节错误。查看第2.2节的详细讨论。

利用白天和夜间快照从车辆的前视图，该模型精确地吻合车辆的存在和它们的状态在日光捕捉。相比之下，在夜间条件下，尽管GPT-4V准确地列举了可识别的车辆，但其对每辆车的详细描述有时会达不到福尔斯的准确性。

鱼眼相机照片。鱼眼相机是自动驾驶汽车系统中常用的成像设备，也被用来评估GPT-4V的感知能力。图9中记录了从鱼眼透镜捕获的图像得出的结果。GPT-4V对独特的鱼眼失真表现出令人印象深刻的鲁棒性，并对室内停车环境表现出值得称赞的理解。它可以可靠地识别停放的车辆和附近的行人，尽管有幻觉描述一个不存在的充电站。此外，当被问及用于拍摄照片的潜在设备时，GPT-4V准确地将其识别为鱼眼相机的作品。

图9：通过鱼眼相机拍摄的照片描述交通参与者的结果。绿色表示理解上的正确答案，红色表示理解上的错误答案。查看第2.2节的详细讨论。

点云可视化图像。出于好奇，我们捕获了64线LiDAR点云的两个截图，一个是鸟瞰图，另一个是正视图。虽然在二维图像上压缩点云不可避免地会丢失三维几何信息，但仍然可以识别和分类一些显著特征。测试如图10所示。随后，我们将这两幅图像输入GPT-4V，令我们惊讶的是，它显示出识别其中某些道路和建筑物模式的能力。由于模型以前很少看到这种类型的数据，因此它不可避免地假设鸟瞰图中的圆形图案代表环形交叉路口或中心广场。此外，当负责识别车辆时，该模型在估计场景中的车辆数量方面基本上是成功的。我们还观察到前视图中的计数错误，这是由于某些车辆的轮廓不完整且难以辨别而导致的。通过该试验，证明了该模型处理非常规数据的强大能力。

V2X设备照片。V2X是Vehicle-to-Everything的缩写，它包含一系列技术，使车辆不仅能够相互通信，还能够与基础设施和各种其他实体进行通信。V2X摄像头在捕捉和处理视觉信息方面发挥着关键作用，是这个互联生态系统的一部分。在图11中，我们展示了GPT-4V针对无人机视图照片和两个交叉摄像机图像生成的响应。GPT-4V在所有三种情况下都表现出值得称赞的性能。在无人机视图中，GPT-4V准确地识别出两个方向的高速公路，并识别出位于照片右侧的入口匝道。在十字路口V2X设备视图中，响应识别图像中包含汽车、骑自行车者和行人的混合交通流，以及准确的交通灯识别。

图11：通过V2X设备的照片描述交通参与者的结果。绿色表示理解上的正确答案，红色表示理解上的错误答案。查看第2.2节的详细讨论。

在CARLA模拟器中拍摄的图像。在自动驾驶研究和开发领域，像CARLA这样的模拟器是非常宝贵的工具，它提供了一个可控的虚拟环境，在此可以测试、训练和改进算法，然后再将其部署到现实道路上[6]。我们在CARLA的Town 10地图中拍摄了一系列图像，使用Ego汽车作为主要视点。随后，我们根据这些图像提出了几个问题，结果如图12所示。GPT-4V不仅可以识别这些图像来自模拟软件，还可以展示出对其中虚拟车辆和行人的高度认识。此外，在模拟行人闯红灯的罕见情况下，GPT-4V在其响应中适当地承认了这种情况。然而，值得注意的是，该模型在模拟中仍然难以识别交通信号灯，比如将红灯误认为黄灯。

图12：通过CARLA模拟器中拍摄的图像描述交通参与者的结果。绿色表示理解上的正确答案，红色表示理解上的错误答案。查看第2.2节的详细讨论。

3.Advanced Capability of Reasoning（高级推理能力)

推理是正确驾驶行为的另一个重要特征。由于交通环境的动态性和不可预测性，驾驶员经常会遇到一系列意想不到的事件。熟练的驾驶员在面对这种不可预见的情况时，必须利用他们的经验和常识做出准确的判断和决定。在本节中，我们进行了一系列测试，以评估GPT-4V对意外事件的反应及其在动态环境中导航的能力。

3.1 Corner Cases

在正在进行的自动驾驶研究中，增强系统处理突发事件能力的常用方法是通过持续收集数据。然而，鉴于驾驶环境的动态性、连续性和随机性，所收集的数据只能近似其边界，但永远无法完全封装它，即意外事件是不可避免的。具备常识的人类驾驶员通常能够即兴发挥，并在这些不可预见的情况下安全驾驶。这凸显了不仅要将数据驱动的方法，还要将推理和常识的原则纳入自动驾驶系统的重要性。这里使用的视觉数据来自CODA [10]和互联网。

在本节中，我们精心策划了一组感知角案例，以评估模型的常识推理能力。这些例子故意包括脱离典型分布的物体，通常对传统的感知系统构成挑战，并在决策规划中造成困难。现在，让我们来看看GPT-4V在解决这些问题方面的表现。

在图13的左侧，GPT-4V可以清楚地描述不常见的车辆的外观，地面上的交通锥，以及车辆旁边的工作人员。在识别这些条件后，模型意识到自我汽车可以稍微向左移动，与右侧的工作区域保持安全距离，并谨慎驾驶。在右边的示例中，GPT-4V熟练地识别复杂的交通场景，包括橙子工程车辆、人行道、交通灯和骑自行车的人。当被问及其驾驶策略时，它表达了与工程车辆保持安全距离的意图，并在其通过时执行平稳加速，同时认真观察行人的存在。

图13：GPT-4V在极端情况下做出正确决策的能力的图示。绿色突出了理解中的正确答案。查看第3.1节的详细讨论。

在图14的左侧，GPT-4V可以准确识别出一架飞机在道路上紧急降落，当局正在附近处理情况。对于传统的感知算法来说，如果没有特定的训练，很难识别。在这些条件下，模型知道它应该减速并打开危险灯，同时等待许可通过飞机，然后恢复正常驾驶。在右边的例子中，GPT-4V可以准确识别水泥搅拌车和前方的红灯。它认识到与领头卡车保持安全距离的重要性，直到红灯转变为绿色，此时它继续行驶。

图14：GPT-4V在极端情况下做出正确决策的能力的图示。绿色突出了理解中的正确答案。查看第3.1节的详细讨论。

在图15的左侧，GPT-4V描述了一个场景，其中一个行人伴随着两只狗正在穿过人行横道，位于图像的中心右侧区域。值得注意的是，该模型准确地计算了在场的狗的数量。该模型得出的结论是，车辆应该耐心等待行人和狗清理道路，然后再继续行驶，尽管它仍然无法确定交通灯的状态。值得一提的是，这并不是GPT-4V第一次发生此类事件。右图描绘了夜间交通场景，这是GPT-4V很好地识别的。在这种情况下，模型敏锐地辨别出前方车辆亮起的刹车灯，并注意到行人和骑自行车的人的存在，耐心地等待过马路。它聪明地推断出，它应该保持静止，直到交通信号变成绿色，在继续它的旅程时保持应有的谨慎。

图15：GPT-4V在极端情况下做出正确决策的能力的图示。绿色表示理解上的正确答案，黄色表示执行任务上的无能。查看第3.1节的详细讨论。

3.2 Multi-view Images

通过使用多视角摄像头，GPT-4V可以捕捉驾驶环境的全面视图。精确解释这些相机与图像内重叠区域之间的空间关系对于模型有效利用多视图相机系统的潜力至关重要。在本节中，我们将评估GPT-4V在处理多视图图像方面的能力。本节中的所有数据都来自nuScenes [3]数据集。

在图16中，我们选择了一组周围的图像，并将它们以正确的顺序输入到模型中。该模型能够熟练地识别场景中的各种元素，如建筑物、车辆、障碍物和停车场。它甚至可以从重叠的信息中推断出场景中有两辆汽车，一辆白色SUV位于前方，一辆卡车和一辆拖车位于右侧。虽然该模型的性能一般是令人印象深刻的，一个微不足道的错误是错误识别的行人过街。

图16：GPT-4V推断多视图图像之间关系的能力的图示。绿色突出了理解中的正确答案。查看第3.2节的详细讨论。

在图17所示的另一个实验中，我们类似地采用一组组合的周围图像进行测试。虽然该模型设法提供了对场景的大致准确的描述，但它也出现了一些识别错误，特别是在车辆的数量和形状方面。值得注意的是，该模型产生了一些令人困惑的错觉，例如认为图片上有左转标志。我们假设这些问题可能是由于模型有限的空间推理能力造成的。

图17：GPT-4V推断多视图图像之间关系的能力的图示。绿色表示理解上的正确答案，红色表示理解上的错误答案，黄色表示执行任务上的无能。查看第3.2节的详细讨论。

最后，在图18中，我们展示了正确的前视图，并尝试让GPT-4V识别和排序无序的周围图像。尽管模型执行了大量似乎有意义的分析和推理，但它最终仍然输出了所有错误的答案。很明显，该模型在建立相邻图像之间的连接方面遇到了挑战。我们认识到这项任务的复杂性。

图18：GPT-4V推断多视图图像之间关系的能力的图示。红色表示理解上的错误答案。查看第3.2节的详细讨论。

3.3 Temporal Sequences

在本节中，我们评估GPT-4V在理解时间图像方面的能力。我们的方法包括利用第一人称驾驶视频中的多个序列。从每个视频片段中，我们提取四个关键帧，用序列号标记它们，并将它们联合收割机组合成单个图像以供输入。随后，我们要求GPT-4V描述在这段时间内发生的事件，以及自我车辆采取的行动及其背后的原因。这些示例来自nuScenes [3]，D2-city和Carla [6]模拟。

图19显示了在CARLA的10号镇地图中捕获的视频，其中GPT-4V清楚地解释了由于行人过马路而在人行横道上停下来的自我汽车的动作，就在交通信号灯变红之前。

图19：GPT-4V理解时间序列图像的能力的图示。绿色突出了理解中的正确答案。查看第3.3节的详细讨论。

图20展示了从NuScene数据集[3]中提取的视频片段。在捕获关键帧的过程中，我们分别将标签“1”和“2”分配给领先的SUV和行人。GPT-4V不仅能准确地回答有关这些标签所代表的物体的询问，还能全面解释前面的SUV和行人之间的相互作用。这种相互作用需要行人过马路，而白色SUV则让出通行权。

图20：GPT-4V理解时间序列图像的能力的图示。绿色突出了理解中的正确答案。查看第3.3节的详细讨论。

图22中描绘的视频序列展示了由雨引起的明显的相机闪光。尽管如此，GPT-4V熟练地识别十字路口信号灯和前尾灯。它还推断了红灯变绿色后前车启动的语义信息。然而，重要的是要注意，GPT-4V并不总是能够准确地完全分析时间驾驶场景。

如图21所示，该视频片段捕捉到车辆进行车道变换以超越前方的踏板车。令人遗憾的是，GPT-4V错误地解释了踏板车的行动，好像它是在车辆前面穿过车道，并将车辆的行为误认为是减速以屈服于踏板车。这强调了GPT-4V在时间视频上下文中的空间推理的局限性。同样在图22中，GPT-4V再次将绿色灯误识别为红灯。

图21：GPT-4V理解时间序列图像的能力的图示。绿色表示理解上的正确答案，红色表示理解上的错误答案。查看第3.3节的详细讨论。
图22：GPT-4V理解时间序列图像的能力的图示。绿色表示理解上的正确答案，红色表示理解上的错误答案。查看第3.3节的详细讨论。

3.4 Visual-Map Navigation

在实际驾驶场景中，驾驶员经常利用来自外部设备的辅助信息来增强其决策。例如，地图应用程序可以提供有关道路几何形状和路线指导的详细信息，使驾驶员能够做出更明智和理性的驾驶决策。在本节中，我们为GPT-4V配备了前视摄像头图像和来自地图软件的相应导航信息。这种设置允许GPT-4V描述场景并做出明智的决定，反映了人类驾驶员在类似情况下的方式。

如图23所示，GPT-4V使用前视摄像头和地图APP信息准确定位其位置，随后执行正确的左转机动。它利用前视摄像头对道路状况进行合理评估，并结合地图软件提供的速度信息，提供适当的驾驶建议。

图23：GPT-4V获取信息能力的图示结合了地图APP上的导航和前视摄像头图像。绿色突出了理解中的正确答案。查看第3.4节的详细讨论。

如图24所示，即使在更复杂的情况下，GPT-4V也能够准确地定位自身。然而，在这种特殊情况下，它错误地决定左转。尽管如此，GPT-4V还是展示了基于前视摄像头识别路边停放的汽车和商店信息的熟练程度。它还正确地从地图软件中获得了速度和距离信息。

图24：GPT-4V获取信息能力的图示结合了地图APP上的导航和前视摄像头图像。绿色突出了理解中的正确答案。查看第3.4节的详细讨论。

4.Act as A Driver

自动驾驶算法的最终目标是复制人类驾驶员的决策能力。实现这一目标需要精确识别，空间意识，并深入了解各种交通要素之间的时空关系。在本节中，我们通过测试GPT-4V在五种不同的现实驾驶场景中的决策能力，来评估其在自动驾驶方面的全部潜力。这些场景包括不同的交通状况、一天中的不同时间和多种驾驶任务。在评估过程中，提供了自车速度和其他相关信息，并希望GPT-4V产生的观察和驾驶行动。通过这些精心设计的评估，我们的目标是推动GPT-4V在现实驾驶场景中的能力，揭示其作为未来自动交通驱动力的潜力。

4.1 Driving in Parking Lot

在本节中，我们测试了GPT-4V在封闭区域内的驾驶决策能力。选择的场景是右转离开停车场，这需要通过安全检查。如图25所示，在第一帧中，GPT-4V准确识别影响驾驶的关键要素，如行人和车灯。然而，GPT-4V对于行人和远处车辆的状态具有模糊性。因此，它通过保持低速并准备停车来提供保守的驾驶决策。在第二帧中，GPT-4V检测到行人已经离开，但错误地提到了斑马线的信息。它仍然遵循谨慎的右转驾驶策略。在第三帧中，GPT-4V可以准确地识别诸如门控检查站、警卫亭和围栏等元素，推断车辆正在接近出口并准备停车接受安全检查。在第四帧中，GPT-4V正确识别出安全检查站现在完全打开，因此我们可以安全地离开停车场。

图25：GPT-4V在停车场行驶能力的示意图。绿色突出了理解中的正确答案。红色表示理解上的错误答案。黄色突出了在执行任务时的无能。查看第4.1节的详细讨论。

此外，GPT-4V还可以定位出口区域附近的行人，并建议等待他们安全通过后再慢慢离开。从这个例子中，GPT-4V可以准确地识别封闭区域（如停车场）内的关键元素，包括门控检查站，警卫亭和围栏。此外，GPT-4V了解离开停车场的驾驶程序，这需要等待安全检查并注意行人和车辆。但仍可能出现一些误判，比如错误地提到斑马线。

4.2 Turning at Traffic Intersection

在本节中，我们评估GPT-4V在交通路口的转弯能力。如图26所示，所选场景是交通繁忙的十字路口。在第一帧中，GPT-4V观察到交通灯为绿色，并推断驾驶动作为继续左转。在第二帧中，由于距离和有限的感知场，GPT-4V认为交通灯是不可见的，但它观察到前面的车辆根据它们的尾灯刹车。因此，它的驱动策略是保持目前的位置。在第三帧中，GPT-4V误认为交通灯的状态，认为不允许转弯。在第四帧中，GPT-4V仍然错误的交通灯状态。最后的决定是谨慎左转，同时通过避免与其他车辆和行人碰撞来确保安全。

图26：GPT-4V在交通路口转弯能力的示意图。绿色突出了理解中的正确答案。红色表示理解上的错误答案。查看第4.2节的详细讨论。

本例显示了在十字路口转弯时，GPT-4V会注意交通信号灯和其他车辆的尾灯等各种信息。然而，GPT-4V的能力，以确定在长距离（如遥远的交通灯）的小物体的状态是穷人，这可能会影响其在十字路口的行为决策。

4.3 Turning at Highway Ramp

在本节中，我们测试GPT-4V在高速公路区域行驶的能力。如图27所示，我们选择了一个具有挑战性的场景，其中车辆需要在夜间执行高速公路匝道转弯。在第一帧中，GPT-4V准确地识别出箭头标志和分隔车道线，并从前车的红色尾灯推断出它正在减速。因此，自我车辆应该减速并遵循车道线。在第二帧中，虽然GPT-4V弄错了前面车辆的数量，但它精确地定位了车道线和路标，指示前方左转。因此，GPT-4V建议轻踩刹车，并向左发出信号通知其他司机。在第三帧中，由于夜间能见度有限，GPT-4V仅定位黄色分道器。因此，它建议使用这些分隔线作为参考，在车道线内缓慢驾驶。在第四帧中，GPT-4V准确地确定自我车辆已经进入主公路道路，并观察到其右侧的潜在合并车辆。因此，它决定调整高速公路行驶的速度，同时偶尔在法律的限制内激活远光灯，以扩大夜间能见度范围。

图27：GPT-4V在高速公路坡道转弯能力的图示。绿色突出了理解中的正确答案。红色表示理解上的错误答案。黄色突出了在执行任务时的无能。查看第4.3节的详细讨论。

从这个例子中，我们可以看到，当在高速公路区域行驶时，GPT-4V会跟随路标行驶，并根据周围车辆的状态辅助决策。然而，它在夜间的物体识别和定位方面存在局限性。

4.4 Road Merging

在本节中，我们将评估GPT-4V的车道合并能力。如图28所示，所选场景是在夜间离开主干道并并入坡道。在第一帧中，GPT-4V准确识别车道标记，并确定当前车道正在结束或合并。于是，它决定减速，准备并入右转车道。在此过程中，它错误地识别出附近的医院标志，并谨慎地考虑注意附近的行人和紧急车辆。在第二帧中，GPT-4V正确识别了合并点，并建议平稳地转向车道。在第三帧中，基于车道的变化，GPT-4V预测并道即将结束，同时提醒我们小心其他车辆切入。在第四帧中，GPT-4V确定其已成功并入道路。然而，它错误地检测到一条白色实线，并错误地认为摩托车在同一车道上。最后给出的决定是，注意主干道上的摩托车，必要时调整速度或变道。

图28：GPT-4V并入其他道路的能力示意图。绿色突出了理解中的正确答案。红色表示理解上的错误答案。黄色突出了在执行任务时的无能。查看第4.4节的详细讨论。

从这个例子中可以看出，GPT-4V可以通过观察车道的变化并提供合理的驾驶建议来评估当前的合并进度。然而，在夜间误判路标和车道的可能性仍然增加。总的来说，GPT-4V在车道合并方面倾向于采取保守的方法。

4.5 U-Turning at Traffic Intersection

在本节中，我们将测试GP-4V的U形转弯能力。如图29所示，我们选择在夜间交通繁忙的十字路口执行U形转弯的场景。在第一帧中，GPT-4V准确识别前方其他车辆并提醒本车保持距离，但省略了远处的红绿灯。在第二帧中，GPT-4V仍然无法定位交通灯，但从周围车辆的行为推断可能有控制十字路口的信号。它建议放慢速度，为进入U形转弯做准备。在第三帧中，GPT-4V忽略了时间和空间背景，并将支路上的交通灯误认为是其当前车道的控制信号。因此，它决定继续停止。在第四帧中，GPT-4V仍然错误的交通灯，导致保持静止的位置作为其策略。

图29：GPT-4V在交通路口掉头的能力示意图。绿色突出了理解中的正确答案。红色表示理解上的错误答案。黄色突出了在执行任务时的无能。查看第4.5节的详细讨论。

从这个例子中，我们可以看到，当遇到重大变化的道路结构，如掉头，GPT-4V往往忽略了时间和空间的上下文关系。尽管如此，提供的总体驾驶策略相当保守。

通过上述五项测试，可以观察到GPT-4V已经初步获得了类似于人类驾驶员的决策能力。它可以联合收割机组合各种业务单元的状态（例如，行人、车辆、交通灯、路标、车道），以提供最终的驾驶策略。此外，GPT-4V可以在停车场，十字路口，高速公路和坡道等各种驾驶场景中做出合理的决策。总的来说，GPT-4V表现出对规则和安全意识的强烈遵守，并具有相对保守的驾驶策略。但是，它的驾驶性能仍然存在局限性。例如，它很难确定远处物体（车辆、交通灯）的状态，而且它的感知范围在夜间受到限制。这些限制会影响进一步的驾驶决策。此外，GPT-4V的时空上下文推断能力仍然有限（例如，GPT-4V在有多个红绿灯的掉头场景中会混淆）。

5.总结

5.1 Capabilities of GPT-4V in Autonomous Driving

在本文中，我们对GPT-4V在各种自动驾驶场景中进行了全面和多方面的评估。结果表明，GPT-4V在场景理解、意图识别和驾驶决策等方面具有超越现有自动驾驶系统的潜力。

在极端情况下，GPT-4V利用其先进的理解能力来处理分布外的场景，并可以准确地评估周围交通参与者的意图。GPT-4V利用多视图图像和时间照片来实现对环境的完整感知，准确识别交通参与者之间的动态交互。此外，它还可以推断出这些行为背后的潜在动机。正如第4节所强调的，我们还见证了GPT-4V在开放道路上做出连续决策的性能。它甚至可以以类似人类的方式解释导航应用程序的用户界面，帮助和指导驾驶员的决策过程。

总的来说，GPT-4V的性能证明了视觉语言模型（VLM）在解决自动驾驶领域复杂挑战方面的巨大潜力。

5.2 Limitations of GPT-4V in Autonomous Driving

然而，在我们的测试中，我们还发现GPT-4V在以下任务上表现不佳：

区分左右：如图17所示，有些情况下模型难以识别方向，这是自主导航的一个关键方面。在图8和图21中也观察到类似的问题。这些数字突出了模型在解释复杂路口或做出换道决定时偶尔出现的混乱。

交通灯识别：在图12、15、22、26和29中观察到问题。我们怀疑这个问题是由于包含在完整的图像中的广泛的语义信息，导致在交通灯的嵌入信息的损失。当图像中的交通灯区域被裁剪并单独输入时，模型能够成功识别，如图5所示。
Vision Grounding tasks：如图7所示，GPT-4V发现很难指定像素级坐标或边界框，只能指示图像中的近似区域。

空间推理：准确的空间推理对于自动驾驶汽车的安全操作至关重要。无论是如图18所示的多视图图像的拼接，还是如图21所示的踏板车和自动驾驶汽车之间的相对位置关系的估计，GPT-4V都难以做出精确的判断。这可能源于基于二维图像输入理解和解释三维空间的固有复杂性。

此外，模型对非英语交通标志的解释也存在问题，这在标志上使用多种语言的地区构成了挑战。在拥挤的环境中，重叠的对象可能会发生计数交通参与者的准确性也被认为是不太可靠的。

总之，上述局限性表明，即使是最先进的视觉语言模型（VLM）目前表现出的基本方向识别和交通灯识别的缺陷，以及缺乏3D空间推理能力。此外，VLM很难在各种场景中准确定位关键实体，这表明它们还不是现有自动驾驶管道中使用的感知方法的合适替代品。然而，值得注意的是，VLM表现出对流量常识的深刻理解，以及在非分布情况下的强大泛化能力。展望未来，一个关键的发展领域将是将VLM固有的常识知识与传统的自动驾驶感知技术相结合。此外，确保VLM输出的安全性和可靠性仍然是一个重要的持续挑战。

你可能感兴趣的:(论文阅读,自动驾驶,语言模型,人工智能,自然语言处理)

美团自动配送车2024春季招聘 | 社招专场美团技术团队
关于美团自动配送团队美团自动配送以自研L4级自动驾驶软硬件技术为核心，与美团即时零售业务结合，形成满足公开道路、校园、社区、工业园区等室外全场景下的自动配送整体解决方案。美团自动配送团队成立于2016年，团队成员来自于Waymo、Cruise、Pony.ai、泛亚等自动驾驶行业头部公司，自动驾驶技术团队博士占比高达30%，依靠视觉、激光等传感器，实时感知预测周围环境，通过高精地图定位和智能决策规划
Ai插件脚本合集安装包，免费教程视频网盘分享全网优惠分享君
随着人工智能技术的不断发展，越来越多的插件脚本涌现出来，为我们的生活和工作带来了便利。然而，如何快速、方便地获取和使用这些插件脚本呢？今天，我将为大家分享一个非常实用的资源——AI插件脚本合集安装包，以及免费教程视频网盘分享。首先，让我们来了解一下这个AI插件脚本合集安装包。它是一个集合了众多AI插件脚本的资源包，涵盖了各种领域，如数据分析、自动化办公、智能客服等等。通过这个安装包，用户可以轻松地
过去一年，这16本好书不容错过 m0_54050778 perl
编者按：2023年在动荡与希望中收尾，2023年注定会被载入史册。疫情寒冬结束，ChatGPT横空出世，带动了人工智能技术的飞速发展；淄博烧烤、天津大爷、尔滨之旅等充满感动与幸福。但与此同时，2023年又是动荡与不安的一年，俄乌冲突的延宕，新一轮的巴以冲突，极端天气频发。在这个大环境下，有一些经典的书籍著作诞生。本文将分享2023年最值得一读的16本书籍，文章来自翻译，希望对你有所启示。关于202
UNDERSTANDING HTML WITH LARGE LANGUAGE MODELS liferecords LLM 语言模型人工智能自然语言处理
UNDERSTANDINGHTMLWITHLARGELANGUAGEMODELS相关链接：arXiv关键字：大型语言模型、HTML理解、Web自动化、自然语言处理、机器学习摘要大型语言模型（LLMs）在各种自然语言任务上表现出色。然而，它们在HTML理解方面的能力——即解析网页的原始HTML，对于自动化基于Web的任务、爬取和浏览器辅助检索等应用——尚未被充分探索。我们为HTML理解模型（经过微调
ChatGPT技巧大揭秘：AI写代码新境界 2401_83550420 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达ChatGPT技巧大揭秘：AI写代码新境界随着人工智能技术的不断进步，开发人员现在有了更多有趣的工具来提高他们的工作效率。其中，ChatGPT作为一种基于深度学习的自然语言处理模型，已经成为许多开发者的新宠。在本文中，我们将揭秘使用ChatGPT来帮助编写代码的技巧，探索AI在编程领域的新境界。ChatGPT简介ChatGPT是一种基于大型神经网络的对话生成模型，它
ChatGPT：AI合作伙伴助你成为论文写作高手 2401_83550420 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达摘要：本文将介绍ChatGPT3.5Turbo（以下简称ChatGPT），一款强大的AI合作伙伴，能够助你成为一名论文写作高手。我们将深入探讨ChatGPT的特点、优势，并提供多个示例，展示ChatGPT在论文写作中的应用。无论是开展研究、撰写论文、还是与ChatGPT进行互动交流，都能够帮助你提升写作效率和质量。引言：随着人工智能的发展，聊天型语言模型在各个领域都
AI大模型学习：开启智能时代的新篇章游向大厂的咸鱼人工智能学习
随着人工智能技术的不断发展，AI大模型已经成为当今领先的技术之一，引领着智能时代的发展。这些大型神经网络模型，如OpenAI的GPT系列、Google的BERT等，在自然语言处理、图像识别、智能推荐等领域展现出了令人瞩目的能力。然而，这些模型的背后是一系列复杂的学习过程，深度学习技术的不断演进推动了AI大模型学习的发展。首先，AI大模型学习的基础是深度学习技术。深度学习是一种模仿人类大脑结构的机器
OpenCV（一个C++人工智能领域重要开源基础库）简介愚梦者 OpenCV 人工智能人工智能 opencv c++图像处理计算机视觉开源
返回：OpenCV系列文章目录（持续更新中......）上一篇：OpenCV4.9.0配置选项参考下一篇：OpenCV4.9.0开源计算机视觉库安装概述引言：OpenCV（全称OpenSourceComputerVisionLibrary）是一个基于开放源代码发行的跨平台计算机视觉库，可以用来进行图像处理、计算机视觉和机器学习等领域的开发。该库由英特尔公司于1999年开始开发，最初是为了加速处理器
【循环神经网络rnn】一篇文章讲透 CX330的烟花 rnn 人工智能深度学习算法 python 机器学习数据结构
目录引言二、RNN的基本原理代码事例三、RNN的优化方法1长短期记忆网络（LSTM）2门控循环单元（GRU）四、更多优化方法1选择合适的RNN结构2使用并行化技术3优化超参数4使用梯度裁剪5使用混合精度训练6利用分布式训练7使用预训练模型五、RNN的应用场景1自然语言处理2语音识别3时间序列预测六、RNN的未来发展七、结论引言众所周知，CNN与循环神经网络（RNN）或生成对抗网络（GAN）等算法结
ChatGPT：智能论文写作指南，让您成为写作高手 AI臻蚌 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达写作是学术研究中不可或缺的一环，然而，对于许多人来说，写作往往是一项艰巨而费时的任务。但是，现在有了ChatGPT，您将能够以前所未有的速度和准确性编写高质量的论文。本文将向您介绍如何利用ChatGPT的强大功能成为写作高手，并为您提供一些示例，展示其在不同领域的应用。1.简介ChatGPT是一种基于人工智能的语言模型，它可以理解并生成人类语言。通过训练大量的语料库
ChatGPT神技：AI成为你的编程良友 2401_83481083 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达ChatGPT神技：AI成为你的编程良友近年来，人工智能技术的发展迅猛，ChatGPT作为其中一项创新技术，正逐渐走进我们的生活。在编程领域，AI不仅可以助力我们提高效率，还能成为我们的良友，帮助解决各种编程难题。一、ChatGPT简介ChatGPT是一种基于自然语言处理技术的人工智能模型，它能够生成类人对话。ChatGPT通过深度学习模型，能够理解输入的文本并生成
数字逻辑不可能涌现出智能 dog250 人工智能
先看一系列竖式乘法的步骤：相乘的两个数数位越大，步骤越多。如果不纠结数制，二进制运算也是这回事，把单个步骤用一个晶体管表达(其实一个步骤不止一个晶体管)，数位越大，所需的晶体管越多。先说结论，所有基于n进制的逻辑运算都不可扩展。硅基时序电路可如此巧妙完成精确计算，开启了数字化时代，人们试图将AI构建在这二进制世界。但若二进制运算不可扩展，基于数字逻辑的人工智能就不可能。前面提到过，二进制运算本质上
AI推介-大语言模型LLMs论文速览（arXiv方向）：2024.03.20-2024.03.25 小小帅AIGC LLMs论文时报人工智能语言模型自然语言处理 LLM 大语言模型论文推送深度学习
文章目录~1.IterativeRefinementofProject-LevelCodeContextforPreciseCodeGenerationwithCompilerFeedback2.TrustAIatSemEval-2024Task8:AComprehensiveAnalysisofMulti-domainMachineGeneratedTextDetectionTechniques
AI推介-大语言模型LLMs论文速览（arXiv方向）：2024.02.20-2024.02.25 小小帅AIGC LLMs论文时报人工智能语言模型深度学习 LLM 大语言模型论文推送
论文目录~1.Zero-shotcross-lingualtransferininstructiontuningoflargelanguagemodel2.ScalingEfficientLLMs3.LLM-DA:DataAugmentationviaLargeLanguageModelsforFew-ShotNamedEntityRecognition4.WhoseLLMisitAnyway?L
让数据说话：人工智能与六西格玛的完美结合张驰课堂人工智能六西格玛
当人工智能与六西格玛结合，企业可以充分利用人工智能技术的数据处理、预测分析和智能决策支持能力，实现数据驱动的决策、质量控制和流程优化，从而提高企业的效率和竞争力。下面张驰咨询给大家具体的介绍：1、数据驱动决策六西格玛侧重于数据分析和决策制定，而人工智能可以提供更强大的数据处理和分析能力。通过人工智能技术，可以自动收集和整理大量的数据，并进行有效的数据挖掘和模式识别。这些数据分析结果可以为六西格玛项
Prompts（一） george_xu4 大模型 prompt
提示工程提示工程（PromptEngineering）是一门较新的学科，关注提示词开发和优化，帮助用户将大语言模型（LargeLanguageModel,LLM）用于各场景和研究领域。掌握了它的奥秘，你便能洞悉LLM的无限潜能与潜在限制，从而更好地驾驭它。研究人员运用提示工程的魔力，为LLM注入了处理复杂任务场景的新活力。问答、算术推理，这些曾让LLM头疼不已的挑战，如今在精心设计的提示词引导下，
《论文阅读》EmpDG：多分辨率交互式移情对话生成 COLING 2020 365JHWZGo 情感对话论文阅读共情回复回复生成对话系统多分辨率对抗学习
《论文阅读》EmpDG：多分辨率交互式移情对话生成COLING2020前言简介模型架构共情生成器交互鉴别器损失函数前言亲身阅读感受分享，细节画图解释，再也不用担心看不懂论文啦~无抄袭，无复制，纯手工敲击键盘~今天为大家带来的是《EmpDG:Multi-resolutionInteractiveEmpatheticDialogueGeneration》出版：COLING时间：2020类型：共情回复关
智合同如何助力建筑行业合同智能化管理智合同（小智）合同智能应用 AI技术降本增效提质人工智能自然语言处理知识图谱深度学习大数据
#建筑行业#人工智能#AI#合同智能应用#深度学习#自然语言处理技术#知识图谱智合同-采用深度学习、自然语言处理技术、知识图谱等人工智能技术，为企业提供专业的合同相关的智能服务。其主要服务包含：合同智能审查、合同要素智能提取、合同版本对比、合同智能起草、ICR智能识别、合同履约追踪、文本一致性对比、广告审查、合同范本库等服务。智合同在助力建筑行业合同智能化管理方面具有显著的优势。首先，智合同利用A
AI原生安全亚信安全首个“人工智能安全实用手册”开放阅览亚信安全官方账号安全网络 web安全人工智能大数据
不断涌现的AI技术新应用和大模型技术革新，让我们感叹从没有像今天这样，离人工智能的未来如此之近。追逐AI原生？企业组织基于并利用大模型技术探索和开发AI应用的无限可能，迎接生产与业务模式的全面的革新。我们更应关心AI安全原生。实施人工智能是一项复杂又长远的任务，任何希望利用大模型的组织在设计之初，都必须将安全打入地基，安全一定是AI技术发展的核心要素。针对人工智能和大模型面临的威胁与攻击模式，亚信
开发chrome扩展（禁止指定域名使用插件）徐同保 chrome 前端
mainfest.json:{"manifest_version":3,"name":"ChatGPT学习","version":"0.0.2","description":"ChatGPT,GPT-4,Claude3,Midjourney,StableDiffusion,AI,人工智能,AI","icons":{"16":"./images/logo.png","48":"./images/lo
ai智能语音机器人的出现未来电销行业会如何发展？ VO_794632978 WX-794632978 语音机器人人工智能机器人交互语音识别大数据
人工智能和移动互联网技术的发展，对于很多行业都产生了颠覆性的影响。而对于电销这一重复度较高的行业来说，也是产生了巨大的推动作用。对于传统电销人来说，电销机器人可以帮助你提高销售效率，提高影响客户的能力和转化率，将你过去繁琐简单无效的需要个人做的工作，都交给机器，让你的时间和精力，放在重要的客户和有创造性的事情上。我们一起来看看都有哪些发展。自动化程度提高：AI机器人能够不间断地工作，自动拨打电话、
请介绍一下大数据主要是干什么的？决策支持预测分析用户行为分析个性化服务操作优化风险管理创新与产品开发加拿大卡尔加里大学历史背景学术结构研究和创新校园设施盛溪的猫猫感悟大数据英语加拿大
目录请介绍一下大数据主要是干什么的？决策支持预测分析用户行为分析个性化服务操作优化风险管理创新与产品开发加拿大卡尔加里大学历史背景学术结构研究和创新校园设施国际化学生生活大语言模型目前的问题卡尔加里经济地理和气候文化和活动教育交通绿色城市AVL树的旋转单右旋（LL旋转）单左旋（RR旋转）左右旋（LR旋转）右左旋（RL旋转）请介绍一下大数据主要是干什么的？大数据是一个涉及从极其庞大和复杂的数据集中提
GEE在灾害预警中的遥感云大数据应用及GPT模型辅助分析 AIzmjl GPT 生态遥感大数据 gpt gee 灾害预警水体湿地遥感
随着遥感技术的快速发展，云大数据在灾害、水体与湿地领域的应用日益广泛。通过遥感云大数据，我们能够实时获取灾害发生地的影像信息，为灾害预警、应急响应提供有力支持。同时，在水体与湿地监测方面，遥感云大数据也发挥着重要作用，帮助我们了解水体的分布、变化以及湿地的生态状况。近年来，GPT模型在自然语言处理领域取得了显著成果，其强大的文本生成和理解能力为遥感云大数据的应用提供了新的可能。通过将GPT模型与遥
生成式AI竞赛：开源还是闭源，谁将主宰未来？新加坡内哥谈技术人工智能
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/对于一些行业观察家来说，这场战斗似乎还没开始就已结束。当ChatGPT成为有史以来增长最
从政府工作报告探计算机行业发展想你依然心痛个人总结与成长规划行业发展前景
文章目录每日一句正能量前言以“数”谋新、加“数”向实人工智能方面人工智能成核心驱动引擎软件方面通信方面后记每日一句正能量该来的始终会来，千万别太着急，如果你失去了耐心，就会失去更多。该走过的路总是要走过的，从来不要认为你走错了路，哪怕最后转了一个大弯。这条路上你看到的风景总是特属于你自己的，没有人能夺走它。前言2024年的两会是中国政治日历上一次重要的会议，吸引了全球的目光。在这次两会中，计算机行
ego - 人工智能原生 3D 模拟引擎——基于AI的3D引擎，可以做游戏、空间计算、元宇宙等项目花生糖@ AIGC学习资源人工智能游戏空间计算
1.产品概述：Ego是一款AI本地化的3D模拟引擎，旨在让非技术创作者通过自然语言生成逼真的角色、3D世界和交互式脚本。该平台提供了创建和分享游戏、虚拟世界和交互体验的功能。2.定位：Ego定位于解决开放世界游戏和模拟的三大难题：难以编写游戏脚本、非玩家角色无法展现人类行为以及创建新的3D资产和世界的难度。通过AI技术，Ego致力于让用户可以用自然语言创建复杂的游戏和交互体验。3.创始人背景：创始
异常GPT：使用LVLMs检测工业异常 DUT_LYH gpt 人工智能算法
AnomalyGPT：利用LVLMs进行工业异常检测摘要本文介绍了一种名为AnomalyGPT的新型工业异常检测方法，该方法基于大型视觉语言模型(LVLMs)。AnomalyGPT能够检测并定位图像中的异常，无需手动设置阈值。此外，AnomalyGPT还可以提供与图像相关的详细信息，以交互方式与用户进行交流。本文详细阐述了AnomalyGPT的模型架构、解码器、提示学习器以及异常模拟方法，并在Vi
关于车路协同的几个观点 chenmingdai
关于车路协同现在有三个说法，第一个说法就是谷歌公司、苹果公司和特斯拉公司认为的所有的自动驾驶车辆在路上行驶的时候仅依赖于车自身的传感器和智能去行驶。第二个观点就是微软公司和国内的一些公司推动车联网C-V2X。也就是说车在路上行驶的时候依赖于网络为车车之间提供一些信息，为车辆行驶提供一些调度和服务信息。第三个观点就是现在大家通常说的车路要协同。也就是说车辆在行驶过程中不但要网络通信，而且还要与路直接
Python中的并发编程：多线程与多进程的比较【第124篇—多线程与多进程的比较】一键难忘 python java 服务器并发编程多线程多进程
发现宝藏前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。【点击进入巨牛的人工智能学习网站】。Python中的并发编程：多线程与多进程的比较在Python编程领域中，处理并发任务是提高程序性能的关键之一。本文将探讨Python中两种常见的并发编程方式：多线程和多进程，并比较它们的优劣之处。通过代码实例和详细的解析，我们将深入了解这两种方法的适用场景和潜在问题。多线程
最新ChatGPT支持下的PyTorch机器学习与深度学习 zkzhzy ChatGPT 机器学习 python 机器学习深度学习 pytorch chatgpt 数据分析人工智能
近年来，随着AlphaGo、无人驾驶汽车、医学影像智慧辅助诊疗、ImageNet竞赛等热点事件的发生，人工智能迎来了新一轮的发展浪潮。尤其是深度学习技术，在许多行业都取得了颠覆性的成果。另外，近年来，Pytorch深度学习框架受到越来越多科研人员的关注和喜爱。郁磊（副教授）主要从事AI人工智能、大语言模型及软件开发、生理系统建模与仿真、生物医学信号处理，具有丰富的科研经验，主编《MATLAB智能算
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s