Apache Druid 中文翻译- 快速开始(Quickstart)

 

在本快速入门中,我们将下载Druid并将其设置在一台计算机上。完成此初始设置后,集群将准备好加载数据。

在开始快速入门之前,阅读常规Druid概述和 摄入概述很有帮助,因为本教程将参考这些页面上讨论的概念。

先决条件

软件

你会需要:

  • Java 8(8u92 +)
  • Linux,Mac OS X或其他类似Unix的操作系统(不支持Windows)

警告:运行Druid需要Java 8。Druid在更高版本的Java上能启动,但无法正常运行。

如果需要,您可以使用环境变量DRUID_JAVA_HOME或指定在哪里找到Java JAVA_HOME。有关更多详细信息,请运行verify-java脚本。

硬件

Druid包含几个示例单服务器配置,以及使用这些配置启动Druid进程的脚本。

如果您在便携式计算机等小型计算机上运行以进行快速评估,则此micro-quickstart配置是不错的选择,其大小适合4CPU / 16GB RAM环境。

如果您打算在教程之外使用单机部署进行进一步评估,我们建议使用比micro-quickstart更大的配置。

入门

下载 0.17.0版本。

通过在终端中运行以下命令来提取Druid:

tar -xzf apache-druid-0.17.0-bin.tar.gz
cd apache-druid-0.17.0

在包里面,您能找到:

  • LICENSENOTICE文件
  • bin/* -此快速入门有用的脚本
  • conf/* -单服务器和集群设置的示例配置
  • extensions/* -核心德鲁伊扩展
  • hadoop-dependencies/* -Druid Hadoop依赖项
  • lib/* -核心Druid的库和依赖项
  • quickstart/* -快速入门教程的配置文件,样本数据和其他文件

启动Druid服务

以下命令将假定您正在使用micro-quickstart单机配置。如果您使用其他配置,则bin目录的每个配置都具有等效的脚本,例如 bin/start-single-server-small

在apache-druid-0.17.0软件包根目录中,运行以下命令:

./bin/start-micro-quickstart
 

这将运行ZooKeeper和Druid服务的实例,它们都在本地计算机上运行,​​例如:

$ ./bin/start-micro-quickstart
[Fri May  3 11:40:50 2019] Running command[zk], logging to[/apache-druid-0.17.0/var/sv/zk.log]: bin/run-zk conf
[Fri May  3 11:40:50 2019] Running command[coordinator-overlord], logging to[/apache-druid-0.17.0/var/sv/coordinator-overlord.log]: bin/run-druid coordinator-overlord conf/druid/single-server/micro-quickstart
[Fri May  3 11:40:50 2019] Running command[broker], logging to[/apache-druid-0.17.0/var/sv/broker.log]: bin/run-druid broker conf/druid/single-server/micro-quickstart
[Fri May  3 11:40:50 2019] Running command[router], logging to[/apache-druid-0.17.0/var/sv/router.log]: bin/run-druid router conf/druid/single-server/micro-quickstart
[Fri May  3 11:40:50 2019] Running command[historical], logging to[/apache-druid-0.17.0/var/sv/historical.log]: bin/run-druid historical conf/druid/single-server/micro-quickstart
[Fri May  3 11:40:50 2019] Running command[middleManager], logging to[/apache-druid-0.17.0/var/sv/middleManager.log]: bin/run-druid middleManager conf/druid/single-server/micro-quickstart
 

所有持久状态(例如集群元数据存储和服务的分段)将保留在varapache-druid-0.17.0软件包根目录下的目录中。服务的日志位于var/sv

如果您想停止服务,请按CTRL-C退出bin/start-micro-quickstart脚本,该脚本将终止Druid进程。

集群启动后,您可以导航到http:// localhost:8888。服务于Druid控制台的Druid路由器进程位于此地址。

Apache Druid 中文翻译- 快速开始(Quickstart)_第1张图片

所有Druid进程完全启动需要花费几秒钟。如果在启动服务后立即打开控制台,则可能会看到一些可以安全忽略的错误。

数据载入(Loading data

教程数据集(Tutorial dataset

对于以下数据加载教程,我们提供了一个示例数据文件,其中包含2015年9月12日发生的Wikipedia页面编辑事件。

此样本数据位于quickstart/tutorial/wikiticker-2015-09-12-sampled.json.gzDruid包根目录。页面编辑事件作为JSON对象存储在文本文件中。

示例数据包含以下几列,示例事件如下所示:

  • added
  • channel
  • cityName
  • comment
  • countryIsoCode
  • countryName
  • deleted
  • delta
  • isAnonymous
  • isMinor
  • isNew
  • isRobot
  • isUnpatrolled
  • metroCode
  • namespace
  • page
  • regionIsoCode
  • regionName
  • user
{
  "timestamp":"2015-09-12T20:03:45.018Z",
  "channel":"#en.wikipedia",
  "namespace":"Main",
  "page":"Spider-Man's powers and equipment",
  "user":"foobar",
  "comment":"/* Artificial web-shooters */",
  "cityName":"New York",
  "regionName":"New York",
  "regionIsoCode":"NY",
  "countryName":"United States",
  "countryIsoCode":"US",
  "isAnonymous":false,
  "isNew":false,
  "isMinor":false,
  "isRobot":false,
  "isUnpatrolled":false,
  "added":99,
  "delta":99,
  "deleted":0,
}
 

数据加载教程

以下教程演示了将数据加载到Druid的各种方法,包括批处理和流用例。所有教程均假定您使用的是上述micro-quickstart单机配置。

  • 加载文件 -本教程演示了如何使用Druid的本地批处理摄取来执行批处理文件加载。
  • 从Apache Kafka加载流数据 -本教程演示了如何从Kafka主题加载流数据。
  • 使用Apache Hadoop加载文件 -本教程演示了如何使用远程Hadoop集群执行批处理文件加载。
  • 编写自己的提取规范 -本教程演示了如何编写新的提取规范并使用它来加载数据。

重置集群状态

如果要在停止服务后重新启动,请删除var目录并bin/start-micro-quickstart再次运行脚本。

每个服务都启动完成后,您就可以加载数据了。

重置kafka

如果您完成了教程:从Kafka加载流数据并希望重置集群状态,则还应该清除所有Kafka状态。

在停止ZooKeeper和Druid服务之前,使用CTRL-C关闭Kafka代理,然后在以下位置删除Kafka日志目录/tmp/kafka-logs

rm -rf /tmp/kafka-logs

你可能感兴趣的:(Apache Druid 中文翻译- 快速开始(Quickstart))