Spark SQL 教程翻译（三） Data Sources

文章目录

Data Sources
- Generic Load/Save Functions
- - Manually Specifying Options
  - Run SQL on files directly
  - Save Modes
  - Saving to Persistent Tables
  - Bucketing, Sorting and Partitioning
- Parquet Files
- - Loading Data Programmatically
  - Partition Discovery
  - Schema Merging
  - Hive metastore Parquet table conversion
  - - Hive/Parquet Schema Reconciliation
    - Metadata Refreshing
  - Configuration
- ORC Files
- JSON Datasets
- Hive Tables
- - Specifying storage format for Hive tables
  - Interacting with Different Versions of Hive Metastore
- JDBC To Other Databases
- Troubleshooting

Data Sources

Spark SQL 支持通过 DataFrame 接口对多种数据源进行操作。可以使用关系转换对 DataFrame 进行操作，也可以用于创建临时视图。将 DataFrame 注册为临时视图允许您对其数据运行 SQL 查询。本节介绍使用 Spark 数据源加载和保存数据的一般方法，然后介绍可用于内置数据源的特定选项。

Generic Load/Save Functions

在最简单的形式中，所有操作都将使用默认数据源（parquet，除非由 spark.sql.sources.default 另行配置）。

val usersDF = spark.read.load("examples/src/main/resources/users.parquet")
usersDF.select("name", "favorite_color").write.save("namesAndFavColors.parquet")

Manually Specifying Options

您还可以手动指定将与要传递给数据源的任何额外选项一起使用的数据源。数据源由它们的完全限定名称指定（即 org.apache.spark.sql.parquet），但对于内置源，您也可以使用它们的短名称（json、parquet、jdbc、orc、libsvm、csv、text）。从任何数据源类型加载的 DataFrame 都可以使用此语法转换为其他类型。

val peopleDF = spark.read.format("json").load("examples/src/main/resources/people.json")
peopleDF.select("name", "age").write.format("parquet").save("namesAndAges.parquet")

To load a CSV file you can use:

val peopleDFCsv = spark.read.format("csv")
  .option("sep", ";")
  .option("inferSchema", "true")
  .option("header", "true")
  .load("examples/src/main/resources/people.csv")

Run SQL on files directly

除了使用读取 API 将文件加载到 DataFrame 并进行查询之外，您还可以直接使用 SQL 查询该文件。

val sqlDF = spark.sql("SELECT * FROM parquet.`examples/src/main/resources/users.parquet`")

Save Modes

保存操作可以选择采用 SaveMode，它指定如何处理现有数据（如果存在）。重要的是要意识到这些保存模式不使用任何锁定并且不是原子的。此外，执行覆盖时，数据将在写出新数据之前被删除（先删除后写入的方式）。

Scala/Java	Any Language	Meaning
`SaveMode.ErrorIfExists` (default)	`"error" or "errorifexists"` (default)	将DataFrame保存到数据源时，如果数据已经存在，预计会抛出异常。
`SaveMode.Append`	`"append"`	将 DataFrame 保存到数据源时，如果数据/表已存在，则希望将 DataFrame 的内容附加到现有数据中。
`SaveMode.Overwrite`	`"overwrite"`	将 DataFrame 保存到数据源时，如果数据/表已存在，则希望将 DataFrame 的内容附加到现有数据中。
`SaveMode.Ignore`	`"ignore"`	忽略模式是指在将DataFrame 保存到数据源时，如果数据已经存在，则保存操作预计不会保存DataFrame 的内容，也不会更改现有数据。这类似于 SQL 中的`CREATE TABLE IF NOT EXISTS`。

Saving to Persistent Tables

也可以使用 saveAsTable 命令将数据帧作为持久表保存到 Hive 元存储中。请注意，使用此功能不需要现有的 Hive 部署。 Spark 将为您创建一个默认的本地 Hive 元存储（使用 Derby）。与 createOrReplaceTempView 命令不同，saveAsTable 将具体化 DataFrame 的内容并创建一个指向 Hive 元存储中数据的指针。即使您的 Spark 程序重新启动，持久表仍然存在，只要您保持与同一个元存储的连接。可以通过使用表的名称调用 SparkSession 上的 table 方法来创建持久表的 DataFrame。

对于基于文件的数据源，例如 text、parquet、json 等，您可以通过 path 选项指定自定义表路径，例如 df.write.option("path", "/some/path").saveAsTable("t").删除表时，不会删除自定义表路径，表数据仍然存在。如果未指定自定义表路径，Spark 会将数据写入到仓库目录下的默认表路径中。当表被删除时，默认的表路径也将被删除。

从 Spark 2.1 开始，持久数据源表将每个分区的元数据存储在 Hive 元存储中。这带来了几个好处：

由于 Metastore 可以仅返回查询所需的分区，因此不再需要在对表的第一个查询中发现所有分区。
ALTER TABLE PARTITION … SET LOCATION 等 Hive DDL 现在可用于使用数据源 API 创建的表。

请注意，在创建外部数据源表（具有路径选项的表）时，默认情况下不会收集分区信息。要同步 Metastore 中的分区信息，您可以调用 MSCK REPAIR TABLE。

Bucketing, Sorting and Partitioning

对于基于文件的数据源，还可以对输出进行存储分区和排序或分区。分桶和排序仅适用于持久表：

peopleDF.write.bucketBy(42, "name").sortBy("age").saveAsTable("people_bucketed")

当使用数据集 API 时，分区可以与 save 和 saveAsTable 一起使用。

usersDF.write.partitionBy("favorite_color").format("parquet").save("namesPartByColor.parquet")

可以对单个表同时使用分区和分桶：

usersDF
  .write
  .partitionBy("favorite_color")
  .bucketBy(42, "name")
  .saveAsTable("users_partitioned_bucketed")

partitionBy 创建一个目录结构，如 Partition Discovery 部分所述。因此，它对具有高基数的列的适用性有限。相比之下，bucketBy将数据分布在固定数量的存储桶中，并且可以在多个唯一值无界时使用。

Parquet Files

Parquet 是一种列格式，许多其他数据处理系统都支持该格式。 Spark SQL 支持读取和写入 Parquet 文件，自动保留原始数据的模式。写入 Parquet 文件时，出于兼容性原因，所有列都会自动转换为可为空。

Loading Data Programmatically

// Encoders for most common types are automatically provided by importing spark.implicits._
import spark.implicits._

val peopleDF = spark.read.json("examples/src/main/resources/people.json")

// DataFrames can be saved as Parquet files, maintaining the schema information
peopleDF.write.parquet("people.parquet")

// Read in the parquet file created above
// Parquet files are self-describing so the schema is preserved
// The result of loading a Parquet file is also a DataFrame
val parquetFileDF = spark.read.parquet("people.parquet")

// Parquet files can also be used to create a temporary view and then used in SQL statements
parquetFileDF.createOrReplaceTempView("parquetFile")
val namesDF = spark.sql("SELECT name FROM parquetFile WHERE age BETWEEN 13 AND 19")
namesDF.map(attributes => "Name: " + attributes(0)).show()
// +------------+
// |       value|
// +------------+
// |Name: Justin|
// +------------+

Partition Discovery

表分区是 Hive 等系统中常用的优化方法。在分区表中，数据通常存储在不同的目录中，分区列值编码在每个分区目录的路径中。所有内置文件源（包括 Text/CSV/JSON/ORC/Parquet）都能够自动发现和推断分区信息。例如，我们可以使用以下目录结构将所有以前使用的人口数据存储到分区表中，并添加两个额外的列，性别和国家作为分区列：

path
└── to
    └── table
        ├── gender=male
        │   ├── ...
        │   │
        │   ├── country=US
        │   │   └── data.parquet
        │   ├── country=CN
        │   │   └── data.parquet
        │   └── ...
        └── gender=female
            ├── ...
            │
            ├── country=US
            │   └── data.parquet
            ├── country=CN
            │   └── data.parquet
            └── ...

通过将 path/to/table 传递给 SparkSession.read.parquet 或 SparkSession.read.load，Spark SQL 将自动从路径中提取分区信息。现在返回的 DataFrame 的模式变为：

root
|-- name: string (nullable = true)
|-- age: long (nullable = true)
|-- gender: string (nullable = true)
|-- country: string (nullable = true)

请注意，分区列的数据类型是自动推断的。目前，支持数字数据类型、日期、时间戳和字符串类型。有时用户可能不想自动推断分区列的数据类型。对于这些用例，可以通过 spark.sql.sources.partitionColumnTypeInference.enabled 配置自动类型推断，默认为 true。当类型推断被禁用时，字符串类型将用于分区列。

从 Spark 1.6.0 开始，分区发现默认只查找给定路径下的分区。对于上面的示例，如果用户将 path/to/table/gender=male 传递给 SparkSession.read.parquet 或 SparkSession.read.load，则性别不会被视为分区列。如果用户需要指定开始分区发现的基本路径，可以在数据源选项中设置basePath。比如path/to/table/gender=male是数据的路径，用户设置basePath为path/to/table/时`，gender就是一个分区列。

Schema Merging

与 ProtocolBuffer、Avro 和 Thrift 一样，Parquet 也支持模式演化。用户可以从一个简单的架构开始，然后根据需要逐渐向架构添加更多列。这样，用户最终可能会得到多个具有不同但相互兼容的模式的 Parquet 文件。 Parquet 数据源现在能够自动检测这种情况并合并所有这些文件的模式。

由于模式合并是一项相对昂贵的操作，并且在大多数情况下不是必需的，因此我们从 1.5.0 开始默认关闭它。您可以通过以下方式启用它

读取 Parquet 文件时将数据源选项 mergeSchema设置为true（如下例所示），或
将全局 SQL 选项 spark.sql.parquet.mergeSchema 设置为 true。

// This is used to implicitly convert an RDD to a DataFrame.
import spark.implicits._

// Create a simple DataFrame, store into a partition directory
val squaresDF = spark.sparkContext.makeRDD(1 to 5).map(i => (i, i * i)).toDF("value", "square")
squaresDF.write.parquet("data/test_table/key=1")

// Create another DataFrame in a new partition directory,
// adding a new column and dropping an existing column
val cubesDF = spark.sparkContext.makeRDD(6 to 10).map(i => (i, i * i * i)).toDF("value", "cube")
cubesDF.write.parquet("data/test_table/key=2")

// Read the partitioned table
val mergedDF = spark.read.option("mergeSchema", "true").parquet("data/test_table")
mergedDF.printSchema()

// The final schema consists of all 3 columns in the Parquet files together
// with the partitioning column appeared in the partition directory paths
// root
//  |-- value: int (nullable = true)
//  |-- square: int (nullable = true)
//  |-- cube: int (nullable = true)
//  |-- key: int (nullable = true)

Hive metastore Parquet table conversion

在读取和写入 Hive 元存储 Parquet 表时，Spark SQL 将尝试使用其自己的 Parquet 支持而不是 Hive SerDe 以获得更好的性能。此行为由 spark.sql.hive.convertMetastoreParquet 配置控制，默认开启。

Hive/Parquet Schema Reconciliation

从表模式处理的角度来看，Hive 和 Parquet 之间有两个主要区别。

Hive 不区分大小写，而 Parquet 不区分大小写
Hive 认为所有列都可以为空，而 Parquet 中的可空性很重要

由于这个原因，在将 Hive Metastore Parquet 表转换为 Spark SQL Parquet 表时，我们必须协调 Hive Metastore 模式与 Parquet 模式。对账规则如下：

无论是否为空，在两个架构中具有相同名称的字段都必须具有相同的数据类型。 Reconciled 字段应该具有 Parquet 端的数据类型，以便考虑可空性。
协调的架构包含在 Hive 元存储架构中定义的那些字段。
- 仅出现在 Parquet 模式中的任何字段都将被删除到协调模式中。
- 仅出现在 Hive 元存储架构中的任何字段都添加为协调架构中的可为空字段。

Metadata Refreshing

Spark SQL 缓存 Parquet 元数据以获得更好的性能。当启用 Hive Metastore Parquet 表转换时，这些转换表的元数据也会被缓存。如果这些表是由 Hive 或其他外部工具更新的，您需要手动刷新它们以确保一致的元数据

// spark is an existing SparkSession
spark.catalog.refreshTable("my_table")

Configuration

Parquet 的配置可以使用 SparkSession 上的 setConf 方法或通过使用 SQL 运行 SET key=value 命令来完成。

Property Name	Default	Meaning
`spark.sql.parquet.binaryAsString`	false	Some other Parquet-producing systems, in particular Impala, Hive, and older versions of Spark SQL, do not differentiate between binary data and strings when writing out the Parquet schema. This flag tells Spark SQL to interpret binary data as a string to provide compatibility with these systems.
`spark.sql.parquet.int96AsTimestamp`	true	Some Parquet-producing systems, in particular Impala and Hive, store Timestamp into INT96. This flag tells Spark SQL to interpret INT96 data as a timestamp to provide compatibility with these systems.
`spark.sql.parquet.compression.codec`	snappy	Sets the compression codec used when writing Parquet files. If either `compression` or `parquet.compression` is specified in the table-specific options/properties, the precedence would be `compression`, `parquet.compression`, `spark.sql.parquet.compression.codec`. Acceptable values include: none, uncompressed, snappy, gzip, lzo.
`spark.sql.parquet.filterPushdown`	true	Enables Parquet filter push-down optimization when set to true.
`spark.sql.hive.convertMetastoreParquet`	true	When set to false, Spark SQL will use the Hive SerDe for parquet tables instead of the built in support.
`spark.sql.parquet.mergeSchema`	false	When true, the Parquet data source merges schemas collected from all data files, otherwise the schema is picked from the summary file or a random data file if no summary file is available.

ORC Files

从 Spark 2.3 开始，Spark 支持矢量化 ORC 阅读器，为 ORC 文件提供新的 ORC 文件格式。为此，新增了以下配置。当 spark.sql.orc.impl 设置为 native 并且 spark.sql.orc.enableVectorizedReader 设置为true 时，矢量化读取器用于本地 ORC 表（例如，使用子句 USING ORC 创建的表）。对于 Hive ORC serde 表（例如，使用子句 USING HIVE OPTIONS (fileFormat 'ORC') 创建的表），当 spark.sql.hive.convertMetastoreOrc 也设置为true 时使用矢量化读取器。

Property Name	Default	Meaning
`spark.sql.orc.impl`	`hive`	The name of ORC implementation. It can be one of `native` and `hive`. `native` means the native ORC support that is built on Apache ORC 1.4.1. `hive` means the ORC library in Hive 1.2.1.
`spark.sql.orc.enableVectorizedReader`	`true`	Enables vectorized orc decoding in `native` implementation. If `false`, a new non-vectorized ORC reader is used in `native` implementation. For `hive` implementation, this is ignored.

JSON Datasets

Spark SQL 可以自动推断 JSON 数据集的模式并将其作为 Dataset[Row] 加载。可以在 Dataset[String] 或 JSON 文件上使用 SparkSession.read.json() 完成此转换。

请注意，作为 json 文件提供的文件不是典型的 JSON 文件。每行必须包含一个单独的、自包含的有效 JSON 对象。有关更多信息，请参阅 JSON 行文本格式，也称为换行符分隔的 JSON。

对于常规的多行 JSON 文件，将 multiLine 选项设置为true。

// Primitive types (Int, String, etc) and Product types (case classes) encoders are
// supported by importing this when creating a Dataset.
import spark.implicits._

// A JSON dataset is pointed to by path.
// The path can be either a single text file or a directory storing text files
val path = "examples/src/main/resources/people.json"
val peopleDF = spark.read.json(path)

// The inferred schema can be visualized using the printSchema() method
peopleDF.printSchema()
// root
//  |-- age: long (nullable = true)
//  |-- name: string (nullable = true)

// Creates a temporary view using the DataFrame
peopleDF.createOrReplaceTempView("people")

// SQL statements can be run by using the sql methods provided by spark
val teenagerNamesDF = spark.sql("SELECT name FROM people WHERE age BETWEEN 13 AND 19")
teenagerNamesDF.show()
// +------+
// |  name|
// +------+
// |Justin|
// +------+

// Alternatively, a DataFrame can be created for a JSON dataset represented by
// a Dataset[String] storing one JSON object per string
val otherPeopleDataset = spark.createDataset(
  """{"name":"Yin","address":{"city":"Columbus","state":"Ohio"}}""" :: Nil)
val otherPeople = spark.read.json(otherPeopleDataset)
otherPeople.show()
// +---------------+----+
// |        address|name|
// +---------------+----+
// |[Columbus,Ohio]| Yin|
// +---------------+----+

Hive Tables

Spark SQL 还支持读取和写入存储在 Apache Hive 中的数据。但是，由于 Hive 具有大量依赖项，因此默认 Spark 发行版中不包含这些依赖项。如果在类路径上可以找到 Hive 依赖项，Spark 将自动加载它们。请注意，这些 Hive 依赖项也必须存在于所有工作节点上，因为它们需要访问 Hive 序列化和反序列化库 (SerDes) 才能访问存储在 Hive 中的数据。

Hive 的配置是通过将 hive-site.xml、core-site.xml（用于安全配置）和 hdfs-site.xml（用于 HDFS 配置）文件放在 conf/ 中来完成的。

使用 Hive 时，必须使用 Hive 支持实例化 SparkSession，包括与持久 Hive 元存储的连接、对 Hive serdes 的支持和 Hive 用户定义函数。没有现有 Hive 部署的用户仍然可以启用 Hive 支持。 hive-site.xml没有配置时，context会在当前目录自动创建metastore_db，并创建spark.sql.warehouse.dir配置的目录，默认为Spark应用当前目录下的目录spark-warehouse开始了。请注意，自 Spark 2.0.0 起，hive-site.xml 中的 hive.metastore.warehouse.dir 属性已弃用。相反，使用spark.sql.warehouse.dir指定数据库在仓库中的默认位置。您可能需要向启动 Spark 应用程序的用户授予写入权限。

import java.io.File

import org.apache.spark.sql.{Row, SaveMode, SparkSession}

case class Record(key: Int, value: String)

// warehouseLocation points to the default location for managed databases and tables
val warehouseLocation = new File("spark-warehouse").getAbsolutePath

val spark = SparkSession
  .builder()
  .appName("Spark Hive Example")
  .config("spark.sql.warehouse.dir", warehouseLocation)
  .enableHiveSupport()
  .getOrCreate()

import spark.implicits._
import spark.sql

sql("CREATE TABLE IF NOT EXISTS src (key INT, value STRING) USING hive")
sql("LOAD DATA LOCAL INPATH 'examples/src/main/resources/kv1.txt' INTO TABLE src")

// Queries are expressed in HiveQL
sql("SELECT * FROM src").show()
// +---+-------+
// |key|  value|
// +---+-------+
// |238|val_238|
// | 86| val_86|
// |311|val_311|
// ...

// Aggregation queries are also supported.
sql("SELECT COUNT(*) FROM src").show()
// +--------+
// |count(1)|
// +--------+
// |    500 |
// +--------+

// The results of SQL queries are themselves DataFrames and support all normal functions.
val sqlDF = sql("SELECT key, value FROM src WHERE key < 10 ORDER BY key")

// The items in DataFrames are of type Row, which allows you to access each column by ordinal.
val stringsDS = sqlDF.map {
  case Row(key: Int, value: String) => s"Key: $key, Value: $value"
}
stringsDS.show()
// +--------------------+
// |               value|
// +--------------------+
// |Key: 0, Value: val_0|
// |Key: 0, Value: val_0|
// |Key: 0, Value: val_0|
// ...

// You can also use DataFrames to create temporary views within a SparkSession.
val recordsDF = spark.createDataFrame((1 to 100).map(i => Record(i, s"val_$i")))
recordsDF.createOrReplaceTempView("records")

// Queries can then join DataFrame data with data stored in Hive.
sql("SELECT * FROM records r JOIN src s ON r.key = s.key").show()
// +---+------+---+------+
// |key| value|key| value|
// +---+------+---+------+
// |  2| val_2|  2| val_2|
// |  4| val_4|  4| val_4|
// |  5| val_5|  5| val_5|
// ...

// Create a Hive managed Parquet table, with HQL syntax instead of the Spark SQL native syntax
// `USING hive`
sql("CREATE TABLE hive_records(key int, value string) STORED AS PARQUET")
// Save DataFrame to the Hive managed table
val df = spark.table("src")
df.write.mode(SaveMode.Overwrite).saveAsTable("hive_records")
// After insertion, the Hive managed table has data now
sql("SELECT * FROM hive_records").show()
// +---+-------+
// |key|  value|
// +---+-------+
// |238|val_238|
// | 86| val_86|
// |311|val_311|
// ...

// Prepare a Parquet data directory
val dataDir = "/tmp/parquet_data"
spark.range(10).write.parquet(dataDir)
// Create a Hive external Parquet table
sql(s"CREATE EXTERNAL TABLE hive_ints(key int) STORED AS PARQUET LOCATION '$dataDir'")
// The Hive external table should already have data
sql("SELECT * FROM hive_ints").show()
// +---+
// |key|
// +---+
// |  0|
// |  1|
// |  2|
// ...

// Turn on flag for Hive Dynamic Partitioning
spark.sqlContext.setConf("hive.exec.dynamic.partition", "true")
spark.sqlContext.setConf("hive.exec.dynamic.partition.mode", "nonstrict")
// Create a Hive partitioned table using DataFrame API
df.write.partitionBy("key").format("hive").saveAsTable("hive_part_tbl")
// Partitioned column `key` will be moved to the end of the schema.
sql("SELECT * FROM hive_part_tbl").show()
// +-------+---+
// |  value|key|
// +-------+---+
// |val_238|238|
// | val_86| 86|
// |val_311|311|
// ...

spark.stop()

Specifying storage format for Hive tables

当你创建一个 Hive 表时，你需要定义这个表应该如何从/向文件系统读/写数据，即“输入格式”和“输出格式”。您还需要定义该表应如何将数据反序列化为行，或将行序列化为数据，即“serde”。以下选项可用于指定存储格式（“serde”、“输入格式”、“输出格式”），例如CREATE TABLE src(id int) USING hive OPTIONS(fileFormat 'parquet')。默认情况下，我们将以纯文本形式读取表文件。请注意，创建表时尚不支持 Hive 存储处理程序，您可以在 Hive 端使用存储处理程序创建表，并使用 Spark SQL 读取它。

Property Name	Meaning
`fileFormat`	fileFormat 是一种存储格式规范的包，包括“serde”、“输入格式”和“输出格式”。目前我们支持 6 种文件格式：‘sequencefile’、‘rcfile’、‘orc’、‘parquet’、‘textfile’ 和 ‘avro’。
`inputFormat, outputFormat`	这 2 个选项将相应的 `InputFormat` 和 `OutputFormat` 类的名称指定为字符串文字，例如 `org.apache.hadoop.hive.ql.io.orc.OrcInputFormat`。这两个选项必须成对出现，如果你已经指定了`fileFormat`选项，则不能指定它们。
`serde`	此选项指定 serde 类的名称。当指定`fileFormat` 选项时，如果给定的`fileFormat` 已经包含serde 的信息，则不要指定该选项。当前“sequencefile”、“textfile”和“rcfile”不包含serde 信息，您可以将此选项用于这3 种文件格式。
`fieldDelim, escapeDelim, collectionDelim, mapkeyDelim, lineDelim`	这些选项只能与“textfile”文件格式一起使用。它们定义了如何将分隔文件读入行。

使用 OPTIONS 定义的所有其他属性将被视为 Hive serde 属性。

Interacting with Different Versions of Hive Metastore

Spark SQL 的 Hive 支持最重要的部分之一是与 Hive 元存储的交互，这使 Spark SQL 能够访问 Hive 表的元数据。从 Spark 1.4.0 开始，Spark SQL 的单个二进制构建可用于查询不同版本的 Hive 元存储，使用如下所述的配置。请注意，独立于用于与 Metastore 对话的 Hive 版本，Spark SQL 在内部将针对 Hive 1.2.1 进行编译，并使用这些类进行内部执行（serdes、UDF、UDAF 等）。

以下选项可用于配置用于检索元数据的 Hive 版本：

Property Name	Default	Meaning
`spark.sql.hive.metastore.version`	`1.2.1`	Hive 元存储的版本。可用选项是`0.12.0`到`1.2.1`。
`spark.sql.hive.metastore.jars`	`builtin`	应该用于实例化 HiveMetastoreClient 的 jar 的位置。此属性可以是以下三个选项之一：`builtin`Use Hive 1.2.1，当启用 `-Phive` 时，它与 Spark 程序集捆绑在一起。选择此选项时，`spark.sql.hive.metastore.version` 必须为 `1.2.1` 或未定义。`maven`使用从 Maven 存储库下载的指定版本的 Hive jar。通常不建议将此配置用于生产部署。JVM 标准格式的类路径。该类路径必须包含所有 Hive 及其依赖项，包括正确版本的 Hadoop。这些 jars 只需要出现在驱动程序上，但是如果您在纱线集群模式下运行，那么您必须确保它们与您的应用程序打包在一起。
`spark.sql.hive.metastore.sharedPrefixes`	`com.mysql.jdbc,org.postgresql,com.microsoft.sqlserver,oracle.jdbc`	应使用在 Spark SQL 和特定版本的 Hive 之间共享的类加载器加载的类前缀的逗号分隔列表。应该共享的类的一个示例是与 Metastore 对话所需的 JDBC 驱动程序。其他需要共享的类是那些与已经共享的类交互的类。例如，log4j 使用的自定义 appender。
`spark.sql.hive.metastore.barrierPrefixes`	`(empty)`	应该为 Spark SQL 与之通信的每个 Hive 版本显式重新加载的类前缀的逗号分隔列表。例如，在通常会共享的前缀中声明的 Hive UDF（即`org.apache.spark.*`）。

JDBC To Other Databases

Spark SQL 还包括一个数据源，可以使用 JDBC 从其他数据库读取数据。这个功能应该优于使用 JdbcRDD。这是因为结果作为 DataFrame 返回，它们可以在 Spark SQL 中轻松处理或与其他数据源连接。 JDBC 数据源也更易于从 Java 或 Python 使用，因为它不需要用户提供 ClassTag。（请注意，这与 Spark SQL JDBC 服务器不同，后者允许其他应用程序使用 Spark SQL 运行查询）。

首先，您需要在 spark 类路径中包含特定数据库的 JDBC 驱动程序。例如，要从 Spark Shell 连接到 postgres，您需要运行以下命令：

bin/spark-shell --driver-class-path postgresql-9.4.1207.jar --jars postgresql-9.4.1207.jar

可以使用数据源 API 将远程数据库中的表作为 DataFrame 或 Spark SQL 临时视图加载。用户可以在数据源选项中指定 JDBC 连接属性。 user和password通常作为用于登录数据源的连接属性提供。除了连接属性之外，Spark 还支持以下不区分大小写的选项：

Property Name	Meaning
`url`	要连接到的 JDBC URL。可以在 URL 中指定特定于源的连接属性。e.g., `jdbc:postgresql://localhost/test?user=fred&password=secret`
`dbtable`	应该读取的 JDBC 表。请注意，可以使用在 SQL 查询的`FROM`子句中有效的任何内容。例如，您还可以使用括号中的子查询来代替完整的表。
`driver`	用于连接到此 URL 的 JDBC 驱动程序的类名。
`partitionColumn, lowerBound, upperBound`	如果指定了其中任何选项，则必须全部指定这些选项。此外，必须指定`numPartitions`。他们描述了从多个workers并行读取时如何对表进行分区。 `partitionColumn` 必须是相关表中的数字列。请注意，`lowerBound` 和 `upperBound` 仅用于决定分区步长，而不是用于过滤表中的行。所以表中的所有行都将被分区并返回。此选项仅适用于阅读。
`numPartitions`	可用于表读写并行的最大分区数。这也决定了并发 JDBC 连接的最大数量。如果要写入的分区数超过此限制，我们会在写入前调用 `coalesce(numPartitions)` 将其减少到此限制。
`fetchsize`	JDBC 提取大小，它确定每次往返要提取多少行。这有助于提高 JDBC 驱动程序的性能，这些驱动程序默认为低提取大小（例如，具有 10 行的 Oracle）。此选项仅适用于阅读。
`batchsize`	JDBC 批处理大小，它确定每次往返插入的行数。这有助于提高 JDBC 驱动程序的性能。此选项仅适用于写入。它默认为“1000”。
`isolationLevel`	事务隔离级别，适用于当前连接。它可以是 `NONE`、`READ_COMMITTED`、`READ_UNCOMMITTED`、`REPEATABLE_READ` 或 `SERIALIZABLE` 之一，对应于 JDBC Connection 对象定义的标准事务隔离级别，默认为 `READ_UNCOMMITTED`。此选项仅适用于写入。请参考 `java.sql.Connection` 中的文档。
`sessionInitStatement`	在每个数据库会话打开到远程 DB 之后和开始读取数据之前，此选项执行自定义 SQL 语句（或 PL/SQL 块）。使用它来实现会话初始化代码。示例：`option("sessionInitStatement", """BEGIN execute quiet 'alter session set "_serial_direct_read"=true'; END;""")`
`truncate`	这是一个与 JDBC 编写器相关的选项。启用`SaveMode.Overwrite`时，此选项会导致 Spark 截断现有表，而不是删除并重新创建它。这可以更有效，并防止表元数据（例如，索引）被删除。但是，它在某些情况下不起作用，例如当新数据具有不同的架构时。它默认为`false`。此选项仅适用于写入。
`createTableOptions`	这是一个与 JDBC 编写器相关的选项。如果指定，此选项允许在创建表时设置特定于数据库的表和分区选项（例如，`CREATE TABLE t (name string) ENGINE=InnoDB.`）。此选项仅适用于写入。
`createTableColumnTypes`	创建表时要使用的数据库列数据类型而不是默认值。数据类型信息应以与 CREATE TABLE 列语法相同的格式指定（例如：`"name CHAR(64), comments VARCHAR(1024)"）`。指定的类型应该是有效的 spark sql 数据类型。此选项仅适用于写入。
`customSchema`	用于从 JDBC 连接器读取数据的自定义架构。例如，`"id DECIMAL(38, 0), name STRING"`。您也可以指定部分字段，其他字段使用默认类型映射。例如，`"id DECIMAL(38, 0)"`。列名应与JDBC 表对应的列名一致。用户可以指定 Spark SQL 的对应数据类型，而不是使用默认值。此选项仅适用于阅读。

// Note: JDBC loading and saving can be achieved via either the load/save or jdbc methods
// Loading data from a JDBC source
val jdbcDF = spark.read
  .format("jdbc")
  .option("url", "jdbc:postgresql:dbserver")
  .option("dbtable", "schema.tablename")
  .option("user", "username")
  .option("password", "password")
  .load()

val connectionProperties = new Properties()
connectionProperties.put("user", "username")
connectionProperties.put("password", "password")
val jdbcDF2 = spark.read
  .jdbc("jdbc:postgresql:dbserver", "schema.tablename", connectionProperties)
// Specifying the custom data types of the read schema
connectionProperties.put("customSchema", "id DECIMAL(38, 0), name STRING")
val jdbcDF3 = spark.read
  .jdbc("jdbc:postgresql:dbserver", "schema.tablename", connectionProperties)

// Saving data to a JDBC source
jdbcDF.write
  .format("jdbc")
  .option("url", "jdbc:postgresql:dbserver")
  .option("dbtable", "schema.tablename")
  .option("user", "username")
  .option("password", "password")
  .save()

jdbcDF2.write
  .jdbc("jdbc:postgresql:dbserver", "schema.tablename", connectionProperties)

// Specifying create table column data types on write
jdbcDF.write
  .option("createTableColumnTypes", "name CHAR(64), comments VARCHAR(1024)")
  .jdbc("jdbc:postgresql:dbserver", "schema.tablename", connectionProperties)

Troubleshooting

JDBC 驱动程序类必须对客户端会话和所有执行程序上的原始类加载器可见。这是因为 Java 的 DriverManager 类进行了一项安全检查，导致它在打开连接时忽略原始类加载器不可见的所有驱动程序。一种方便的方法是修改所有工作节点上的 compute_classpath.sh 以包含您的驱动程序 JAR。
某些数据库，例如 H2，将所有名称都转换为大写。您需要使用大写字母来引用 Spark SQL 中的这些名称。

你可能感兴趣的:(Spark,翻译,大数据,spark)

【OpenModelica】4命令行大全 Wumbuk python 开发语言 modelica
命令行大全文章目录命令行大全一、SummaryofCommandsfortheInteractiveSessionHandler二、Runningthecompilerfromcommandline一、SummaryofCommandsfortheInteractiveSessionHandler以下是交互式会话处理器中当前可用命令的完整列表。•simulate(modelname)：翻译一个名为
数据分析：低代码平台助力大数据时代的飞跃发展快乐非自愿数据分析低代码大数据
随着信息技术的突飞猛进，我们身处于一个数据量空前增长的时代——大数据时代。在这个时代背景下，数据分析已经成为企业决策、政策制定、科学研究等众多领域不可或缺的重要工具。然而，面对海量的数据和日益复杂多变的分析需求，传统的数据分析方法往往捉襟见肘，难以应对。幸运的是，低代码平台的兴起为大数据分析注入了新的活力，成为推动大数据时代发展的重要力量。低代码平台，顾名思义，是一种通过少量甚至无需编写代码，就能
读书笔记《穿越寒冬》如雪般飞舞
各位好，我们今天来讲一本书，名字叫作《穿越寒冬》。看起来特别应景，大家觉得现在创业的状况不景气，大家都在忍受着寒冬的煎熬。但实际上，这本书的英文名字并不是这个意思，它的英文名叫作“如何创立一家新公司，并且能够活下来”。我在整个读完了以后，我发现这本书真正要翻译得好，它的名字应该叫作《创业生存手册》。这个书的作者，来自硅谷的霍夫曼船长。霍夫曼船长写过一本让创业者觉得特别贴心的书，叫作《让大象飞》它和
过去一年，这16本好书不容错过 m0_54050778 perl
编者按：2023年在动荡与希望中收尾，2023年注定会被载入史册。疫情寒冬结束，ChatGPT横空出世，带动了人工智能技术的飞速发展；淄博烧烤、天津大爷、尔滨之旅等充满感动与幸福。但与此同时，2023年又是动荡与不安的一年，俄乌冲突的延宕，新一轮的巴以冲突，极端天气频发。在这个大环境下，有一些经典的书籍著作诞生。本文将分享2023年最值得一读的16本书籍，文章来自翻译，希望对你有所启示。关于202
Apache Kafka的伸缩性探究：实现高性能、弹性扩展的关键 i289292951 kafka kafka
引言ApacheKafka作为当今最流行的消息中间件之一，以其强大的伸缩性著称。在大数据处理、流处理和实时数据集成等领域，Kafka的伸缩性为其在面临急剧增长的数据流量和多样化业务需求时提供了无与伦比的扩展能力。本文将深入探讨Kafka如何通过其独特的架构设计实现高水平的伸缩性，以及在实际部署中如何优化和利用这一特性。一、Kafka伸缩性的核心设计分区（Partitioning）与水平扩展Kafk
Azkaban各种类型的Job编写 __元昊__
一、概述原生的Azkaban支持的plugin类型有以下这些：command：Linuxshell命令行任务gobblin：通用数据采集工具hadoopJava：运行hadoopMR任务java：原生java任务hive：支持执行hiveSQLpig：pig脚本任务spark：spark任务hdfsToTeradata：把数据从hdfs导入TeradatateradataToHdfs：把数据从Te
MPI4.1文档5-语言绑定、进程、错误处理、progress和实现 whyte王 MPI4.1文档详解 MPI MPI4 HPC 高性能计算
本博客参考官方文档进行介绍，全网仅此一家进行中文翻译，走过路过不要错过。官方网址：https://www.mpi-forum.org/参考文档：https://www.mpi-forum.org/docs/mpi-4.1/mpi41-report.pdf引用官方4.1文档方法：@manual{mpi41,author="{MessagePassingInterfaceForum}",title="
山东省大数据局副局长禹金涛一行莅临聚合数据走访调研聚合数据 API 大数据人工智能 API
3月19日，山东省大数据局党组成员、副局长禹金涛莅临聚合数据展开考察调研。山东省大数据局数据应用管理与安全处处长杨峰，副处长都海明参加调研，苏州市大数据局副局长汤晶陪同。聚合数据董事长左磊等人接待来访。调研组一行参观了聚合数据展厅，了解了聚合数据的发展历程、数据产品、应用案例、奖项荣誉等情况。并就企业在数据处理和应用方面取得的成绩进行了深入交流。作为最早一批进入大数据行业的企业，聚合数据深耕行业十
CDH 启停使用HiveServer2 金刚_30bf
翻译：https://www.cloudera.com/documentation/enterprise/latest/topics/cdh_ig_hiveserver2_start_stop.html版本：5.14.2HiveServer2是HiveServer的改进版本，支持Kerberos身份验证和多客户端并发访问。您可以使用Beeline客户端访问HiveServer2。警告：如果以远程模
智慧公厕的先进技术应用中期科技ZONTREE 智慧厕所智慧公厕智慧城市
公共厕所一直以来都是城市管理中一个重要的工作，但设施老化、环境脏乱、服务质量低下等问题一直困扰着城市居民。然而，随着科技的进步和数字技术的应用，智慧公厕的建设正在改变这一现状。智慧公厕通过对所在辖区内所有公共厕所的全域感知、全网协同、全业务融合和全场景智慧的赋能，“千厕一云”的公共厕所云管理模式应运而生。智慧公厕的云端多屏管理，将各个公厕连接在一起，实现信息的共享和管理的集中化。通过大数据、云计算
配音怎么学，配音投稿有哪些平台配音新手圈
一、配音学习的方法为了学习配音技巧，可以采取以下方法：1.注册配音学习培训班，跟随专业老师学习基本的配音知识和技巧。兼职副业推荐公众号，配音新手圈，声优配音圈，新配音兼职圈，配音就业圈，鼎音副业，有声新手圈，每天更新各种远程工作与在线兼职，职位包括：写手、程序开发、剪辑、设计、翻译、配音、无门槛、插画、翻译、等等。。。每日更新兼职。2.多观察、模仿优秀的配音演员，学习他们的表演风格和声音技巧。3.
在线云客服兼职，网上客服兼职在家怎么做?怎么去应聘? 声优配音圈
现在的年轻人越来越注重自主、自由，也更加注重个人时间的规划。在家兼职是符合这种趋势的一种方式，而阿里巴巴云客服作为一种在家兼职，以其稳定和高效获得了一定的关注度。下面兼职网给大家详细介绍一下。兼职副业推荐公众号，配音新手圈，声优配音圈，新配音兼职圈，配音就业圈，鼎音副业，有声新手圈，每天更新各种远程工作与在线兼职，职位包括：写手、程序开发、剪辑、设计、翻译、配音、无门槛、插画、翻译、等等。。。每日
关于HDP的20道高级运维面试题编织幻境的妖运维
1.描述HDP的主要组件及其作用。HDP（HortonworksDataPlatform）的主要组件包括Hadoop框架、HDFS、MapReduce、YARN以及Hadoop生态系统中的其他关键工具，如Spark、Flink、Hive、HBase等。以下是对这些组件及其作用的具体描述：Hadoop框架:Hadoop是一个开源的分布式计算框架，用Java语言编写，用于存储和处理大规模数据集。它广义
自媒体运营培训机构，全媒体运营师配音新手圈
一、自媒体运营培训的重要性自媒体运营培训对于想要在自媒体领域发展的人来说非常重要。兼职副业推荐公众号，配音新手圈，声优配音圈，新配音兼职圈，配音就业圈，鼎音副业，有声新手圈，每天更新各种远程工作与在线兼职，职位包括：写手、程序开发、剪辑、设计、翻译、配音、无门槛、插画、翻译、等等。。。每日更新兼职。通过培训，可以了解自媒体运营的基本原理和技巧，提高自己的运营能力和实战经验。二、如何选择合适的自媒体
做的副业到底有哪些，如何通过副业赚钱声优配音圈
网上搜了很多副业，例如：短视频带货、直播带货、写作、开滴滴、送外卖、做任务、代驾、视频剪辑等等。兼职副业推荐公众号，配音新手圈，声优配音圈，新配音兼职圈，配音就业圈，鼎音副业，有声新手圈，每天更新各种远程工作与在线兼职，职位包括：写手、程序开发、剪辑、设计、翻译、配音、无门槛、插画、翻译、等等。。。每日更新兼职。1.短视频带货：没有1000粉开不了橱窗。就算你有1000粉，你挂了链接，有可能一个月
【Hadoop】使用Scala与Spark连接ClickHouse进行数据处理音乐学家方大刚 Scala Hadoop hadoop scala spark
风不懂不懂得叶的梦月不听不听闻窗里琴声意难穷水不见不曾见绿消红霜不知不知晓将别人怎道珍重落叶有风才敢做一个会飞的梦孤窗有月才敢登高在夜里从容桃花有水才怕身是客身是客此景不能久TieYann(铁阳)、薄彩生《不知晓》在大数据分析和处理领域，ApacheSpark是一个广泛使用的高性能、通用的计算框架，而ClickHouse作为一个高性能的列式数据库，特别适合在线分析处理（OLAP）。结合Scala语
规划个人成长路径知意zy
请你运用自由书写的方式，谈一谈你如何在读书这个领域持续成长？著名文学翻译家许渊冲曾说：“生命不是你活了多少日子，而是你记住了多少日子，要让你过的每一天，都值得记忆。”读书对于我而言，更胜一种亲人的陪伴。记得那时读中专的时候，我喜欢乱花父母给的生活费，遇到没有钱吃饭的囧状，就买来几个硬邦邦的馒头沾着番茄酱在宿舍床上吃。一边吃一边津津有味地看长篇言情小说，完全沉浸在阅读书籍的乐趣之中，直到一天过去。现
2021-11-13 cd93761a1cef
本文并不完全遵循原文翻译，对部分内容自己也做了解释补充。Narrowing试想我们有这样一个函数，函数名为padLeft：functionpadLeft(padding:number|string,input:string):string{thrownewError("Notimplementedyet!");}该函数实现的功能是：如果参数padding是一个数字，我们就在input前面添加同等数
脑子坏掉的小孩长大后成了脑力教练，他说只要突破这三点人生就有无限可能瞌睡的猫80
海伦·凯勒从小失声失聪，却用文字和演讲影响了无数人，被马克·吐温赞为“十九世纪出现了两个了不起的人物”之一。尼克·胡哲，生下来就没有四肢，却靠着不懈努力，不仅生活自理，骑马、游泳、打鼓、足球、冲浪……样样皆能，而且还拥有两个大学学位，走遍34个国家，做了大约1500多场演讲，出版了两本畅销书。张海迪，五岁时高位截瘫，没有机会走进校门，却自学完了研究生课程，学会了四种语言，翻译了100多万字的文学作
互联网年轻人创业项目 10个互联网创业项目配音新手圈
如果你想小成本创业，那现在像是什么餐饮店、培训班、奶茶加盟之类的就不用怎么考虑了。兼职副业推荐公众号，配音新手圈，声优配音圈，新配音兼职圈，配音就业圈，鼎音副业，有声新手圈，每天更新各种远程工作与在线兼职，职位包括：写手、程序开发、剪辑、设计、翻译、配音、无门槛、插画、翻译、等等。。。每日更新兼职。这些没个十几二十几万是做不起来的。门面费、水电费、加盟费、培训费...反正七七八八的费用都不少。现在
TC551001系列慎独yfs 单片机 stm32 嵌入式硬件
东芝公司（Toshiba）关于其TC551001系列静态随机存取存储器（SRAM）的技术手册。这款存储器具有131,072个存储单元，每个单元可以存储8位数据，总计1,048,576位。下面是对文档内容的翻译和详细分析，包括图表分析。翻译内容：描述：TC551001CPI/CFI/CFTI/CTRI/CSTI/CSRI是一款1,048,576位的静态随机存取存储器（SRAM），组织为131,072
调用百度通用翻译API进行中文翻译（附python代码）猛码Memmat base library /tool python 开发语言百度翻译 api
文章目录1.百度API2.API接口3.大规模使用4.Acknowledgment5.MythoughtReference彩蛋：百度大脑AI开放平台1.百度API在百度翻译开放平台（http://api.fanyi.baidu.com/api/trans/product/desktop）注册账号，可以免费使用基本版翻译功能。服务介绍:支持28种语言实时互译，覆盖中、英、日、韩、西、法、泰、阿、俄、
CI/CD脚本简介，YAML介绍，Editor解析刘姥姥爱学习日常开发-python ci/cd git github yaml
说明：此篇文章纯概念，没有实际操作，实际操作请蹲下一篇！CI/CD理解这段代码是用于配置GitLabCI/CD（ContinuousIntegration/ContinuousDeployment）的YAML语法。GitLabCI/CD是一种自动化软件，用于自动化软件的构建、测试和部署过程。下面是对这段代码的详细解释和翻译配置项描述stages定义了CI/CD流程中的三个阶段：合并请求阶段（mer
一文详解大数据时代与低代码开发应用快乐非自愿大数据低代码
随着信息技术的飞速发展，我们迎来了一个崭新的时代——大数据时代。在这个时代，数据成为了一种新的资源，大数据技术的应用成为了推动社会进步的关键力量。而在大数据技术的浪潮中，低代码开发应用也逐渐崭露头角，以其高效、灵活的特点，成为大数据时代的重要支撑。大数据时代的来临随着科技的飞速发展和互联网的广泛普及，我们迎来了一个被称为“大数据时代”的全新时代。这个时代，数据无处不在，无时不刻不在增长，其规模之大
Spark面试整理-Spark是什么？不务正业的猿面试 Spark spark 大数据分布式
ApacheSpark是一个开源的分布式计算系统，它提供了一个用于大规模数据处理的快速、通用、易于使用的平台。它最初是在加州大学伯克利分校的AMPLab开发的，并于2010年开源。自那时起，Spark已经成为大数据处理中最受欢迎和广泛使用的框架之一。下面是Spark的一些关键特点：速度：Spark使用了先进的DAG（有向无环图）执行引擎，可以支持循环数据流和内存计算。这使得Spark在数据处理方面
Lua入门 Lodger007 Game Development lua linux c++windows 脚本 dll
翻译自http://gamedevgeek.com/tutorials/getting-started-with-lua/Lua入门Lua是一个被设计成用于扩展C/C++编程的轻量级脚本语言。不幸的是，网上很少有关于这个语言的在线教程。我主要通过阅读其源代码来了解它是怎样工作并且通过一些发布的程序学习它。希望，通过下面的教程，会让学习Lua更加简单。本教程涵盖了Lua5.1。在Lua的每一个版本中
请介绍一下大数据主要是干什么的？决策支持预测分析用户行为分析个性化服务操作优化风险管理创新与产品开发加拿大卡尔加里大学历史背景学术结构研究和创新校园设施盛溪的猫猫感悟大数据英语加拿大
目录请介绍一下大数据主要是干什么的？决策支持预测分析用户行为分析个性化服务操作优化风险管理创新与产品开发加拿大卡尔加里大学历史背景学术结构研究和创新校园设施国际化学生生活大语言模型目前的问题卡尔加里经济地理和气候文化和活动教育交通绿色城市AVL树的旋转单右旋（LL旋转）单左旋（RR旋转）左右旋（LR旋转）右左旋（RL旋转）请介绍一下大数据主要是干什么的？大数据是一个涉及从极其庞大和复杂的数据集中提
GEE在灾害预警中的遥感云大数据应用及GPT模型辅助分析 AIzmjl GPT 生态遥感大数据 gpt gee 灾害预警水体湿地遥感
随着遥感技术的快速发展，云大数据在灾害、水体与湿地领域的应用日益广泛。通过遥感云大数据，我们能够实时获取灾害发生地的影像信息，为灾害预警、应急响应提供有力支持。同时，在水体与湿地监测方面，遥感云大数据也发挥着重要作用，帮助我们了解水体的分布、变化以及湿地的生态状况。近年来，GPT模型在自然语言处理领域取得了显著成果，其强大的文本生成和理解能力为遥感云大数据的应用提供了新的可能。通过将GPT模型与遥
一个抖音店铺能开多个巨量千川账户吗(如何能开通巨量千川) 配音就业圈
千川可以开多少个账户吗?答案是不可以。今天给大家讲解一下关于巨量千川的这个小问题。兼职副业推荐公众号，配音新手圈，声优配音圈，新配音兼职圈，配音就业圈，鼎音副业，有声新手圈，每天更新各种远程工作与在线兼职，职位包括：写手、程序开发、剪辑、设计、翻译、配音、无门槛、插画、翻译、等等。。。每日更新兼职。每个抖音店铺只能开通绑定一个巨量千川的账户，因此大家还总结出来了一句名言“一店一号一千川”虽说巨量千
大数据毕设图像识别-人脸识别与疲劳检测 - python opencv fawubio_A python 算法
文章目录0前言1课题背景2Dlib人脸识别2.1简介2.2Dlib优点2.3相关代码2.4人脸数据库2.5人脸录入加识别效果3疲劳检测算法3.1眼睛检测算法3.2打哈欠检测算法3.3点头检测算法4PyQt54.1简介4.2相关界面代码0前言这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: [email protected]
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情