BigDataMLApplication

【spark床头书系列】 import org.apache.spark.sql.functions._ 和 import sparkSession.implicits._区别

spark import org.apache.spark.sql.functions._ 和 import sparkSession.implicits._示例用法源码区别

文章目录

spark import org.apache.spark.sql.functions._ 和 import sparkSession.implicits._示例用法源码区别
区别
sqlfucntions源码
- object functions概览
- 排序函数
- agg_funcs 聚合函数
- 窗口函数
- 非聚合函数
- 数学函数
- misc_funcs 杂项函数
- string_funcs 字符串函数
- 日期时间函数
- collection_funcs 集合函数
- udf函数

区别

import org.apache.spark.sql.functions._和import sparkSession.implicits._是Spark中两个不同的导入语句，它们的作用和使用方式也有所不同。

import org.apache.spark.sql.functions._：
- 这个导入语句用于导入org.apache.spark.sql.functions包下的所有函数。functions包含了许多用于对DataFrame进行操作和转换的常用函数，比如聚合函数、窗口函数、日期函数等。
- 通过导入该包后，就可以直接使用这些函数而不需要在代码中指定完整的包名。
- 例如，可以直接使用col、sum、avg等函数，而不需要写成functions.col、functions.sum、functions.avg。
import sparkSession.implicits._：
- 这个导入语句是针对Spark的SparkSession对象的隐式转换。
- 通过导入该隐式转换，可以方便地将普通的Scala对象转换为Dataset或DataFrame，以便进行Spark SQL的操作。
- 例如，可以使用toDS()方法将一个Seq或List转换为Dataset，而不需要手动创建Encoder和调用createDataset方法。

总结起来，import org.apache.spark.sql.functions._用于导入Spark SQL中的函数库，使得可以直接使用其中的函数；而import sparkSession.implicits._用于导入SparkSession对象的隐式转换，方便地将Scala对象转换为Dataset或DataFrame。

sqlfucntions源码

object functions概览

/**
 * DataFrame操作中常用的函数。使用这里定义的函数可以提供更多的编译时安全性，以确保函数存在。
 *
 * Spark还包括了一些不太常见的内置函数，这些函数在这里没有定义。您仍然可以使用`functions.expr()` API来访问它们（以及这里定义的所有函数），
 * 并通过SQL表达式字符串来调用它们。您可以在SQL API文档中找到完整的函数列表。
 *
 * 例如，`isnan`是在这里定义的一个函数。您可以使用`isnan(col("myCol"))`来调用`isnan`函数。这样，编程语言的编译器就会确保`isnan`
 * 存在并且具有正确的形式。您也可以使用`expr("isnan(myCol)")`函数来调用相同的函数。在这种情况下，当Spark分析查询时，它自己会确保`isnan`存在。
 *
 * `regr_count`是一个内置函数的示例，但在这里没有定义，因为它不常用。要调用它，请使用`expr("regr_count(yCol, xCol)")`。
 *
 * @groupname udf_funcs UDF函数
 * @groupname agg_funcs 聚合函数
 * @groupname datetime_funcs 日期时间函数
 * @groupname sort_funcs 排序函数
 * @groupname normal_funcs 非聚合函数
 * @groupname math_funcs 数学函数
 * @groupname misc_funcs 杂项函数
 * @groupname window_funcs 窗口函数
 * @groupname string_funcs 字符串函数
 * @groupname collection_funcs 集合函数
 * @groupname Ungrouped DataFrames的支持函数
 * @since 1.3.0
 */
@InterfaceStability.Stable
object functions {
  
  private def withExpr(expr: Expression): Column = Column(expr)

  private def withAggregateFunction(
    func: AggregateFunction,
    isDistinct: Boolean = false): Column = {
    Column(func.toAggregateExpression(isDistinct))
  }

排序函数


  //
  // 排序函数
  //

  /**
   * 返回基于列的升序排序表达式。
   * {{{
   *   df.sort(asc("dept"), desc("age"))
   * }}}
   *
   * @group sort_funcs
   * @since 1.3.0
   */
  def asc(columnName: String): Column = Column(columnName).asc

  /**
   * 返回基于列的升序排序表达式，空值会排在非空值之前。
   * {{{
   *   df.sort(asc_nulls_first("dept"), desc("age"))
   * }}}
   *
   * @group sort_funcs
   * @since 2.1.0
   */
  def asc_nulls_first(columnName: String): Column = Column(columnName).asc_nulls_first

  /**
   * 返回基于列的升序排序表达式，空值会排在非空值之后。
   * {{{
   *   df.sort(asc_nulls_last("dept"), desc("age"))
   * }}}
   *
   * @group sort_funcs
   * @since 2.1.0
   */
  def asc_nulls_last(columnName: String): Column = Column(columnName).asc_nulls_last

  /**
   * 返回基于列的降序排序表达式。
   * {{{
   *   df.sort(asc("dept"), desc("age"))
   * }}}
   *
   * @group sort_funcs
   * @since 1.3.0
   */
  def desc(columnName: String): Column = Column(columnName).desc

  /**
   * 返回基于列的降序排序表达式，空值会排在非空值之前。
   * {{{
   *   df.sort(asc("dept"), desc_nulls_first("age"))
   * }}}
   *
   * @group sort_funcs
   * @since 2.1.0
   */
  def desc_nulls_first(columnName: String): Column = Column(columnName).desc_nulls_first

  /**
   * 返回基于列的降序排序表达式，空值会排在非空值之后。
   * {{{
   *   df.sort(asc("dept"), desc_nulls_last("age"))
   * }}}
   *
   * @group sort_funcs
   * @since 2.1.0
   */
  def desc_nulls_last(columnName: String): Column = Column(columnName).desc_nulls_last

agg_funcs 聚合函数


  //
  // 聚合函数
  //

  /**
   * @group agg_funcs
   * @since 1.3.0
   */
  @deprecated("Use approx_count_distinct", "2.1.0")
  def approxCountDistinct(e: Column): Column = approx_count_distinct(e)

  /**
   * @group agg_funcs
   * @since 1.3.0
   */
  @deprecated("Use approx_count_distinct", "2.1.0")
  def approxCountDistinct(columnName: String): Column = approx_count_distinct(columnName)

  /**
   * @group agg_funcs
   * @since 1.3.0
   */
  @deprecated("Use approx_count_distinct", "2.1.0")
  def approxCountDistinct(e: Column, rsd: Double): Column = approx_count_distinct(e, rsd)

  /**
   * @group agg_funcs
   * @since 1.3.0
   */
  @deprecated("Use approx_count_distinct", "2.1.0")
  def approxCountDistinct(columnName: String, rsd: Double): Column = {
    approx_count_distinct(Column(columnName), rsd)
  }

  /**
   * 聚合函数：返回组中不同项的近似数量。
   *
   * @group agg_funcs
   * @since 2.1.0
   */
  def approx_count_distinct(e: Column): Column = withAggregateFunction {
    HyperLogLogPlusPlus(e.expr)
  }

  /**
   * 聚合函数：返回组中不同项的近似数量。
   *
   * @group agg_funcs
   * @since 2.1.0
   */
  def approx_count_distinct(columnName: String): Column = approx_count_distinct(column(columnName))

  /**
   * 聚合函数：返回组中不同项的近似数量。
   *
   * @param rsd 允许的最大估计误差（默认值 = 0.05）
   *
   * @group agg_funcs
   * @since 2.1.0
   */
  def approx_count_distinct(e: Column, rsd: Double): Column = withAggregateFunction {
    HyperLogLogPlusPlus(e.expr, rsd, 0, 0)
  }

  /**
   * 聚合函数：返回组中不同项的近似数量。
   *
   * @param rsd 允许的最大估计误差（默认值 = 0.05）
   *
   * @group agg_funcs
   * @since 2.1.0
   */
  def approx_count_distinct(columnName: String, rsd: Double): Column = {
    approx_count_distinct(Column(columnName), rsd)
  }

  /**
   * 聚合函数：返回组中值的平均值。
   *
   * @group agg_funcs
   * @since 1.3.0
   */
  def avg(e: Column): Column = withAggregateFunction { Average(e.expr) }

  /**
   * 聚合函数：返回组中值的平均值。
   *
   * @group agg_funcs
   * @since 1.3.0
   */
  def avg(columnName: String): Column = avg(Column(columnName))

  /**
   * 聚合函数：返回一个带有重复值的对象列表。
   *
   * @note 此函数是非确定性的，因为收集结果的顺序取决于行的顺序，在洗牌后可能是非确定性的。
   *
   * @group agg_funcs
   * @since 1.6.0
   */
  def collect_list(e: Column): Column = withAggregateFunction { CollectList(e.expr) }

  /**
   * 聚合函数：返回一个带有重复值的对象列表。
   *
   * @note 此函数是非确定性的，因为收集结果的顺序取决于行的顺序，在洗牌后可能是非确定性的。
   *
   * @group agg_funcs
   * @since 1.6.0
   */
  def collect_list(columnName: String): Column = collect_list(Column(columnName))

  /**
   * 聚合函数：返回一个去除重复元素的对象集合。
   *
   * @note 此函数是非确定性的，因为收集结果的顺序取决于行的顺序，在洗牌后可能是非确定性的。
   *
   * @group agg_funcs
   * @since 1.6.0
   */
  def collect_set(e: Column): Column = withAggregateFunction { CollectSet(e.expr) }

  /**
   * 聚合函数：返回一个去除重复元素的对象集合。
   *
   * @note 此函数是非确定性的，因为收集结果的顺序取决于行的顺序，在洗牌后可能是非确定性的。
   *
   * @group agg_funcs
   * @since 1.6.0
   */
  def collect_set(columnName: String): Column = collect_set(Column(columnName))

  /**
   * 聚合函数：返回两列的皮尔逊相关系数。
   *
   * @group agg_funcs
   * @since 1.6.0
   */
  def corr(column1: Column, column2: Column): Column = withAggregateFunction {
    Corr(column1.expr, column2.expr)
  }

  /**
   * 聚合函数：返回两列的皮尔逊相关系数。
   *
   * @group agg_funcs
   * @since 1.6.0
   */
  def corr(columnName1: String, columnName2: String): Column = {
    corr(Column(columnName1), Column(columnName2))
  }

  /**
   * 聚合函数：返回组中项的数量。
   *
   * @group agg_funcs
   * @since 1.3.0
   */
  def count(e: Column): Column = withAggregateFunction {
    e.expr match {
      // 将count(*)转换为count(1)
      case s: Star => Count(Literal(1))
      case _ => Count(e.expr)
    }
  }

  /**
   * 聚合函数：返回分组中的项目数。
   *
   * @group agg_funcs
   * @since 1.3.0
   */
  def count(columnName: String): TypedColumn[Any, Long] =
    count(Column(columnName)).as(ExpressionEncoder[Long]())

  /**
   * 聚合函数：返回分组中不同项目的数量。
   *
   * @group agg_funcs
   * @since 1.3.0
   */
  @scala.annotation.varargs
  def countDistinct(expr: Column, exprs: Column*): Column = {
    withAggregateFunction(Count.apply((expr +: exprs).map(_.expr)), isDistinct = true)
  }

  /**
   * 聚合函数：返回分组中不同项目的数量。
   *
   * @group agg_funcs
   * @since 1.3.0
   */
  @scala.annotation.varargs
  def countDistinct(columnName: String, columnNames: String*): Column =
    countDistinct(Column(columnName), columnNames.map(Column.apply) : _*)

  /**
   * 聚合函数：返回两列的总体协方差。
   *
   * @group agg_funcs
   * @since 2.0.0
   */
  def covar_pop(column1: Column, column2: Column): Column = withAggregateFunction {
    CovPopulation(column1.expr, column2.expr)
  }

  /**
   * 聚合函数：返回两列的总体协方差。
   *
   * @group agg_funcs
   * @since 2.0.0
   */
  def covar_pop(columnName1: String, columnName2: String): Column = {
    covar_pop(Column(columnName1), Column(columnName2))
  }

  /**
   * 聚合函数：返回两列的样本协方差。
   *
   * @group agg_funcs
   * @since 2.0.0
   */
  def covar_samp(column1: Column, column2: Column): Column = withAggregateFunction {
    CovSample(column1.expr, column2.expr)
  }

  /**
   * 聚合函数：返回两列的样本协方差。
   *
   * @group agg_funcs
   * @since 2.0.0
   */
  def covar_samp(columnName1: String, columnName2: String): Column = {
    covar_samp(Column(columnName1), Column(columnName2))
  }

  /**
   * 聚合函数：返回分组中的第一个值。
   *
   * 默认情况下，该函数返回它看到的第一个值。当 ignoreNulls 设置为 true 时，它将返回它看到的第一个非空值。
   * 如果所有值都为 null，则返回 null。
   *
   * 注意：由于结果取决于行的顺序，所以该函数是不确定性的，在洗牌后可能是不确定性的。
   *
   * @group agg_funcs
   * @since 2.0.0
   */
  def first(e: Column, ignoreNulls: Boolean): Column = withAggregateFunction {
    new First(e.expr, Literal(ignoreNulls))
  }

  /**
   * 聚合函数：返回分组中某列的第一个值。
   *
   * 默认情况下，该函数返回它看到的第一个值。当 ignoreNulls 设置为 true 时，它将返回它看到的第一个非空值。
   * 如果所有值都为 null，则返回 null。
   *
   * 注意：由于结果取决于行的顺序，所以该函数是不确定性的，在洗牌后可能是不确定性的。
   *
   * @group agg_funcs
   * @since 2.0.0
   */
  def first(columnName: String, ignoreNulls: Boolean): Column = {
    first(Column(columnName), ignoreNulls)
  }

  /**
   * 聚合函数：返回分组中的第一个值。
   *
   * 默认情况下，该函数返回它看到的第一个值。当 ignoreNulls 设置为 true 时，它将返回它看到的第一个非空值。
   * 如果所有值都为 null，则返回 null。
   *
   * 注意：由于结果取决于行的顺序，所以该函数是不确定性的，在洗牌后可能是不确定性的。
   *
   * @group agg_funcs
   * @since 1.3.0
   */
  def first(e: Column): Column = first(e, ignoreNulls = false)

  /**
   * 聚合函数：返回分组中某列的第一个值。
   *
   * 默认情况下，该函数返回它看到的第一个值。当 ignoreNulls 设置为 true 时，它将返回它看到的第一个非空值。
   * 如果所有值都为 null，则返回 null。
   *
   * 注意：由于结果取决于行的顺序，所以该函数是不确定性的，在洗牌后可能是不确定性的。
   *
   * @group agg_funcs
   * @since 1.3.0
   */
  def first(columnName: String): Column = first(Column(columnName))

  /**
   * 聚合函数：指示在 GROUP BY 列表中的指定列是否已聚合，
   * 返回结果集中的聚合为 1，未聚合为 0。
   *
   * @group agg_funcs
   * @since 2.0.0
   */
  def grouping(e: Column): Column = Column(Grouping(e.expr))

  /**
   * 聚合函数：指示在 GROUP BY 列表中的指定列是否已聚合，
   * 返回结果集中的聚合为 1，未聚合为 0。
   *
   * @group agg_funcs
   * @since 2.0.0
   */
  def grouping(columnName: String): Column = grouping(Column(columnName))

  /**
   * 聚合函数：返回分组级别，等于
   *
   * (grouping(c1) <<; (n-1)) + (grouping(c2) <<; (n-2)) + ... + grouping(cn)
   *
   * 注意：列列表应与分组列完全匹配，或为空（表示所有分组列）。
   *
   * @group agg_funcs
   * @since 2.0.0
   */
  def grouping_id(cols: Column*): Column = Column(GroupingID(cols.map(_.expr)))

  /**
   * 聚合函数：返回分组级别，等于
   *
   * (grouping(c1) <<; (n-1)) + (grouping(c2) <<; (n-2)) + ... + grouping(cn)
   *
   * 注意：列列表应与分组列完全匹配。
   *
   * @group agg_funcs
   * @since 2.0.0
   */
  def grouping_id(colName: String, colNames: String*): Column = {
    grouping_id((Seq(colName) ++ colNames).map(n => Column(n)) : _*)
  }

  /**
   * 聚合函数：返回分组中值的峰度。
   *
   * @group agg_funcs
   * @since 1.6.0
   */
  def kurtosis(e: Column): Column = withAggregateFunction { Kurtosis(e.expr) }

  /**
   * 聚合函数：返回分组中值的峰度。
   *
   * @group agg_funcs
   * @since 1.6.0
   */
  def kurtosis(columnName: String): Column = kurtosis(Column(columnName))

  /**
   * 聚合函数：返回分组中的最后一个值。
   *
   * 默认情况下，该函数返回它看到的最后一个值。当 ignoreNulls 设置为 true 时，它将返回它看到的最后一个非空值。
   * 如果所有值都为 null，则返回 null。
   *
   * 注意：由于结果取决于行的顺序，所以该函数是不确定性的，在洗牌后可能是不确定性的。
   *
   * @group agg_funcs
   * @since 2.0.0
   */
  def last(e: Column, ignoreNulls: Boolean): Column = withAggregateFunction {
    new Last(e.expr, Literal(ignoreNulls))
  }

  /**
   * 聚合函数：返回分组中某列的最后一个值。
   *
   * 默认情况下，该函数返回它看到的最后一个值。当 ignoreNulls 设置为 true 时，它将返回它看到的最后一个非空值。
   * 如果所有值都为 null，则返回 null。
   *
   * 注意：由于结果取决于行的顺序，所以该函数是不确定性的，在洗牌后可能是不确定性的。
   *
   * @group agg_funcs
   * @since 2.0.0
   */
  def last(columnName: String, ignoreNulls: Boolean): Column = {
    last(Column(columnName), ignoreNulls)
  }

  /**
   * 聚合函数：返回分组中的最后一个值。
   *
   * 默认情况下，该函数返回它看到的最后一个值。当 ignoreNulls 设置为 true 时，它将返回它看到的最后一个非空值。
   * 如果所有值都为 null，则返回 null。
   *
   * 注意：由于结果取决于行的顺序，所以该函数是不确定性的，在洗牌后可能是不确定性的。
   *
   * @group agg_funcs
   * @since 1.3.0
   */
  def last(e: Column): Column = last(e, ignoreNulls = false)

  /**
   * 聚合函数：返回分组中某列的最后一个值。
   *
   * 默认情况下，该函数返回它看到的最后一个值。当 ignoreNulls 设置为 true 时，它将返回它看到的最后一个非空值。
   * 如果所有值都为 null，则返回 null。
   *
   * 注意：由于结果取决于行的顺序，所以该函数是不确定性的，在洗牌后可能是不确定性的。
   *
   * @group agg_funcs
   * @since 1.3.0
   */
  def last(columnName: String): Column = last(Column(columnName), ignoreNulls = false)

  /**
   * 聚合函数：返回表达式在分组中的最大值。
   *
   * @group agg_funcs
   * @since 1.3.0
   */
  def max(e: Column): Column = withAggregateFunction { Max(e.expr) }

  /**
   * 聚合函数：返回某列在分组中的最大值。
   *
   * @group agg_funcs
   * @since 1.3.0
   */
  def max(columnName: String): Column = max(Column(columnName))

  /**
   * 聚合函数：返回分组中值的平均值。
   * avg 的别名。
   *
   * @group agg_funcs
   * @since 1.4.0
   */
  def mean(e: Column): Column = avg(e)

  /**
   * 聚合函数：返回分组中某列的平均值。
   * avg 的别名。
   *
   * @group agg_funcs
   * @since 1.4.0
   */
  def mean(columnName: String): Column = avg(columnName)

  /**
   * 聚合函数：返回表达式在分组中的最小值。
   *
   * @group agg_funcs
   * @since 1.3.0
   */
  def min(e: Column): Column = withAggregateFunction { Min(e.expr) }

  /**
   * 聚合函数：返回某列在分组中的最小值。
   *
   * @group agg_funcs
   * @since 1.3.0
   */
  def min(columnName: String): Column = min(Column(columnName))

  /**
   * 聚合函数：返回分组中值的偏度。
   *
   * @group agg_funcs
   * @since 1.6.0
   */
  def skewness(e: Column): Column = withAggregateFunction { Skewness(e.expr) }

  /**
   * 聚合函数：返回分组中值的偏度。
   *
   * @group agg_funcs
   * @since 1.6.0
   */
  def skewness(columnName: String): Column = skewness(Column(columnName))

  /**
   * 聚合函数：`stddev_samp` 的别名。
   *
   * @group agg_funcs
   * @since 1.6.0
   */
  def stddev(e: Column): Column = withAggregateFunction { StddevSamp(e.expr) }

  /**
   * 聚合函数：`stddev_samp` 的别名。
   *
   * @group agg_funcs
   * @since 1.6.0
   */
  def stddev(columnName: String): Column = stddev(Column(columnName))

  /**
   * 聚合函数：返回表达式在分组中的样本标准差。
   *
   * @group agg_funcs
   * @since 1.6.0
   */
  def stddev_samp(e: Column): Column = withAggregateFunction { StddevSamp(e.expr) }

  /**
   * 聚合函数：返回表达式在分组中的样本标准差。
   *
   * @group agg_funcs
   * @since 1.6.0
   */
  def stddev_samp(columnName: String): Column = stddev_samp(Column(columnName))

  /**
   * 聚合函数：返回表达式在分组中的总体标准差。
   *
   * @group agg_funcs
   * @since 1.6.0
   */
  def stddev_pop(e: Column): Column = withAggregateFunction { StddevPop(e.expr) }

  /**
   * 聚合函数：返回表达式在分组中的总体标准差。
   *
   * @group agg_funcs
   * @since 1.6.0
   */
  def stddev_pop(columnName: String): Column = stddev_pop(Column(columnName))

  /**
   * 聚合函数：返回表达式中所有值的总和。
   *
   * @group agg_funcs
   * @since 1.3.0
   */
  def sum(e: Column): Column = withAggregateFunction { Sum(e.expr) }

  /**
   * 聚合函数：返回某列中所有值的总和。
   *
   * @group agg_funcs
   * @since 1.3.0
   */
  def sum(columnName: String): Column = sum(Column(columnName))

  /**
   * 聚合函数：返回表达式中不同值的总和。
   *
   * @group agg_funcs
   * @since 1.3.0
   */
  def sumDistinct(e: Column): Column = withAggregateFunction(Sum(e.expr), isDistinct = true)

  /**
   * 聚合函数：返回某列中不同值的总和。
   *
   * @group agg_funcs
   * @since 1.3.0
   */
  def sumDistinct(columnName: String): Column = sumDistinct(Column(columnName))
 
  /**
   * 聚合函数：别名为 `var_samp`。
   *
   * @group agg_funcs
   * @since 1.6.0
   */
  def variance(e: Column): Column = withAggregateFunction { VarianceSamp(e.expr) }

  /**
   * 聚合函数：别名为 `var_samp`。
   *
   * @group agg_funcs
   * @since 1.6.0
   */
  def variance(columnName: String): Column = variance(Column(columnName))

  /**
   * 聚合函数：返回分组中值的无偏方差。
   *
   * @group agg_funcs
   * @since 1.6.0
   */
  def var_samp(e: Column): Column = withAggregateFunction { VarianceSamp(e.expr) }

  /**
   * 聚合函数：返回分组中值的无偏方差。
   *
   * @group agg_funcs
   * @since 1.6.0
   */
  def var_samp(columnName: String): Column = var_samp(Column(columnName))

  /**
   * 聚合函数：返回分组中值的总体方差。
   *
   * @group agg_funcs
   * @since 1.6.0
   */
  def var_pop(e: Column): Column = withAggregateFunction { VariancePop(e.expr) }

  /**
   * 聚合函数：返回分组中值的总体方差。
   *
   * @group agg_funcs
   * @since 1.6.0
   */
  def var_pop(columnName: String): Column = var_pop(Column(columnName))

窗口函数



  //
  // 窗口函数
  //
  /**
   * 此函数在Spark 2.4中已弃用。有关更多信息，请参见SPARK-25842。
   *
   * @group window_funcs
   * @since 2.3.0
   */
  @deprecated("Use Window.unboundedPreceding", "2.4.0")
  def unboundedPreceding(): Column = Column(UnboundedPreceding)

  /**
   * 此函数在Spark 2.4中已弃用。有关更多信息，请参见SPARK-25842。
   *
   * @group window_funcs
   * @since 2.3.0
   */
  @deprecated("Use Window.unboundedFollowing", "2.4.0")
  def unboundedFollowing(): Column = Column(UnboundedFollowing)

  /**
   * 此函数在Spark 2.4中已弃用。有关更多信息，请参见SPARK-25842。
   *
   * @group window_funcs
   * @since 2.3.0
   */
  @deprecated("Use Window.currentRow", "2.4.0")
  def currentRow(): Column = Column(CurrentRow)

  /**
   * 窗口函数：返回窗口分区内值的累计分布，即当前行之前（包括当前行）的行的比例。
   *
   * {{{
   *   N = 窗口分区中的总行数
   *   cumeDist(x) = 在 x 之前（包括 x）的值的数量 / N
   * }}}
   *
   * @group window_funcs
   * @since 1.6.0
   */
  def cume_dist(): Column = withExpr { new CumeDist }

  /**
   * 窗口函数：返回窗口分区内行的等级，没有间隔。
   *
   * 排名和密集排名之间的区别是，当存在并列时，密集排名不会在排名序列中留下空白。
   * 也就是说，如果使用密集排名对竞争进行排名，并且有三个人并列为第二名，那么所有三个人都将被认为是第二名，
   * 下一个人将被认为是第三名。而排名将给出连续的数字，使得在并列后来的第三名（在并列后）将被标记为第五名。
   *
   * 这相当于SQL中的DENSE_RANK函数。
   *
   * @group window_funcs
   * @since 1.6.0
   */
  def dense_rank(): Column = withExpr { new DenseRank }

  /**
   * 窗口函数：返回当前行之前的 `offset` 行的值，如果当前行之前的行数少于 `offset` 行，则返回 `null`。
   * 例如，`lag(a, b)` 将在窗口分区的任何给定点返回前一行。
   *
   * 这相当于SQL中的LAG函数。
   *
   * @group window_funcs
   * @since 1.4.0
   */
  def lag(e: Column, offset: Int): Column = lag(e, offset, null)

  /**
   * 窗口函数：返回当前行之前的 `offset` 行的值，如果当前行之前的行数少于 `offset` 行，则返回 `null`。
   * 例如，`lag(a, b)` 将在窗口分区的任何给定点返回前一行。
   *
   * 这相当于SQL中的LAG函数。
   *
   * @group window_funcs
   * @since 1.4.0
   */
  def lag(columnName: String, offset: Int): Column = lag(columnName, offset, null)

  /**
   * 窗口函数：返回当前行之前的 `offset` 行的值，如果当前行之前的行数少于 `offset` 行，则返回 `defaultValue`。
   * 例如，`lag(a, b, c)` 将在窗口分区的任何给定点返回前一行。
   *
   * 这相当于SQL中的LAG函数。
   *
   * @group window_funcs
   * @since 1.4.0
   */
  def lag(columnName: String, offset: Int, defaultValue: Any): Column = {
    lag(Column(columnName), offset, defaultValue)
  }

  /**
   * 窗口函数：返回当前行之前的 `offset` 行的值，如果当前行之前的行数少于 `offset` 行，则返回 `defaultValue`。
   * 例如，`lag(a, b, c)` 将在窗口分区的任何给定点返回前一行。
   *
   * 这相当于SQL中的LAG函数。
   *
   * @group window_funcs
   * @since 1.4.0
   */
  def lag(e: Column, offset: Int, defaultValue: Any): Column = withExpr {
    Lag(e.expr, Literal(offset), Literal(defaultValue))
  }

  /**
   * 窗口函数：返回当前行之后的 `offset` 行的值，如果当前行之后的行数少于 `offset` 行，则返回 `null`。
   * 例如，`lead(a, b)` 将在窗口分区的任何给定点返回下一行。
   *
   * 这相当于SQL中的LEAD函数。
   *
   * @group window_funcs
   * @since 1.4.0
   */
  def lead(columnName: String, offset: Int): Column = { lead(columnName, offset, null) }

  /**
   * 窗口函数：返回当前行之后的 `offset` 行的值，如果当前行之后的行数少于 `offset` 行，则返回 `null`。
   * 例如，`lead(a, b)` 将在窗口分区的任何给定点返回下一行。
   *
   * 这相当于SQL中的LEAD函数。
   *
   * @group window_funcs
   * @since 1.4.0
   */
  def lead(e: Column, offset: Int): Column = { lead(e, offset, null) }

  /**
   * 窗口函数：返回当前行之后的 `offset` 行的值，如果当前行之后的行数少于 `offset` 行，则返回 `defaultValue`。
   * 例如，`lead(a, b, c)` 将在窗口分区的任何给定点返回下一行。
   *
   * 这相当于SQL中的LEAD函数。
   *
   * @group window_funcs
   * @since 1.4.0
   */
  def lead(columnName: String, offset: Int, defaultValue: Any): Column = {
    lead(Column(columnName), offset, defaultValue)
  }

  /**
   * 窗口函数：返回当前行之后的 `offset` 行的值，如果当前行之后的行数少于 `offset` 行，则返回 `defaultValue`。
   * 例如，`lead(a, b, c)` 将在窗口分区的任何给定点返回下一行。
   *
   * 这相当于SQL中的LEAD函数。
   *
   * @group window_funcs
   * @since 1.4.0
   */
  def lead(e: Column, offset: Int, defaultValue: Any): Column = withExpr {
    Lead(e.expr, Literal(offset), Literal(defaultValue))
  }

  /**
   * 窗口函数：返回一个NTILE组ID（从1到 `n`）在有序窗口分区内。
   * 例如，如果 `n` 是4，第一四分位数将得到值1，第二四分位数将得到值2，第三四分位数将得到值3，
   * 最后四分位数将得到值4。
   *
   * 这相当于SQL中的NTILE函数。
   *
   * @group window_funcs
   * @since 1.4.0
   */
  def ntile(n: Int): Column = withExpr { new NTile(Literal(n)) }

  /**
   * 窗口函数：返回行在窗口分区内的相对排名（即百分位数）。
   *
   * 计算方法为：
   * {{{
   *   （窗口分区中的行的排名 - 1）/ （窗口分区中的行数 - 1）
   * }}}
   *
   * 这相当于SQL中的PERCENT_RANK函数。
   *
   * @group window_funcs
   * @since 1.6.0
   */
  def percent_rank(): Column = withExpr { new PercentRank }

  /**
   * 窗口函数：返回行在窗口分区内的排名。
   *
   * 排名和密集排名之间的区别是，当存在并列时，密集排名不会在排名序列中留下空白。
   * 也就是说，如果使用密集排名对竞争进行排名，并且有三个人并列为第二名，那么所有三个人都将被认为是第二名，
   * 下一个人将被认为是第三名。而排名将给出连续的数字，使得在并列后来的第三名（在并列后）将被标记为第五名。
   *
   * 这相当于SQL中的RANK函数。
   *
   * @group window_funcs
   * @since 1.4.0
   */
  def rank(): Column = withExpr { new Rank }

  /**
   * 窗口函数：在窗口分区内创建一个从1开始的顺序号。
   *
   * @group window_funcs
   * @since 1.6.0
   */
  def row_number(): Column = withExpr { RowNumber() }

非聚合函数


  //
  // 非聚合函数
  //
/**
   * 根据给定的列名返回一个基于该列名的[[Column]]。
   *
   * @group normal_funcs
   * @since 1.3.0
   */
  def col(colName: String): Column = Column(colName)

  /**
   * 根据给定的列名返回一个基于该列名的[[Column]]。[[col]]的别名。
   *
   * @group normal_funcs
   * @since 1.3.0
   */
  def column(colName: String): Column = Column(colName)

  /**
   * 创建一个表示字面值的[[Column]]。
   *
   * 如果传入的对象已经是一个[[Column]]，则直接返回该对象。如果对象是一个Scala Symbol，则也将其转换为[[Column]]。
   * 否则，将创建一个新的[[Column]]来表示字面值。
   *
   * @group normal_funcs
   * @since 1.3.0
   */
  def lit(literal: Any): Column = typedLit(literal)

  /**
   * 创建一个表示字面值的[[Column]]。
   *
   * 如果传入的对象已经是一个[[Column]]，则直接返回该对象。如果对象是一个Scala Symbol，则也将其转换为[[Column]]。
   * 否则，将创建一个新的[[Column]]来表示字面值。与[[lit]]函数的区别在于，此函数可以处理参数化的scala类型，例如：List、Seq和Map。
   *
   * @group normal_funcs
   * @since 2.2.0
   */
  def typedLit[T : TypeTag](literal: T): Column = literal match {
    case c: Column => c
    case s: Symbol => new ColumnName(s.name)
    case _ => Column(Literal.create(literal))
  }


  /**
   * 创建一个新的数组列。输入列必须具有相同的数据类型。
   *
   * @group normal_funcs
   * @since 1.4.0
   */
  @scala.annotation.varargs
  def array(cols: Column*): Column = withExpr { CreateArray(cols.map(_.expr)) }

  /**
   * 创建一个新的数组列。输入列必须具有相同的数据类型。
   *
   * @group normal_funcs
   * @since 1.4.0
   */
  @scala.annotation.varargs
  def array(colName: String, colNames: String*): Column = {
    array((colName +: colNames).map(col) : _*)
  }

  /**
   * 创建一个新的映射列。输入列必须按键值对进行分组，例如（key1，value1，key2，value2，...）。
   * 键列必须具有相同的数据类型，并且不能为 null。值列必须具有相同的数据类型。
   *
   * @group normal_funcs
   * @since 2.0
   */
  @scala.annotation.varargs
  def map(cols: Column*): Column = withExpr { CreateMap(cols.map(_.expr)) }

  /**
   * 创建一个新的映射列。第一列中的数组用作键。第二列中的数组用作值。键中的所有元素都不应为 null。
   *
   * @group normal_funcs
   * @since 2.4
   */
  def map_from_arrays(keys: Column, values: Column): Column = withExpr {
    MapFromArrays(keys.expr, values.expr)
  }

  /**
   * 将一个DataFrame标记为在广播连接中可用的小型数据集。
   *
   * 下面的示例使用 `joinKey` 将右侧的DataFrame标记为广播哈希连接。
   * {{{
   *   // left和right是DataFrames
   *   left.join(broadcast(right), "joinKey")
   * }}}
   *
   * @group normal_funcs
   * @since 1.5.0
   */
  def broadcast[T](df: Dataset[T]): Dataset[T] = {
    Dataset[T](df.sparkSession,
      ResolvedHint(df.logicalPlan, HintInfo(broadcast = true)))(df.exprEnc)
  }

  /**
   * 返回第一个非空的列，如果所有输入都为null，则返回null。
   *
   * 例如，`coalesce(a, b, c)` 如果a不为null，则返回a，
   * 如果a为null且b不为null，则返回b，如果a和b都为null但c不为null，则返回c。
   *
   * @group normal_funcs
   * @since 1.3.0
   */
  @scala.annotation.varargs
  def coalesce(e: Column*): Column = withExpr { Coalesce(e.map(_.expr)) }

  /**
   * 创建一个表示当前Spark任务的文件名的字符串列。
   *
   * @group normal_funcs
   * @since 1.6.0
   */
  def input_file_name(): Column = withExpr { InputFileName() }

  /**
   * 如果列为NaN，则返回true。
   *
   * @group normal_funcs
   * @since 1.6.0
   */
  def isnan(e: Column): Column = withExpr { IsNaN(e.expr) }

  /**
   * 如果列为空，则返回true。
   *
   * @group normal_funcs
   * @since 1.6.0
   */
  def isnull(e: Column): Column = withExpr { IsNull(e.expr) }

  /**
   * 生成单调递增的64位整数的列表达式。
   *
   * 生成的ID保证是单调递增且唯一的，但不是连续的。
   * 当前实现将分区ID放在高31位中，并将每个分区中的记录编号放在低33位中。
   * 假设数据框具有少于10亿个分区，并且每个分区具有小于80亿条记录。
   *
   * 例如，考虑一个包含两个分区的DataFrame，每个分区有3条记录。
   * 此表达式将返回以下ID：
   *
   * {{{
   * 0, 1, 2, 8589934592 (1L << 33), 8589934593, 8589934594.
   * }}}
   *
   * @group normal_funcs
   * @since 1.4.0
   */
  @deprecated("Use monotonically_increasing_id()", "2.0.0")
  def monotonicallyIncreasingId(): Column = monotonically_increasing_id()

  /**
   * 返回一个生成单调递增的64位整数的列表达式。
   *
   * 生成的ID保证是单调递增且唯一的，但不是连续的。
   * 当前实现将分区ID放在高31位中，并将每个分区中的记录编号放在低33位中。
   * 假设数据框具有少于10亿个分区，并且每个分区具有小于80亿条记录。
   *
   * 例如，考虑一个包含两个分区的DataFrame，每个分区有3条记录。
   * 此表达式将返回以下ID：
   *
   * {{{
   * 0, 1, 2, 8589934592 (1L << 33), 8589934593, 8589934594.
   * }}}
   *
   * @group normal_funcs
   * @since 1.6.0
   */
  def monotonically_increasing_id(): Column = withExpr { MonotonicallyIncreasingID() }

  /**
   * 如果列1不为NaN，则返回列1，否则返回列2。
   *
   * 输入列应为浮点列（DoubleType或FloatType）。
   *
   * @group normal_funcs
   * @since 1.5.0
   */
  def nanvl(col1: Column, col2: Column): Column = withExpr { NaNvl(col1.expr, col2.expr) }

  /**
   * 一元减号，即对表达式取反。
   * {{{
   *   // 选择amount列并对所有值取反。
   *   // Scala:
   *   df.select(-df("amount"))
   *
   *   // Java:
   *   df.select(negate(df.col("amount")));
   * }}}
   *
   * @group normal_funcs
   * @since 1.3.0
   */
  def negate(e: Column): Column = -e

  /**
   * 布尔表达式的取反，即 NOT。
   * {{{
   *   // Scala：选择不活动的行（isActive === false）
   *   df.filter(!df("isActive"))
   *
   *   // Java:
   *   df.filter(not(df.col("isActive")));
   * }}}
   *
   * @group normal_funcs
   * @since 1.3.0
   */
  def not(e: Column): Column = !e

  /**
   * 生成一个具有独立且来自U[0.0, 1.0]的i.i.d.样本的随机列。
   *
   * @note 一般情况下，该函数是非确定性的。
   *
   * @group normal_funcs
   * @since 1.4.0
   */
  def rand(seed: Long): Column = withExpr { Rand(seed) }

  /**
   * 生成一个具有独立且来自U[0.0, 1.0]的i.i.d.样本的随机列。
   *
   * @note 一般情况下，该函数是非确定性的。
   *
   * @group normal_funcs
   * @since 1.4.0
   */
  def rand(): Column = rand(Utils.random.nextLong)

  /**
   * 生成一个具有独立且来自标准正态分布的i.i.d.样本的随机列。
   *
   * @note 一般情况下，该函数是非确定性的。
   *
   * @group normal_funcs
   * @since 1.4.0
   */
  def randn(seed: Long): Column = withExpr { Randn(seed) }

  /**
   * 生成一个具有独立且来自标准正态分布的i.i.d.样本的随机列。
   *
   * @note 一般情况下，该函数是非确定性的。
   *
   * @group normal_funcs
   * @since 1.4.0
   */
  def randn(): Column = randn(Utils.random.nextLong)

  /**
   * 分区ID。
   *
   * @note 由于它取决于数据分区和任务调度，因此这是非确定性的。
   *
   * @group normal_funcs
   * @since 1.6.0
   */
  def spark_partition_id(): Column = withExpr { SparkPartitionID() }

  /**
   * 创建一个新的结构列。
   * 如果输入列是`DataFrame`中的列，或者是已命名的导出列表达式，
   * 则它的名称将保留为StructField的名称；
   * 否则，新生成的StructField的名称将自动生成为`col`加上后缀`index + 1`，
   * 即col1、col2、col3等。
   *
   * @group normal_funcs
   * @since 1.4.0
   */
  @scala.annotation.varargs
  def struct(cols: Column*): Column = withExpr { CreateStruct(cols.map(_.expr)) }

  /**
   * 创建一个新的结构列，由多个输入列组成。
   *
   * @group normal_funcs
   * @since 1.4.0
   */
  @scala.annotation.varargs
  def struct(colName: String, colNames: String*): Column = {
    struct((colName +: colNames).map(col) : _*)
  }

  /**
   * 计算一系列条件，并返回多个可能结果表达式之一。
   * 如果最后没有定义otherwise，则对于未匹配的条件返回null。
   *
   * {{{
   *   // 示例：将性别字符串列编码为整数。
   *
   *   // Scala：
   *   people.select(when(people("gender") === "male", 0)
   *     .when(people("gender") === "female", 1)
   *     .otherwise(2))
   *
   *   // Java：
   *   people.select(when(col("gender").equalTo("male"), 0)
   *     .when(col("gender").equalTo("female"), 1)
   *     .otherwise(2))
   * }}}
   *
   * @group normal_funcs
   * @since 1.4.0
   */
  def when(condition: Column, value: Any): Column = withExpr {
    CaseWhen(Seq((condition.expr, lit(value).expr)))
  }

  /**
   * 计算一个数的按位取反（~）。
   *
   * @group normal_funcs
   * @since 1.4.0
   */
  def bitwiseNOT(e: Column): Column = withExpr { BitwiseNot(e.expr) }

  /**
   * 将表达式字符串解析为表示其列的列，类似于[[Dataset#selectExpr]]。
   * {{{
   *   // 获取每个长度的单词数
   *   df.groupBy(expr("length(word)")).count()
   * }}}
   *
   * @group normal_funcs
   */
  def expr(expr: String): Column = {
    val parser = SparkSession.getActiveSession.map(_.sessionState.sqlParser).getOrElse {
      new SparkSqlParser(new SQLConf)
    }
    Column(parser.parseExpression(expr))
  }

数学函数




  /**
   * 计算给定值的平方根。
   *
   * @group math_funcs
   * @since 1.3.0
   */
  def sqrt(e: Column): Column = withExpr { Sqrt(e.expr) }

  /**
   * 计算给定值的平方根。
   *
   * @group math_funcs
   * @since 1.5.0
   */
  def sqrt(colName: String): Column = sqrt(Column(colName))



  //
  // Math Functions
  //

  /**
   * 计算数值的绝对值。
   *
   * @group math_funcs
   * @since 1.3.0
   */
  def abs(e: Column): Column = withExpr { Abs(e.expr) }

  /**
   * @return 返回`e`的反余弦值（以弧度为单位），如同通过`java.lang.Math.acos`计算得到的那样
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def acos(e: Column): Column = withExpr { Acos(e.expr) }

  /**
   * @return 返回`columnName`的反余弦值，如同通过`java.lang.Math.acos`计算得到的那样
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def acos(columnName: String): Column = acos(Column(columnName))

  /**
   * @return 返回`e`的反正弦值（以弧度为单位），如同通过`java.lang.Math.asin`计算得到的那样
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def asin(e: Column): Column = withExpr { Asin(e.expr) }

  /**
   * @return 返回`columnName`的反正弦值，如同通过`java.lang.Math.asin`计算得到的那样
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def asin(columnName: String): Column = asin(Column(columnName))

  /**
   * @return 返回`e`的反正切值，如同通过`java.lang.Math.atan`计算得到的那样
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def atan(e: Column): Column = withExpr { Atan(e.expr) }

  /**
   * @return 返回`columnName`的反正切值，如同通过`java.lang.Math.atan`计算得到的那样
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def atan(columnName: String): Column = atan(Column(columnName))

  /**
   * @param y y轴上的坐标
   * @param x x轴上的坐标
   * @return 对应于笛卡尔坐标中的点（x，y）的极坐标中的组件的<θ>值，
   *         如同通过`java.lang.Math.atan2`计算得到的那样
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def atan2(y: Column, x: Column): Column = withExpr { Atan2(y.expr, x.expr) }

  /**
   * @param y y轴上的坐标
   * @param xName x轴上的坐标
   * @return 对应于笛卡尔坐标中的点（x，y）的极坐标中的组件的<θ>值，
   *         如同通过`java.lang.Math.atan2`计算得到的那样
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def atan2(y: Column, xName: String): Column = atan2(y, Column(xName))

  /**
   * @param yName y轴上的坐标
   * @param x x轴上的坐标
   * @return 对应于笛卡尔坐标中的点（x，y）的极坐标中的组件的<θ>值，
   *         如同通过`java.lang.Math.atan2`计算得到的那样
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def atan2(yName: String, x: Column): Column = atan2(Column(yName), x)

  /**
   * @param yName y轴上的坐标
   * @param xName x轴上的坐标
   * @return 对应于笛卡尔坐标中的点（x，y）的极坐标中的组件的<θ>值，
   *         如同通过`java.lang.Math.atan2`计算得到的那样
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def atan2(yName: String, xName: String): Column =
    atan2(Column(yName), Column(xName))

  /**
   * @param y y轴上的坐标
   * @param xValue x轴上的坐标
   * @return 对应于笛卡尔坐标中的点（x，y）的极坐标中的组件的<θ>值，
   *         如同通过`java.lang.Math.atan2`计算得到的那样
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def atan2(y: Column, xValue: Double): Column = atan2(y, lit(xValue))

  /**
   * @param yName y轴上的坐标
   * @param xValue x轴上的坐标
   * @return 对应于笛卡尔坐标中的点（x，y）的极坐标中的组件的<θ>值，
   *         如同通过`java.lang.Math.atan2`计算得到的那样
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def atan2(yName: String, xValue: Double): Column = atan2(Column(yName), xValue)

  /**
   * @param yValue y轴上的坐标
   * @param x x轴上的坐标
   * @return 对应于笛卡尔坐标中的点（x，y）的极坐标中的组件的<θ>值，
   *         如同通过`java.lang.Math.atan2`计算得到的那样
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def atan2(yValue: Double, x: Column): Column = atan2(lit(yValue), x)

  /**
   * @param yValue y轴上的坐标
   * @param xName x轴上的坐标
   * @return 对应于笛卡尔坐标中的点（x，y）的极坐标中的组件的<θ>值，
   *         如同通过`java.lang.Math.atan2`计算得到的那样
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def atan2(yValue: Double, xName: String): Column = atan2(yValue, Column(xName))

  /**
   * 返回具有给定长整型列的二进制值的字符串表示形式。
   * 例如，bin("12")返回"1100"。
   *
   * @group math_funcs
   * @since 1.5.0
   */
  def bin(e: Column): Column = withExpr { Bin(e.expr) }

  /**
   * 返回具有给定长整型列的二进制值的字符串表示形式。
   * 例如，bin("12")返回"1100"。
   *
   * @group math_funcs
   * @since 1.5.0
   */
  def bin(columnName: String): Column = bin(Column(columnName))

  /**
   * 计算给定值的立方根。
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def cbrt(e: Column): Column = withExpr { Cbrt(e.expr) }

  /**
   * 计算给定列的立方根。
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def cbrt(columnName: String): Column = cbrt(Column(columnName))

  /**
   * 计算给定值的上限。
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def ceil(e: Column): Column = withExpr { Ceil(e.expr) }

  /**
   * 计算给定列的上限。
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def ceil(columnName: String): Column = ceil(Column(columnName))

  /**
   * 将一个字符串列中的数字从一种进制转换为另一种进制。
   *
   * @group math_funcs
   * @since 1.5.0
   */
  def conv(num: Column, fromBase: Int, toBase: Int): Column = withExpr {
    Conv(num.expr, lit(fromBase).expr, lit(toBase).expr)
  }

  /**
   * 返回角度的余弦值，类似于`java.lang.Math.cos`计算得到的值。
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def cos(e: Column): Column = withExpr { Cos(e.expr) }

  /**
   * 返回角度的余弦值，类似于`java.lang.Math.cos`计算得到的值。
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def cos(columnName: String): Column = cos(Column(columnName))

  /**
   * 返回给定值的双曲余弦值，类似于`java.lang.Math.cosh`计算得到的值。
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def cosh(e: Column): Column = withExpr { Cosh(e.expr) }

  /**
   * 返回给定值的双曲余弦值，类似于`java.lang.Math.cosh`计算得到的值。
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def cosh(columnName: String): Column = cosh(Column(columnName))

  /**
   * 计算给定值的指数。
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def exp(e: Column): Column = withExpr { Exp(e.expr) }

  /**
   * 计算给定列的指数。
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def exp(columnName: String): Column = exp(Column(columnName))

  /**
   * 计算给定值减一的指数。
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def expm1(e: Column): Column = withExpr { Expm1(e.expr) }

  /**
   * 计算给定列减一的指数。
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def expm1(columnName: String): Column = expm1(Column(columnName))

  /**
   * 计算给定值的阶乘。
   *
   * @group math_funcs
   * @since 1.5.0
   */
  def factorial(e: Column): Column = withExpr { Factorial(e.expr) }

  /**
   * 计算给定值的下舍整数。
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def floor(e: Column): Column = withExpr { Floor(e.expr) }

  /**
   * 计算给定列的下舍整数。
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def floor(columnName: String): Column = floor(Column(columnName))

  /**
   * 返回值列表中的最大值，跳过null值。该函数至少需要2个参数。当所有参数都为null时返回null。
   *
   * @group normal_funcs
   * @since 1.5.0
   */
  @scala.annotation.varargs
  def greatest(exprs: Column*): Column = withExpr { Greatest(exprs.map(_.expr)) }

  /**
   * 返回列名列表中的最大值，跳过null值。该函数至少需要2个参数。当所有参数都为null时返回null。
   *
   * @group normal_funcs
   * @since 1.5.0
   */
  @scala.annotation.varargs
  def greatest(columnName: String, columnNames: String*): Column = {
    greatest((columnName +: columnNames).map(Column.apply): _*)
  }

  /**
   * 计算给定列的十六进制值。
   *
   * @group math_funcs
   * @since 1.5.0
   */
  def hex(column: Column): Column = withExpr { Hex(column.expr) }

  /**
   * 对十六进制值进行解码。将每对字符解释为一个十六进制数字，并转换为相应的字节表示形式。
   *
   * @group math_funcs
   * @since 1.5.0
   */
  def unhex(column: Column): Column = withExpr { Unhex(column.expr) }

  /**
   * 计算 `sqrt(a^2^ + b^2^)` ，避免溢出或下溢。
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def hypot(l: Column, r: Column): Column = withExpr { Hypot(l.expr, r.expr) }

  /**
   * 计算 `sqrt(a^2^ + b^2^)` ，避免溢出或下溢。
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def hypot(l: Column, rightName: String): Column = hypot(l, Column(rightName))

  /**
   * 计算 `sqrt(a^2^ + b^2^)` ，避免溢出或下溢。
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def hypot(leftName: String, r: Column): Column = hypot(Column(leftName), r)

  /**
   * 计算 `sqrt(a^2^ + b^2^)` ，避免溢出或下溢。
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def hypot(leftName: String, rightName: String): Column =
    hypot(Column(leftName), Column(rightName))

  /**
   * 计算 `sqrt(a^2^ + b^2^)` ，避免溢出或下溢。
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def hypot(l: Column, r: Double): Column = hypot(l, lit(r))

  /**
   * 计算 `sqrt(a^2^ + b^2^)` ，避免溢出或下溢。
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def hypot(leftName: String, r: Double): Column = hypot(Column(leftName), r)

  /**
   * 计算 `sqrt(a^2^ + b^2^)` ，避免溢出或下溢。
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def hypot(l: Double, r: Column): Column = hypot(lit(l), r)

  /**
   * 计算 `sqrt(a^2^ + b^2^)` ，避免溢出或下溢。
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def hypot(l: Double, rightName: String): Column = hypot(l, Column(rightName))

  /**
   * 返回值列表中的最小值，跳过null值。该函数至少需要2个参数。当所有参数都为null时返回null。
   *
   * @group normal_funcs
   * @since 1.5.0
   */
  @scala.annotation.varargs
  def least(exprs: Column*): Column = withExpr { Least(exprs.map(_.expr)) }

  /**
   * 返回列名列表中的最小值，跳过null值。该函数至少需要2个参数。当所有参数都为null时返回null。
   *
   * @group normal_funcs
   * @since 1.5.0
   */
  @scala.annotation.varargs
  def least(columnName: String, columnNames: String*): Column = {
    least((columnName +: columnNames).map(Column.apply): _*)
  }

  /**
   * 计算给定值的自然对数。
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def log(e: Column): Column = withExpr { Log(e.expr) }

  /**
   * 计算给定列的自然对数。
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def log(columnName: String): Column = log(Column(columnName))

  /**
   * 返回以给定底数为基的对数值。
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def log(base: Double, a: Column): Column = withExpr { Logarithm(lit(base).expr, a.expr) }

  /**
   * 返回以给定底数为基的对数值。
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def log(base: Double, columnName: String): Column = log(base, Column(columnName))

  /**
   * 计算给定值的以10为底的对数。
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def log10(e: Column): Column = withExpr { Log10(e.expr) }

  /**
   * 计算给定列的以10为底的对数。
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def log10(columnName: String): Column = log10(Column(columnName))

  /**
   * 计算给定值加一的自然对数。
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def log1p(e: Column): Column = withExpr { Log1p(e.expr) }

  /**
   * 计算给定列加一的自然对数。
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def log1p(columnName: String): Column = log1p(Column(columnName))

  /**
   * 计算给定列的以2为底的对数。
   *
   * @group math_funcs
   * @since 1.5.0
   */
  def log2(expr: Column): Column = withExpr { Log2(expr.expr) }

  /**
   * 计算给定值的以2为底的对数。
   *
   * @group math_funcs
   * @since 1.5.0
   */
  def log2(columnName: String): Column = log2(Column(columnName))

  /**
   * 返回第一个参数的第二个参数次幂的值。
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def pow(l: Column, r: Column): Column = withExpr { Pow(l.expr, r.expr) }

  /**
   * 返回第一个参数的第二个参数次幂的值。
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def pow(l: Column, rightName: String): Column = pow(l, Column(rightName))

  /**
   * 返回第一个参数的第二个参数次幂的值。
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def pow(leftName: String, r: Column): Column = pow(Column(leftName), r)

  /**
   * 返回第一个参数的第二个参数次幂的值。
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def pow(leftName: String, rightName: String): Column = pow(Column(leftName), Column(rightName))

  /**
   * 返回第一个参数的第二个参数次幂的值。
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def pow(l: Column, r: Double): Column = pow(l, lit(r))

  /**
   * 返回第一个参数的第二个参数次幂的值。
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def pow(leftName: String, r: Double): Column = pow(Column(leftName), r)

  /**
   * 返回第一个参数的第二个参数次幂的值。
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def pow(l: Double, r: Column): Column = pow(lit(l), r)

  /**
   * 返回第一个参数的第二个参数次幂的值。
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def pow(l: Double, rightName: String): Column = pow(l, Column(rightName))

  /**
   * 返回除法中的正数被除数模除除数的正数余数。
   *
   * @group math_funcs
   * @since 1.5.0
   */
  def pmod(dividend: Column, divisor: Column): Column = withExpr {
    Pmod(dividend.expr, divisor.expr)
  }

  /**
   * 返回最接近参数的整数，四舍五入到最接近的整数。
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def rint(e: Column): Column = withExpr { Rint(e.expr) }

  /**
   * 返回最接近参数的整数，四舍五入到最接近的整数。
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def rint(columnName: String): Column = rint(Column(columnName))

  /**
   * 返回列 `e` 的值向0舍入到0位小数的结果，使用HALF_UP舍入模式。
   *
   * @group math_funcs
   * @since 1.5.0
   */
  def round(e: Column): Column = round(e, 0)

  /**
   * 将列 `e` 的值舍入到 `scale` 位小数，使用HALF_UP舍入模式，
   * 如果 `scale` 大于等于0或者在 `scale` 小于0时取整数部分。
   *
   * @group math_funcs
   * @since 1.5.0
   */
  def round(e: Column, scale: Int): Column = withExpr { Round(e.expr, Literal(scale)) }

  /**
   * 返回列 `e` 的值向0舍入到0位小数的结果，使用HALF_EVEN舍入模式。
   *
   * @group math_funcs
   * @since 2.0.0
   */
  def bround(e: Column): Column = bround(e, 0)

  /**
   * 将列 `e` 的值舍入到 `scale` 位小数，使用HALF_EVEN舍入模式，
   * 如果 `scale` 大于等于0或者在 `scale` 小于0时取整数部分。
   *
   * @group math_funcs
   * @since 2.0.0
   */
  def bround(e: Column, scale: Int): Column = withExpr { BRound(e.expr, Literal(scale)) }

  /**
   * 将给定值向左移动 `numBits` 位。如果给定值是long类型，则返回long类型，否则返回整型。
   *
   * @group math_funcs
   * @since 1.5.0
   */
  def shiftLeft(e: Column, numBits: Int): Column = withExpr { ShiftLeft(e.expr, lit(numBits).expr) }

  /**
   * （有符号）将给定值向右移动 `numBits` 位。如果给定值是long类型，则返回long类型，否则返回整型。
   *
   * @group math_funcs
   * @since 1.5.0
   */
  def shiftRight(e: Column, numBits: Int): Column = withExpr {
    ShiftRight(e.expr, lit(numBits).expr)
  }

  /**
   * 无符号地将给定值向右移动 `numBits` 位。如果给定值是long类型，则返回long类型，否则返回整型。
   *
   * @group math_funcs
   * @since 1.5.0
   */
  def shiftRightUnsigned(e: Column, numBits: Int): Column = withExpr {
    ShiftRightUnsigned(e.expr, lit(numBits).expr)
  }

  /**
   * 计算给定值的符号。
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def signum(e: Column): Column = withExpr { Signum(e.expr) }

  /**
   * 计算给定列的符号。
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def signum(columnName: String): Column = signum(Column(columnName))

  /**
   * 返回角度的正弦值，类似于`java.lang.Math.sin`计算得到的值。
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def sin(e: Column): Column = withExpr { Sin(e.expr) }

  /**
   * 返回角度的正弦值，类似于`java.lang.Math.sin`计算得到的值。
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def sin(columnName: String): Column = sin(Column(columnName))

  /**
   * 返回给定值的双曲正弦值，类似于`java.lang.Math.sinh`计算得到的值。
   *
   * @group math_funcs
   * @since 1.4.0
   */
  def sinh(e: Column): Column = withExpr { Sinh(e.expr) }

/**
 * 返回给定值的双曲正弦值，类似于`java.lang.Math.sinh`计算得到的值。
 *
 * @param columnName 双曲角
 * @return 给定值的双曲正弦值，类似于`java.lang.Math.sinh`计算得到的值。
 *
 * @group math_funcs
 * @since 1.4.0
 */
def sinh(columnName: String): Column = sinh(Column(columnName))

/**
 * 返回角度的正切值，类似于`java.lang.Math.tan`计算得到的值。
 *
 * @param e 弧度角
 * @return 角度的正切值，类似于`java.lang.Math.tan`计算得到的值。
 *
 * @group math_funcs
 * @since 1.4.0
 */
def tan(e: Column): Column = withExpr { Tan(e.expr) }

/**
 * 返回角度的正切值，类似于`java.lang.Math.tan`计算得到的值。
 *
 * @param columnName 弧度角
 * @return 角度的正切值，类似于`java.lang.Math.tan`计算得到的值。
 *
 * @group math_funcs
 * @since 1.4.0
 */
def tan(columnName: String): Column = tan(Column(columnName))

/**
 * 返回给定值的双曲正切值，类似于`java.lang.Math.tanh`计算得到的值。
 *
 * @param e 双曲角
 * @return 给定值的双曲正切值，类似于`java.lang.Math.tanh`计算得到的值。
 *
 * @group math_funcs
 * @since 1.4.0
 */
def tanh(e: Column): Column = withExpr { Tanh(e.expr) }

/**
 * 返回给定值的双曲正切值，类似于`java.lang.Math.tanh`计算得到的值。
 *
 * @param columnName 双曲角
 * @return 给定值的双曲正切值，类似于`java.lang.Math.tanh`计算得到的值。
 *
 * @group math_funcs
 * @since 1.4.0
 */
def tanh(columnName: String): Column = tanh(Column(columnName))

/**
 * @group math_funcs
 * @since 1.4.0
 * @deprecated("Use degrees", "2.1.0")
 * 将弧度转换为度数。
 */
def toDegrees(e: Column): Column = degrees(e)

/**
 * @group math_funcs
 * @since 1.4.0
 * @deprecated("Use degrees", "2.1.0")
 * 将弧度转换为度数。
 */
def toDegrees(columnName: String): Column = degrees(Column(columnName))

/**
 * 将以弧度表示的角度转换为大致相等的以度数表示的角度。
 *
 * @param e 弧度角
 * @return 以度数表示的角度，类似于`java.lang.Math.toDegrees`
 *
 * @group math_funcs
 * @since 2.1.0
 */
def degrees(e: Column): Column = withExpr { ToDegrees(e.expr) }

/**
 * 将以弧度表示的角度转换为大致相等的以度数表示的角度。
 *
 * @param columnName 弧度角
 * @return 以度数表示的角度，类似于`java.lang.Math.toDegrees`
 *
 * @group math_funcs
 * @since 2.1.0
 */
def degrees(columnName: String): Column = degrees(Column(columnName))

/**
 * @group math_funcs
 * @since 1.4.0
 * @deprecated("Use radians", "2.1.0")
 * 将度数转换为弧度。
 */
def toRadians(e: Column): Column = radians(e)

/**
 * @group math_funcs
 * @since 1.4.0
 * @deprecated("Use radians", "2.1.0")
 * 将度数转换为弧度。
 */
def toRadians(columnName: String): Column = radians(Column(columnName))

/**
 * 将以度数表示的角度转换为大致相等的以弧度表示的角度。
 *
 * @param e 度数角
 * @return 以弧度表示的角度，类似于`java.lang.Math.toRadians`
 *
 * @group math_funcs
 * @since 2.1.0
 */
def radians(e: Column): Column = withExpr { ToRadians(e.expr) }

/**
 * 将以度数表示的角度转换为大致相等的以弧度表示的角度。
 *
 * @param columnName 度数角
 * @return 以弧度表示的角度，类似于`java.lang.Math.toRadians`
 *
 * @group math_funcs
 * @since 2.1.0
 */
def radians(columnName: String): Column = radians(Column(columnName))

misc_funcs 杂项函数

//
// Misc functions
//

/**
 * 计算二进制列的MD5摘要，并将结果作为32个字符的十六进制字符串返回。
 *
 * @group misc_funcs
 * @since 1.5.0
 */
def md5(e: Column): Column = withExpr { Md5(e.expr) }

/**
 * 计算二进制列的SHA-1摘要，并将结果作为40个字符的十六进制字符串返回。
 *
 * @group misc_funcs
 * @since 1.5.0
 */
def sha1(e: Column): Column = withExpr { Sha1(e.expr) }

/**
 * 计算二进制列的SHA-2系列散列函数，并将结果作为十六进制字符串返回。
 *
 * @param e 要计算SHA-2的列
 * @param numBits 224、256、384或512中的一个
 *
 * @group misc_funcs
 * @since 1.5.0
 */
def sha2(e: Column, numBits: Int): Column = {
  require(Seq(0, 224, 256, 384, 512).contains(numBits),
    s"numBits $numBits is not in the permitted values (0, 224, 256, 384, 512)")
  withExpr { Sha2(e.expr, lit(numBits).expr) }
}

/**
 * 计算二进制列的循环冗余校验值(CRC32)，并将结果作为bigint返回。
 *
 * @group misc_funcs
 * @since 1.5.0
 */
def crc32(e: Column): Column = withExpr { Crc32(e.expr) }

/**
 * 计算给定列的哈希码，并将结果作为int列返回。
 *
 * @group misc_funcs
 * @since 2.0.0
 */
@scala.annotation.varargs
def hash(cols: Column*): Column = withExpr {
  new Murmur3Hash(cols.map(_.expr))
}

string_funcs 字符串函数

//
// String functions
//

/**
 * 计算字符串列第一个字符的数字值，并将结果作为int列返回。
 *
 * @group string_funcs
 * @since 1.5.0
 */
def ascii(e: Column): Column = withExpr { Ascii(e.expr) }

/**
 * 计算二进制列的BASE64编码，并将结果作为字符串列返回。
 * 这是unbase64的反操作。
 *
 * @group string_funcs
 * @since 1.5.0
 */
def base64(e: Column): Column = withExpr { Base64(e.expr) }

/**
 * 将多个输入字符串列连接成单个字符串列，使用给定的分隔符。
 *
 * @group string_funcs
 * @since 1.5.0
 */
@scala.annotation.varargs
def concat_ws(sep: String, exprs: Column*): Column = withExpr {
  ConcatWs(Literal.create(sep, StringType) +: exprs.map(_.expr))
}

/**
 * 使用提供的字符集（'US-ASCII', 'ISO-8859-1', 'UTF-8', 'UTF-16BE', 'UTF-16LE', 'UTF-16'之一）
 * 将第一个参数解码为字符串。如果任一参数为空，则结果也为空。
 *
 * @group string_funcs
 * @since 1.5.0
 */
def decode(value: Column, charset: String): Column = withExpr {
  Decode(value.expr, lit(charset).expr)
}

/**
 * 使用提供的字符集（'US-ASCII', 'ISO-8859-1', 'UTF-8', 'UTF-16BE', 'UTF-16LE', 'UTF-16'之一）
 * 将第一个参数编码为二进制。如果任一参数为空，则结果也为空。
 *
 * @group string_funcs
 * @since 1.5.0
 */
def encode(value: Column, charset: String): Column = withExpr {
  Encode(value.expr, lit(charset).expr)
}

/**
 * 格式化数字列x为类似于'#,###,###.##'的格式，四舍五入到d位小数，
 * 使用HALF_EVEN舍入模式，并将结果作为字符串列返回。
 *
 * 如果d为0，则结果没有小数点或小数部分。
 * 如果d小于0，则结果将为空。
 *
 * @group string_funcs
 * @since 1.5.0
 */
def format_number(x: Column, d: Int): Column = withExpr {
  FormatNumber(x.expr, lit(d).expr)
}

/**
 * 使用printf样式格式化参数，并将结果作为字符串列返回。
 *
 * @group string_funcs
 * @since 1.5.0
 */
@scala.annotation.varargs
def format_string(format: String, arguments: Column*): Column = withExpr {
  FormatString((lit(format) +: arguments).map(_.expr): _*)
}

/**
 * 返回一个新的字符串列，其中每个单词的首字母转换为大写。
 * 单词由空格分隔。
 *
 * 例如，"hello world"将变为"Hello World"。
 *
 * @group string_funcs
 * @since 1.5.0
 */
def initcap(e: Column): Column = withExpr { InitCap(e.expr) }

/**
 * 定位给定字符串中子字符串的第一个出现位置。
 * 如果任一参数为空，则返回null。
 *
 * 注意：位置不是从零开始，而是从1开始的索引。如果在str中找不到substr，则返回0。
 *
 * @group string_funcs
 * @since 1.5.0
 */
def instr(str: Column, substring: String): Column = withExpr {
  StringInstr(str.expr, lit(substring).expr)
}

/**
 * 计算给定字符串的字符长度或给定二进制字符串的字节数。
 * 字符串的长度包括尾部的空格。二进制字符串的长度包括二进制零。
 *
 * @group string_funcs
 * @since 1.5.0
 */
def length(e: Column): Column = withExpr { Length(e.expr) }

/**
 * 将字符串列转换为小写。
 *
 * @group string_funcs
 * @since 1.3.0
 */
def lower(e: Column): Column = withExpr { Lower(e.expr) }

/**
 * 计算两个给定字符串列的Levenshtein距离。
 * @group string_funcs
 * @since 1.5.0
 */
def levenshtein(l: Column, r: Column): Column = withExpr { Levenshtein(l.expr, r.expr) }

/**
 * 在给定字符串中定位子字符串的第一个出现位置。
 *
 * 注意：位置不是从零开始，而是从1开始的索引。如果在str中找不到substr，则返回0。
 *
 * @group string_funcs
 * @since 1.5.0
 */
def locate(substr: String, str: Column): Column = withExpr {
  new StringLocate(lit(substr).expr, str.expr)
}

/**
 * 在给定字符串中定位子字符串的第一个出现位置，位置从pos开始。
 *
 * 注意：位置不是从零开始，而是从1开始的索引。如果在str中找不到substr，则返回0。
 *
 * @group string_funcs
 * @since 1.5.0
 */
def locate(substr: String, str: Column, pos: Int): Column = withExpr {
  StringLocate(lit(substr).expr, str.expr, lit(pos).expr)
}

/**
 * 使用pad右填充字符串列，使其长度达到len。如果字符串列超过len，则返回值将被截断为len个字符。
 *
 * @group string_funcs
 * @since 1.5.0
 */
def lpad(str: Column, len: Int, pad: String): Column = withExpr {
  StringLPad(str.expr, lit(len).expr, lit(pad).expr)
}

/**
 * 从指定字符串值的左端删除空格。
 *
 * @group string_funcs
 * @since 1.5.0
 */
def ltrim(e: Column): Column = withExpr {StringTrimLeft(e.expr) }

/**
 * 从指定字符串列的左端删除指定的字符字符串。
 * @group string_funcs
 * @since 2.3.0
 */
def ltrim(e: Column, trimString: String): Column = withExpr {
  StringTrimLeft(e.expr, Literal(trimString))
}

/**
 * 从指定字符串表达式中提取与Java正则表达式匹配的特定组。如果正则表达式未匹配或指定的组未匹配，则返回空字符串。
 *
 * @group string_funcs
 * @since 1.5.0
 */
def regexp_extract(e: Column, exp: String, groupIdx: Int): Column = withExpr {
  RegExpExtract(e.expr, lit(exp).expr, lit(groupIdx).expr)
}

/**
 * 使用rep替换指定字符串值的所有子字符串。
 *
 * @group string_funcs
 * @since 1.5.0
 */
def regexp_replace(e: Column, pattern: String, replacement: String): Column = withExpr {
  RegExpReplace(e.expr, lit(pattern).expr, lit(replacement).expr)
}

/**
 * 使用rep替换指定字符串值的所有子字符串。
 *
 * @group string_funcs
 * @since 2.1.0
 */
def regexp_replace(e: Column, pattern: Column, replacement: Column): Column = withExpr {
  RegExpReplace(e.expr, pattern.expr, replacement.expr)
}

/**
 * 解码一个BASE64编码的字符串列，并将其作为二进制列返回。
 * 这是base64的反操作。
 *
 * @group string_funcs
 * @since 1.5.0
 */
def unbase64(e: Column): Column = withExpr { UnBase64(e.expr) }

/**
 * 使用pad右填充字符串列，使其长度达到len。如果字符串列超过len，则返回值将被截断为len个字符。
 *
 * @group string_funcs
 * @since 1.5.0
 */
def rpad(str: Column, len: Int, pad: String): Column = withExpr {
  StringRPad(str.expr, lit(len).expr, lit(pad).expr)
}

/**
 * 将字符串列重复n次，并将其作为新的字符串列返回。
 *
 * @group string_funcs
 * @since 1.5.0
 */
def repeat(str: Column, n: Int): Column = withExpr {
  StringRepeat(str.expr, lit(n).expr)
}

/**
 * 从指定字符串值的右端删除空格。
 *
 * @group string_funcs
 * @since 1.5.0
 */
def rtrim(e: Column): Column = withExpr { StringTrimRight(e.expr) }

/**
 * 从指定字符串列的右端删除指定的字符字符串。
 * @group string_funcs
 * @since 2.3.0
 */
def rtrim(e: Column, trimString: String): Column = withExpr {
  StringTrimRight(e.expr, Literal(trimString))
}

/**
 * 返回指定表达式的Soundex代码。
 *
 * @group string_funcs
 * @since 1.5.0
 */
def soundex(e: Column): Column = withExpr { SoundEx(e.expr) }

/**
 * 使用pattern（pattern是一个正则表达式）在str周围拆分。
 *
 * 注意：pattern是正则表达式的字符串表示形式。
 *
 * @group string_funcs
 * @since 1.5.0
 */
def split(str: Column, pattern: String): Column = withExpr {
  StringSplit(str.expr, lit(pattern).expr)
}

/**
 * 返回字符串列的子串，子串从`pos`开始，长度为`len`
 * 当str是String类型时，或者返回二进制数组的切片，该切片从`pos`开始，长度为`len`，当str是Binary类型时。
 *
 * @note 位置不是基于0的，而是基于1的索引。
 *
 * @group string_funcs
 * @since 1.5.0
 */
def substring(str: Column, pos: Int, len: Int): Column = withExpr {
  Substring(str.expr, lit(pos).expr, lit(len).expr)
}

/**
 * 返回给定字符串中出现分隔符delim之前的子字符串。
 * 如果count是正数，则返回分隔符的左侧部分（从左开始计数）。
 * 如果count是负数，则返回分隔符的右侧部分（从右开始计数）。
 * substring_index在搜索delim时执行区分大小写的匹配。
 *
 * @group string_funcs
 */
def substring_index(str: Column, delim: String, count: Int): Column = withExpr {
  SubstringIndex(str.expr, lit(delim).expr, lit(count).expr)
}

/**
 * 将源字符串中的任何字符替换为replaceString中的字符。
 * replaceString中的字符与matchingString中的字符相对应。
 * 当源字符串中的字符与matchingString中的字符匹配时，将进行替换。
 *
 * @group string_funcs
 * @since 1.5.0
 */
def translate(src: Column, matchingString: String, replaceString: String): Column = withExpr {
  StringTranslate(src.expr, lit(matchingString).expr, lit(replaceString).expr)
}

/**
 * 去掉字符串列两端的空格。
 *
 * @group string_funcs
 * @since 1.5.0
 */
def trim(e: Column): Column = withExpr { StringTrim(e.expr) }

/**
 * 去掉指定字符串列两端的指定字符。
 * @group string_funcs
 * @since 2.3.0
 */
def trim(e: Column, trimString: String): Column = withExpr {
  StringTrim(e.expr, Literal(trimString))
}

/**
 * 将字符串列转换为大写。
 *
 * @group string_funcs
 * @since 1.3.0
 */
def upper(e: Column): Column = withExpr { Upper(e.expr) }

日期时间函数

//
// DateTime functions
//

/**
 * 返回`startDate`之后`numMonths`个月的日期。
 *
 * @param startDate 一个日期、时间戳或字符串。如果是字符串，则数据必须以可以转换为日期的格式，例如`yyyy-MM-dd`或`yyyy-MM-dd HH:mm:ss.SSSS`
 * @param numMonths 要添加到`startDate`的月数，可以为负数以减去月数
 * @return 一个日期，如果`startDate`是无法转换为日期的字符串，则返回null
 * @group datetime_funcs
 * @since 1.5.0
 */
def add_months(startDate: Column, numMonths: Int): Column = withExpr {
  AddMonths(startDate.expr, Literal(numMonths))
}

/**
 * 返回当前日期作为日期列。
 *
 * @group datetime_funcs
 * @since 1.5.0
 */
def current_date(): Column = withExpr { CurrentDate() }

/**
 * 返回当前时间戳作为时间戳列。
 *
 * @group datetime_funcs
 * @since 1.5.0
 */
def current_timestamp(): Column = withExpr { CurrentTimestamp() }

/**
 * 将日期/时间戳/字符串转换为指定格式的字符串值。
 *
 * 有关有效日期和时间格式模式，请参见[[java.text.SimpleDateFormat]]
 *
 * @param dateExpr 日期、时间戳或字符串。如果是字符串，则数据必须以可以转换为时间戳的格式，例如`yyyy-MM-dd`或`yyyy-MM-dd HH:mm:ss.SSSS`
 * @param format 模式 `dd.MM.yyyy`将返回如`18.03.1993`的字符串
 * @return 一个字符串，如果`dateExpr`是无法转换为时间戳的字符串，则返回null
 * @note 尽可能使用专用函数（例如[[year]]），因为它们能从特殊实现中受益。
 * @throws IllegalArgumentException 如果`format`模式无效
 * @group datetime_funcs
 * @since 1.5.0
 */
def date_format(dateExpr: Column, format: String): Column = withExpr {
  DateFormatClass(dateExpr.expr, Literal(format))
}

/**
 * 返回`start`之后`days`天的日期。
 *
 * @param start 一个日期、时间戳或字符串。如果是字符串，则数据必须以可以转换为日期的格式，例如`yyyy-MM-dd`或`yyyy-MM-dd HH:mm:ss.SSSS`
 * @param days 要添加到`start`的天数，可以为负数以减去天数
 * @return 一个日期，如果`start`是无法转换为日期的字符串，则返回null
 * @group datetime_funcs
 * @since 1.5.0
 */
def date_add(start: Column, days: Int): Column = withExpr { DateAdd(start.expr, Literal(days)) }

/**
 * 返回`start`之前`days`天的日期。
 *
 * @param start 一个日期、时间戳或字符串。如果是字符串，则数据必须以可以转换为日期的格式，例如`yyyy-MM-dd`或`yyyy-MM-dd HH:mm:ss.SSSS`
 * @param days 要减去`start`的天数，可以为负数以添加天数
 * @return 一个日期，如果`start`是无法转换为日期的字符串，则返回null
 * @group datetime_funcs
 * @since 1.5.0
 */
def date_sub(start: Column, days: Int): Column = withExpr { DateSub(start.expr, Literal(days)) }

/**
 * 返回从`start`到`end`的天数。
 *
 * 只考虑输入的日期部分。例如：
 * {{{
 * dateddiff("2018-01-10 00:00:00", "2018-01-09 23:59:59")
 * // 返回1
 * }}}
 *
 * @param end 一个日期、时间戳或字符串。如果是字符串，则数据必须以可以转换为日期的格式，例如`yyyy-MM-dd`或`yyyy-MM-dd HH:mm:ss.SSSS`
 * @param start 一个日期、时间戳或字符串。如果是字符串，则数据必须以可以转换为日期的格式，例如`yyyy-MM-dd`或`yyyy-MM-dd HH:mm:ss.SSSS`
 * @return 一个整数，如果`end`或`start`是无法转换为日期的字符串，则返回null。如果`end`在`start`之前，则返回负数
 * @group datetime_funcs
 * @since 1.5.0
 */
def datediff(end: Column, start: Column): Column = withExpr { DateDiff(end.expr, start.expr) }

/**
 * 从给定日期/时间戳/字符串中提取年份作为整数。
 * @return 一个整数，如果输入是无法转换为日期的字符串，则返回null
 * @group datetime_funcs
 * @since 1.5.0
 */
def year(e: Column): Column = withExpr { Year(e.expr) }

/**
 * 从给定日期/时间戳/字符串中提取季度作为整数。
 * @return 一个整数，如果输入是无法转换为日期的字符串，则返回null
 * @group datetime_funcs
 * @since 1.5.0
 */
def quarter(e: Column): Column = withExpr { Quarter(e.expr) }

/**
 * 从给定日期/时间戳/字符串中提取月份作为整数。
 * @return 一个整数，如果输入是无法转换为日期的字符串，则返回null
 * @group datetime_funcs
 * @since 1.5.0
 */
def month(e: Column): Column = withExpr { Month(e.expr) }

/**
 * 从给定日期/时间戳/字符串中提取星期几作为整数。
 * 从星期天到星期六分别为1到7。
 * @return 一个整数，如果输入是无法转换为日期的字符串，则返回null
 * @group datetime_funcs
 * @since 2.3.0
 */
def dayofweek(e: Column): Column = withExpr { DayOfWeek(e.expr) }

/**
 * 从给定日期/时间戳/字符串中提取月份中的某天作为整数。
 * @return 一个整数，如果输入是无法转换为日期的字符串，则返回null
 * @group datetime_funcs
 * @since 1.5.0
 */
def dayofmonth(e: Column): Column = withExpr { DayOfMonth(e.expr) }

/**
 * 从给定日期/时间戳/字符串中提取年份中的某天作为整数。
 * @return 一个整数，如果输入是无法转换为日期的字符串，则返回null
 * @group datetime_funcs
 * @since 1.5.0
 */
def dayofyear(e: Column): Column = withExpr { DayOfYear(e.expr) }

/**
 * 从给定日期/时间戳/字符串中提取小时作为整数。
 * @return 一个整数，如果输入是无法转换为日期的字符串，则返回null
 * @group datetime_funcs
 * @since 1.5.0
 */
def hour(e: Column): Column = withExpr { Hour(e.expr) }

/**
 * 返回给定日期所在月份的最后一天。
 * 例如，输入"2015-07-27"返回"2015-07-31"，因为7月31日是2015年7月的最后一天。
 *
 * @param e 一个日期、时间戳或字符串。如果是字符串，则数据必须以可以转换为日期的格式，例如`yyyy-MM-dd`或`yyyy-MM-dd HH:mm:ss.SSSS`
 * @return 一个日期，如果输入是无法转换为日期的字符串，则返回null
 * @group datetime_funcs
 * @since 1.5.0
 */
def last_day(e: Column): Column = withExpr { LastDay(e.expr) }

/**
 * 从给定日期/时间戳/字符串中提取分钟作为整数。
 * @return 一个整数，如果输入是无法转换为日期的字符串，则返回null
 * @group datetime_funcs
 * @since 1.5.0
 */
def minute(e: Column): Column = withExpr { Minute(e.expr) }

/**
 * 返回`start`和`end`之间的月份数。
 *
 * 如果两个输入具有相同的日期，或者两者都是各自月份的最后一天，将返回一个整数。
 * 否则，假设每个月有31天，计算差异。
 *
 * 例如：
 * {{{
 * months_between("2017-11-14", "2017-07-14")  // 返回4.0
 * months_between("2017-01-01", "2017-01-10")  // 返回0.29032258
 * months_between("2017-06-01", "2017-06-16 12:00:00")  // 返回-0.5
 * }}}
 *
 * @param end 一个日期、时间戳或字符串。如果是字符串，则数据必须以可以转换为时间戳的格式，例如`yyyy-MM-dd`或`yyyy-MM-dd HH:mm:ss.SSSS`
 * @param start 一个日期、时间戳或字符串。如果是字符串，则数据必须以可以转换为时间戳的格式，例如`yyyy-MM-dd`或`yyyy-MM-dd HH:mm:ss.SSSS`
 * @return 一个双精度浮点数，如果`end`或`start`是无法转换为时间戳的字符串，则返回null。如果`end`在`start`之前，则返回负数
 * @group datetime_funcs
 * @since 1.5.0
 */
def months_between(end: Column, start: Column): Column = withExpr {
  new MonthsBetween(end.expr, start.expr)
}

/**
 * 返回`start`和`end`之间的月份数。如果将`roundOff`设置为true，则结果将四舍五入到8位小数；否则不进行四舍五入。
 * @group datetime_funcs
 * @since 2.4.0
 */
def months_between(end: Column, start: Column, roundOff: Boolean): Column = withExpr {
  MonthsBetween(end.expr, start.expr, lit(roundOff).expr)
}

/**
 * 返回给定日期的下一个星期几之后的日期。
 *
 * 例如，`next_day('2015-07-27', "Sunday")`返回2015-08-02，因为这是2015年7月27日之后的第一个星期日。
 *
 * @param date 一个日期、时间戳或字符串。如果是字符串，则数据必须以可以转换为日期的格式，例如`yyyy-MM-dd`或`yyyy-MM-dd HH:mm:ss.SSSS`
 * @param dayOfWeek 不区分大小写，接受："Mon", "Tue", "Wed", "Thu", "Fri", "Sat", "Sun"
 * @return 一个日期，如果`date`是无法转换为日期的字符串或`dayOfWeek`是无效值，则返回null
 * @group datetime_funcs
 * @since 1.5.0
 */
def next_day(date: Column, dayOfWeek: String): Column = withExpr {
  NextDay(date.expr, lit(dayOfWeek).expr)
}

/**
 * 从给定日期/时间戳/字符串中提取秒数作为整数。
 * @return 一个整数，如果输入是无法转换为时间戳的字符串，则返回null
 * @group datetime_funcs
 * @since 1.5.0
 */
def second(e: Column): Column = withExpr { Second(e.expr) }

/**
 * 从给定日期/时间戳/字符串中提取年份中的某周作为整数。
 *
 * 周被认为从星期一开始，第1周是具有大于3天的第一周，这是ISO 8601定义的
 *
 * @return 一个整数，如果输入是无法转换为日期的字符串，则返回null
 * @group datetime_funcs
 * @since 1.5.0
 */
def weekofyear(e: Column): Column = withExpr { WeekOfYear(e.expr) }

/**
 * 将从Unix纪元（1970-01-01 00:00:00 UTC）到的秒数转换为表示该时刻的时间戳的字符串，
 * 该时刻是在当前系统时区中的`yyyy-MM-dd HH:mm:ss`格式。
 *
 * @param ut 可以转换为long类型的数字，例如字符串或整数。可以为负数以表示Unix纪元之前的时间戳
 * @return 一个字符串，如果输入是无法转换为long的字符串，则返回null
 * @group datetime_funcs
 * @since 1.5.0
 */
def from_unixtime(ut: Column): Column = withExpr {
  FromUnixTime(ut.expr, Literal("yyyy-MM-dd HH:mm:ss"))
}
/**
 * 将给定的秒数从Unix纪元（1970-01-01 00:00:00 UTC）转换为表示该时刻的时间戳的字符串，
 * 该时刻是在当前系统时区中的给定格式。
 *
 * 可参考[[java.text.SimpleDateFormat]]获取有效的日期和时间格式模式
 *
 * @param ut 可以转换为long类型的数字，例如字符串或整数。可以为负数以表示Unix纪元之前的时间戳
 * @param f 日期时间格式模式，用于将输入格式化为字符串
 * @return 一个字符串，如果`ut`是无法转换为long的字符串，则返回null，或者`f`是无效的日期时间格式模式
 * @group datetime_funcs
 * @since 1.5.0
 */
def from_unixtime(ut: Column, f: String): Column = withExpr {
  FromUnixTime(ut.expr, Literal(f))
}

/**
 * 返回当前Unix时间戳（以秒为单位）作为长整型。
 *
 * @note 在同一查询中，所有`unix_timestamp`的调用返回相同的值
 * （即当前时间戳是在查询评估开始时计算的）。
 *
 * @group datetime_funcs
 * @since 1.5.0
 */
def unix_timestamp(): Column = withExpr {
  UnixTimestamp(CurrentTimestamp(), Literal("yyyy-MM-dd HH:mm:ss"))
}

/**
 * 将格式为`yyyy-MM-dd HH:mm:ss`的时间字符串转换为Unix时间戳（以秒为单位），
 * 使用默认时区和默认区域设置。
 *
 * @param s 一个日期、时间戳或字符串。如果是字符串，则数据必须以可以转换为时间戳的格式，例如`yyyy-MM-dd`或`yyyy-MM-dd HH:mm:ss.SSSS`
 * @return 一个长整型，如果输入是无法转换为正确格式的字符串，则返回null
 * @group datetime_funcs
 * @since 1.5.0
 */
def unix_timestamp(s: Column): Column = withExpr {
  UnixTimestamp(s.expr, Literal("yyyy-MM-dd HH:mm:ss"))
}

/**
 * 将给定日期/时间戳/字符串按照给定模式转换为Unix时间戳（以秒为单位）。
 *
 * 可参考[[java.text.SimpleDateFormat]]获取有效的日期和时间格式模式
 *
 * @param s 一个日期、时间戳或字符串。如果是字符串，则数据必须以可以转换为时间戳的格式，例如`yyyy-MM-dd`或`yyyy-MM-dd HH:mm:ss.SSSS`
 * @param p 字符串格式详细说明`s`在`s`是字符串时的格式
 * @return 一个长整型，如果`s`是无法转换为时间戳的字符串，则返回null。或者`p`是无效的格式
 * @group datetime_funcs
 * @since 1.5.0
 */
def unix_timestamp(s: Column, p: String): Column = withExpr { UnixTimestamp(s.expr, Literal(p)) }

/**
 * 根据`TimestampType`将列转换为时间戳。
 *
 * @param s 一个日期、时间戳或字符串。如果是字符串，则数据必须以可以转换为时间戳的格式，例如`yyyy-MM-dd`或`yyyy-MM-dd HH:mm:ss.SSSS`
 * @return 一个时间戳，如果输入是无法转换为时间戳的字符串，则返回null
 * @group datetime_funcs
 * @since 2.2.0
 */
def to_timestamp(s: Column): Column = withExpr {
  new ParseToTimestamp(s.expr)
}

/**
 * 将给定格式的时间字符串转换为时间戳。
 *
 * 可参考[[java.text.SimpleDateFormat]]获取有效的日期和时间格式模式
 *
 * @param s 一个日期、时间戳或字符串。如果是字符串，则数据必须以可以转换为时间戳的格式，例如`yyyy-MM-dd`或`yyyy-MM-dd HH:mm:ss.SSSS`
 * @param fmt 字符串格式详细说明`s`在`s`是字符串时的格式
 * @return 一个时间戳，如果`s`是无法转换为时间戳的字符串，则返回null，或者`fmt`是无效的格式
 * @group datetime_funcs
 * @since 2.2.0
 */
def to_timestamp(s: Column, fmt: String): Column = withExpr {
  new ParseToTimestamp(s.expr, Literal(fmt))
}

/**
 * 根据`DateType`将列转换为`DateType`。
 *
 * @group datetime_funcs
 * @since 1.5.0
 */
def to_date(e: Column): Column = withExpr { new ParseToDate(e.expr) }

/**
 * 将列转换为指定格式的`DateType`
 *
 * 可参考[[java.text.SimpleDateFormat]]获取有效的日期和时间格式模式
 *
 * @param e 一个日期、时间戳或字符串。如果是字符串，则数据必须以可以转换为日期的格式，例如`yyyy-MM-dd`或`yyyy-MM-dd HH:mm:ss.SSSS`
 * @param fmt 字符串格式详细说明`e`在`e`是字符串时的格式
 * @return 一个日期，如果`e`是无法转换为日期的字符串，则返回null，或者`fmt`是无效的格式
 * @group datetime_funcs
 * @since 2.2.0
 */
def to_date(e: Column, fmt: String): Column = withExpr {
  new ParseToDate(e.expr, Literal(fmt))
}

/**
 * 将日期按照给定格式截断到指定单位。
 *
 * 例如，`trunc("2018-11-19 12:01:19", "year")`返回2018-01-01
 *
 * @param date 一个日期、时间戳或字符串。如果是字符串，则数据必须以可以转换为日期的格式，例如`yyyy-MM-dd`或`yyyy-MM-dd HH:mm:ss.SSSS`
 * @param format: 'year', 'yyyy', 'yy' 表示按年截断，
 *               或 'month', 'mon', 'mm' 表示按月截断
 * @return 一个日期，如果`date`是无法转换为日期的字符串，则返回null，或者`format`是无效的值
 * @group datetime_funcs
 * @since 1.5.0
 */
def trunc(date: Column, format: String): Column = withExpr {
  TruncDate(date.expr, Literal(format))
}

/**
 * 将时间戳按照给定格式截断到指定单位。
 *
 * 例如，`date_tunc("2018-11-19 12:01:19", "year")`返回2018-01-01 00:00:00
 *
 * @param format: 'year', 'yyyy', 'yy' 表示按年截断，
 *                'month', 'mon', 'mm' 表示按月截断，
 *                'day', 'dd' 表示按日截断，
 *                其他选项为：'second', 'minute', 'hour', 'week', 'month', 'quarter'
 * @param timestamp 一个日期、时间戳或字符串。如果是字符串，则数据必须以可以转换为时间戳的格式，例如`yyyy-MM-dd`或`yyyy-MM-dd HH:mm:ss.SSSS`
 * @return 一个时间戳，如果`timestamp`是无法转换为时间戳的字符串，则返回null，或者`format`是无效的值
 * @group datetime_funcs
 * @since 2.3.0
 */
def date_trunc(format: String, timestamp: Column): Column = withExpr {
  TruncTimestamp(Literal(format), timestamp.expr)
}

/**
 * 给定一个类似于'2017-07-14 02:40:00.0'的时间戳，在UTC中解释它，并将该时间作为给定时区中的时间戳呈现。
 * 例如，'GMT+1'将产生'2017-07-14 03:40:00.0'。
 *
 * @param ts 一个日期、时间戳或字符串。如果是字符串，则数据必须以可以转换为时间戳的格式，例如`yyyy-MM-dd`或`yyyy-MM-dd HH:mm:ss.SSSS`
 * @param tz 详细说明输入应调整为的时区的字符串，例如`Europe/London`、`PST`或`GMT+5`
 * @return 一个时间戳，如果`ts`是无法转换为时间戳的字符串，则返回null，或者`tz`是无效的值
 * @group datetime_funcs
 * @since 1.5.0
 */
def from_utc_timestamp(ts: Column, tz: String): Column = withExpr {
  FromUTCTimestamp(ts.expr, Literal(tz))
}

/**
 * 给定一个类似于'2017-07-14 02:40:00.0'的时间戳，在UTC中解释它，并将该时间作为给定时区中的时间戳呈现。
 * 例如，'GMT+1'将产生'2017-07-14 03:40:00.0'。
 * @group datetime_funcs
 * @since 2.4.0
 */
def from_utc_timestamp(ts: Column, tz: Column): Column = withExpr {
  FromUTCTimestamp(ts.expr, tz.expr)
}

/**
 * 给定一个类似于'2017-07-14 02:40:00.0'的时间戳，在给定时区中解释它，并将该时间作为UTC中的时间戳呈现。
 * 例如，'GMT+1'将产生'2017-07-14 01:40:00.0'。
 *
 * @param ts 一个日期、时间戳或字符串。如果是字符串，则数据必须以可以转换为时间戳的格式，例如`yyyy-MM-dd`或`yyyy-MM-dd HH:mm:ss.SSSS`
 * @param tz 详细说明输入所属的时区的字符串，例如`Europe/London`、`PST`或`GMT+5`
 * @return 一个时间戳，如果`ts`是无法转换为时间戳的字符串，则返回null，或者`tz`是无效的值
 * @group datetime_funcs
 * @since 1.5.0
 */
def to_utc_timestamp(ts: Column, tz: String): Column = withExpr {
  ToUTCTimestamp(ts.expr, Literal(tz))
}

/**
 * 给定一个类似于'2017-07-14 02:40:00.0'的时间戳，在给定时区中解释它，并将该时间作为UTC中的时间戳呈现。
 * 例如，'GMT+1'将产生'2017-07-14 01:40:00.0'。
 * @group datetime_funcs
 * @since 2.4.0
 */
def to_utc_timestamp(ts: Column, tz: Column): Column = withExpr {
  ToUTCTimestamp(ts.expr, tz.expr)
}

/**
 * 将行按照给定时间戳列分桶到一个或多个时间窗口中。窗口的起始时间是包含的，但窗口的结束时间是不包含的，
 * 例如12:05将在窗口[12:05,12:10)中，但不在[12:00,12:05)中。窗口可以支持微秒精度。不支持按月份的窗口。
 *
 * 下面的示例将每10秒开始于整点后5秒的一个一分钟窗口的平均股票价格：
 *
 * {{{
 *   val df = ... // schema => timestamp: TimestampType, stockId: StringType, price: DoubleType
 *   df.groupBy(window($"time", "1 minute", "10 seconds", "5 seconds"), $"stockId")
 *     .agg(mean("price"))
 * }}}
 *
 * 窗口将会如下所示：
 *
 * {{{
 *   09:00:05-09:01:05
 *   09:00:15-09:01:15
 *   09:00:25-09:01:25 ...
 * }}}
 *
 * 对于流式查询，可以使用函数`current_timestamp`在处理时间上生成窗口。
 *
 * @param timeColumn 时间戳列或表达式，用于按时间进行窗口化。时间列必须是TimestampType类型。
 * @param windowDuration 字符串，指定窗口的宽度，例如`10 minutes`、`1 second`。请检查`org.apache.spark.unsafe.types.CalendarInterval`以获取有效的持续时间标识符。注意，持续时间是固定的时间长度，并且不随时间变化（根据日历）而变化。例如，`1 day`始终表示86,400,000毫秒，而不是日历天。
 * @param slideDuration 字符串，指定窗口的滑动间隔，例如`1 minute`。每个`slideDuration`将生成一个新的窗口。必须小于或等于`windowDuration`。请检查`org.apache.spark.unsafe.types.CalendarInterval`以获取有效的持续时间标识符。此持续时间同样是绝对的，并且不随时间变化（根据日历）而变化。
 * @param startTime 与1970-01-01 00:00:00 UTC相对偏移量，用于开始窗口间隔。例如，为了使小时滚动窗口从整点后15分钟开始，例如12:15-13:15、13:15-14:15...提供`startTime`作为`15 minutes`。
 *
 * @group datetime_funcs
 * @since 2.0.0
 */
def window(
    timeColumn: Column,
    windowDuration: String,
    slideDuration: String,
    startTime: String): Column = {
  withExpr {
    TimeWindow(timeColumn.expr, windowDuration, slideDuration, startTime)
  }.as("window")
}
/**
 * 将行按照给定时间戳列分桶到一个或多个时间窗口中。窗口的起始时间是包含的，但窗口的结束时间是不包含的，
 * 例如12:05将在窗口[12:05,12:10)中，但不在[12:00,12:05)中。窗口可以支持微秒精度。不支持按月份的窗口。
 * 窗口的开始时间从1970-01-01 00:00:00 UTC开始。
 * 下面的示例将每10秒生成一个一分钟窗口的平均股票价格：
 *
 * {{{
 *   val df = ... // schema => timestamp: TimestampType, stockId: StringType, price: DoubleType
 *   df.groupBy(window($"time", "1 minute", "10 seconds"), $"stockId")
 *     .agg(mean("price"))
 * }}}
 *
 * 窗口将会如下所示：
 *
 * {{{
 *   09:00:00-09:01:00
 *   09:00:10-09:01:10
 *   09:00:20-09:01:20 ...
 * }}}
 *
 * 对于流式查询，可以使用函数`current_timestamp`根据处理时间生成窗口。
 *
 * @param timeColumn 时间戳列或表达式，用于按时间进行窗口化。时间列必须是TimestampType类型。
 * @param windowDuration 字符串，指定窗口的宽度，例如`10 minutes`、`1 second`。请检查`org.apache.spark.unsafe.types.CalendarInterval`以获取有效的持续时间标识符。注意，持续时间是固定的时间长度，并且不随时间变化（根据日历）而变化。例如，`1 day`始终表示86,400,000毫秒，而不是日历天。
 * @param slideDuration 字符串，指定窗口的滑动间隔，例如`1 minute`。每个`slideDuration`将生成一个新的窗口。必须小于或等于`windowDuration`。请检查`org.apache.spark.unsafe.types.CalendarInterval`以获取有效的持续时间标识符。此持续时间同样是绝对的，并且不随时间变化（根据日历）而变化。
 *
 * @group datetime_funcs
 * @since 2.0.0
 */
def window(timeColumn: Column, windowDuration: String, slideDuration: String): Column = {
  window(timeColumn, windowDuration, slideDuration, "0 second")
}

/**
 * 给定一个时间戳列，生成滚动窗口。窗口的起始时间是包含的，但窗口的结束时间是不包含的，
 * 例如12:05将在窗口[12:05,12:10)中，但不在[12:00,12:05)中。窗口可以支持微秒精度。不支持按月份的窗口。
 * 窗口的开始时间从1970-01-01 00:00:00 UTC开始。
 * 下面的示例将每一分钟生成一个平均股票价格的滚动窗口：
 *
 * {{{
 *   val df = ... // schema => timestamp: TimestampType, stockId: StringType, price: DoubleType
 *   df.groupBy(window($"time", "1 minute"), $"stockId")
 *     .agg(mean("price"))
 * }}}
 *
 * 窗口将会如下所示：
 *
 * {{{
 *   09:00:00-09:01:00
 *   09:01:00-09:02:00
 *   09:02:00-09:03:00 ...
 * }}}
 *
 * 对于流式查询，可以使用函数`current_timestamp`根据处理时间生成窗口。
 *
 * @param timeColumn 时间戳列或表达式，用于按时间进行窗口化。时间列必须是TimestampType类型。
 * @param windowDuration 字符串，指定窗口的宽度，例如`10 minutes`、`1 second`。请检查`org.apache.spark.unsafe.types.CalendarInterval`以获取有效的持续时间标识符。
 *
 * @group datetime_funcs
 * @since 2.0.0
 */
def window(timeColumn: Column, windowDuration: String): Column = {
  window(timeColumn, windowDuration, windowDuration, "0 second")
}

collection_funcs 集合函数

//
// 集合函数
//

/**
 * 如果数组为null，则返回null；如果数组包含`value`，则返回true；否则返回false。
 *
 * @param column 数组列
 * @param value 值
 * @group collection_funcs
 * @since 1.5.0
 */
def array_contains(column: Column, value: Any): Column = withExpr {
  ArrayContains(column.expr, lit(value).expr)
}

/**
 * 如果`a1`和`a2`至少有一个非空元素，则返回`true`。如果两个数组都非空且其中任何一个包含`null`，则返回`null`。否则返回`false`。
 *
 * @param a1 数组列1
 * @param a2 数组列2
 * @group collection_funcs
 * @since 2.4.0
 */
def arrays_overlap(a1: Column, a2: Column): Column = withExpr {
  ArraysOverlap(a1.expr, a2.expr)
}

/**
 * 返回包含`x`从索引`start`开始（如果`start`为负数，则从末尾开始）的指定长度`length`的所有元素的数组。
 *
 * @param x 列
 * @param start 起始位置
 * @param length 长度
 * @group collection_funcs
 * @since 2.4.0
 */
def slice(x: Column, start: Int, length: Int): Column = withExpr {
  Slice(x.expr, Literal(start), Literal(length))
}

/**
 * 使用`delimiter`将`column`的元素连接起来。将null值替换为`nullReplacement`。
 *
 * @param column 列
 * @param delimiter 分隔符
 * @param nullReplacement 空值替换
 * @group collection_funcs
 * @since 2.4.0
 */
def array_join(column: Column, delimiter: String, nullReplacement: String): Column = withExpr {
  ArrayJoin(column.expr, Literal(delimiter), Some(Literal(nullReplacement)))
}

/**
 * 使用`delimiter`将`column`的元素连接起来。
 *
 * @param column 列
 * @param delimiter 分隔符
 * @group collection_funcs
 * @since 2.4.0
 */
def array_join(column: Column, delimiter: String): Column = withExpr {
  ArrayJoin(column.expr, Literal(delimiter), None)
}

/**
 * 将多个输入列连接成一个单独的列。函数适用于字符串、二进制和兼容的数组列。
 *
 * @param exprs 输入列
 * @group collection_funcs
 * @since 1.5.0
 */
@scala.annotation.varargs
def concat(exprs: Column*): Column = withExpr { Concat(exprs.map(_.expr)) }

/**
 * 返回在给定数组中找到的第一个值的位置（作为长整型）。如果任一参数为null，则返回null。
 *
 * 注意：位置不是基于0的索引，而是从1开始的索引。如果在数组中找不到值，则返回0。
 *
 * @param column 数组列
 * @param value 值
 * @group collection_funcs
 * @since 2.4.0
 */
def array_position(column: Column, value: Any): Column = withExpr {
  ArrayPosition(column.expr, lit(value).expr)
}

/**
 * 如果列是数组，则返回数组中给定索引处的元素。如果列是映射，则返回映射中给定键的值。
 *
 * @param column 列
 * @param value 索引或键的值
 * @group collection_funcs
 * @since 2.4.0
 */
def element_at(column: Column, value: Any): Column = withExpr {
  ElementAt(column.expr, lit(value).expr)
}

/**
 * 按升序对输入数组进行排序。输入数组的元素必须是可排序的。将null元素放在返回的数组的末尾。
 *
 * @param e 数组列
 * @group collection_funcs
 * @since 2.4.0
 */
def array_sort(e: Column): Column = withExpr { ArraySort(e.expr) }

/**
 * 从给定数组中删除等于element的所有元素。
 *
 * @param column 数组列
 * @param element 要删除的元素
 * @group collection_funcs
 * @since 2.4.0
 */
def array_remove(column: Column, element: Any): Column = withExpr {
  ArrayRemove(column.expr, lit(element).expr)
}

/**
 * 从数组中删除重复的值。
 *
 * @param e 数组列
 * @group collection_funcs
 * @since 2.4.0
 */
def array_distinct(e: Column): Column = withExpr { ArrayDistinct(e.expr) }

/**
 * 返回两个数组的交集（不包含重复的元素）。
 *
 * @param col1 数组列1
 * @param col2 数组列2
 * @group collection_funcs
 * @since 2.4.0
 */
def array_intersect(col1: Column, col2: Column): Column = withExpr {
  ArrayIntersect(col1.expr, col2.expr)
}

/**
 * 返回两个数组的并集（不包含重复的元素）。
 *
 * @param col1 数组列1
 * @param col2 数组列2
 * @group collection_funcs
 * @since 2.4.0
 */
def array_union(col1: Column, col2: Column): Column = withExpr {
  ArrayUnion(col1.expr, col2.expr)
}

/**
 * 返回第一个数组中但不在第二个数组中的元素（不包含重复的元素）。结果中元素的顺序不确定。
 *
 * @param col1 数组列1
 * @param col2 数组列2
 * @group collection_funcs
 * @since 2.4.0
 */
def array_except(col1: Column, col2: Column): Column = withExpr {
  ArrayExcept(col1.expr, col2.expr)
}

/**
 * 根据给定的数组或映射列，为每个元素创建一个新行。
 *
 * @param e 数组或映射列
 * @group collection_funcs
 * @since 1.3.0
 */
def explode(e: Column): Column = withExpr { Explode(e.expr) }

/**
 * 根据给定的数组或映射列，为每个元素创建一个新行。如果数组或映射为null或空，则返回null。
 *
 * @param e 数组或映射列
 * @group collection_funcs
 * @since 2.2.0
 */
def explode_outer(e: Column): Column = withExpr { GeneratorOuter(Explode(e.expr)) }

/**
 * 根据给定的数组或映射列和元素的位置，为每个元素创建一个新行。
 *
 * @param e 数组或映射列
 * @group collection_funcs
 * @since 2.1.0
 */
def posexplode(e: Column): Column = withExpr { PosExplode(e.expr) }

/**
 * 根据给定的数组或映射列和元素的位置，为每个元素创建一个新行。如果数组或映射为null或空，则返回(null, null)。
 *
 * @param e 数组或映射列
 * @group collection_funcs
 * @since 2.2.0
 */
def posexplode_outer(e: Column): Column = withExpr { GeneratorOuter(PosExplode(e.expr)) }

/**
 * 根据指定的json path从json字符串中提取json对象，并返回提取后的json字符串。
 * 如果输入的json字符串无效，则返回null。
 *
 * @param e json列
 * @param path json path
 * @group collection_funcs
 * @since 1.6.0
 */
def get_json_object(e: Column, path: String): Column = withExpr {
  GetJsonObject(e.expr, lit(path).expr)
}

/**
 * 根据给定字段名称为JSON列创建一个新的行。
 *
 * @param json 包含JSON数据的列
 * @param fields 字段名称
 * @group collection_funcs
 * @since 1.6.0
 */
@scala.annotation.varargs
def json_tuple(json: Column, fields: String*): Column = withExpr {
  require(fields.nonEmpty, "至少需要一个字段名称。")
  JsonTuple(json.expr +: fields.map(Literal.apply))
}

/**
 * （仅适用于Scala）将包含JSON字符串的列解析为具有指定模式的`StructType`。
 * 如果无法解析字符串，则返回null。
 *
 * @param e 包含JSON数据的字符串列
 * @param schema 解析json字符串时使用的模式
 * @param options 控制如何解析json的选项。接受与json数据源相同的选项。
 *
 * @group collection_funcs
 * @since 2.1.0
 */
def from_json(e: Column, schema: StructType, options: Map[String, String]): Column =
  from_json(e, schema.asInstanceOf[DataType], options)

/**
 * （仅适用于Java）将包含JSON字符串的列解析为具有指定模式的`StructType`。
 * 如果无法解析字符串，则返回null。
 *
 * @param e 包含JSON数据的字符串列
 * @param schema 解析json字符串时使用的模式
 * @param options 控制如何解析json的选项。接受与json数据源相同的选项。
 *
 * @group collection_funcs
 * @since 2.1.0
 */
def from_json(e: Column, schema: StructType, options: java.util.Map[String, String]): Column =
  from_json(e, schema, options.asScala.toMap)

/**
 * （仅适用于Scala）将包含JSON字符串的列解析为`MapType`，键类型为`StringType`，
 * 值类型为指定模式的`StructType`或`ArrayType`。
 * 如果无法解析字符串，则返回null。
 *
 * @param e 包含JSON数据的字符串列
 * @param schema 解析json字符串时使用的模式
 * @param options 控制如何解析json的选项。接受与json数据源相同的选项。
 *
 * @group collection_funcs
 * @since 2.2.0
 */
def from_json(e: Column, schema: DataType, options: Map[String, String]): Column = withExpr {
  JsonToStructs(schema, options, e.expr)
}

/**
 * （仅适用于Java）将包含JSON字符串的列解析为`MapType`，键类型为`StringType`，
 * 值类型为指定模式的`StructType`或`ArrayType`。
 * 如果无法解析字符串，则返回null。
 *
 * @param e 包含JSON数据的字符串列
 * @param schema 解析json字符串时使用的模式
 * @param options 控制如何解析json的选项。接受与json数据源相同的选项。
 *
 * @group collection_funcs
 * @since 2.2.0
 */
def from_json(e: Column, schema: DataType, options: java.util.Map[String, String]): Column =
  from_json(e, schema, options.asScala.toMap)

/**
 * 将包含JSON字符串的列解析为具有指定模式的`StructType`。
 * 如果无法解析字符串，则返回null。
 *
 * @param e 包含JSON数据的字符串列
 * @param schema 解析json字符串时使用的模式
 *
 * @group collection_funcs
 * @since 2.1.0
 */
def from_json(e: Column, schema: StructType): Column =
  from_json(e, schema, Map.empty[String, String])

/**
 * （仅适用于Java）将包含JSON字符串的列解析为具有指定模式的`StructType`。
 * 如果无法解析字符串，则返回null。
 *
 * @param e 包含JSON数据的字符串列
 * @param schema 解析json字符串时使用的模式
 *
 * @group collection_funcs
 * @since 2.1.0
 */
def from_json(e: Column, schema: DataType): Column =
  from_json(e, schema, Map.empty[String, String])

/**
 * 将包含JSON字符串的列解析为具有指定模式的`MapType`，键类型为`StringType`，
 * 值类型为指定模式的`StructType`或`ArrayType`。
 * 如果无法解析字符串，则返回null。
 *
 * @param e 包含JSON数据的字符串列
 * @param schema 解析json字符串时使用的模式
 *
 * @group collection_funcs
 * @since 2.4.0
 */
def from_json(e: Column, schema: Column): Column = {
  from_json(e, schema, Map.empty[String, String].asJava)
}

/**
 * 解析JSON字符串并推断其DDL格式的模式。
 *
 * @param json JSON字符串
 *
 * @group collection_funcs
 * @since 2.4.0
 */
def schema_of_json(json: String): Column = schema_of_json(lit(json))

/**
 * 解析JSON字符串并推断其DDL格式的模式。
 *
 * @param json 包含JSON字符串的列
 *
 * @group collection_funcs
 * @since 2.4.0
 */
def schema_of_json(json: Column): Column = withExpr(new SchemaOfJson(json.expr))

/**
 * （仅适用于Scala）将包含`StructType`、`ArrayType`或`MapType`的列转换为具有指定模式的JSON字符串。
 * 在不支持的类型的情况下抛出异常。
 *
 * @param e 包含结构体、数组或映射的列
 * @param options 控制如何将结构列转换为JSON字符串的选项。接受与json数据源相同的选项。
 *
 * @group collection_funcs
 * @since 2.1.0
 */
def to_json(e: Column, options: Map[String, String]): Column = withExpr {
  StructsToJson(options, e.expr)
}

  /**
   * (仅适用于Java)将包含`StructType`、`ArrayType`或`MapType`的列转换为具有指定模式的JSON字符串。
   * 在不支持的类型的情况下抛出异常。
   *
   * @param e 包含结构体、数组或映射的列
   * @param options 控制如何将结构列转换为JSON字符串的选项。接受与json数据源相同的选项。
   *
   * @group collection_funcs
   * @since 2.1.0
   */
  def to_json(e: Column, options: java.util.Map[String, String]): Column =
    to_json(e, options.asScala.toMap)

  /**
   * 将包含`StructType`、`ArrayType`或`MapType`的列转换为具有指定模式的JSON字符串。
   * 在不支持的类型的情况下抛出异常。
   *
   * @param e 包含结构体、数组或映射的列
   *
   * @group collection_funcs
   * @since 2.1.0
   */
  def to_json(e: Column): Column =
    to_json(e, Map.empty[String, String])

  /**
   * 返回数组或映射的长度。
   *
   * @group collection_funcs
   * @since 1.5.0
   */
  def size(e: Column): Column = withExpr { Size(e.expr) }

  /**
   * 按升序对给定列中的数组进行排序，根据数组元素的自然顺序。
   * null元素将放在返回的数组的开头。
   *
   * @group collection_funcs
   * @since 1.5.0
   */
  def sort_array(e: Column): Column = sort_array(e, asc = true)

  /**
   * 根据给定列中的数组按升序或降序排序，根据数组元素的自然顺序。
   * null元素将按升序放在返回的数组的开头，按降序放在末尾。
   *
   * @group collection_funcs
   * @since 1.5.0
   */
  def sort_array(e: Column, asc: Boolean): Column = withExpr { SortArray(e.expr, lit(asc).expr) }

  /**
   * 返回数组中的最小值。
   *
   * @group collection_funcs
   * @since 2.4.0
   */
  def array_min(e: Column): Column = withExpr { ArrayMin(e.expr) }

  /**
   * 返回数组中的最大值。
   *
   * @group collection_funcs
   * @since 2.4.0
   */
  def array_max(e: Column): Column = withExpr { ArrayMax(e.expr) }

  /**
   * 返回给定数组的随机排列。
   *
   * 注意：该函数是非确定性的。
   *
   * @group collection_funcs
   * @since 2.4.0
   */
  def shuffle(e: Column): Column = withExpr { Shuffle(e.expr) }

  /**
   * 返回一个反转的字符串或数组，或者元素顺序相反的数组。
   * @group collection_funcs
   * @since 1.5.0
   */
  def reverse(e: Column): Column = withExpr { Reverse(e.expr) }

  /**
   * 从数组的数组中创建一个单一的数组。如果嵌套数组的结构深度大于两级，则仅删除一级嵌套。
   * @group collection_funcs
   * @since 2.4.0
   */
  def flatten(e: Column): Column = withExpr { Flatten(e.expr) }

  /**
   * 从start到stop生成一个整数序列，步长为step。
   *
   * @group collection_funcs
   * @since 2.4.0
   */
  def sequence(start: Column, stop: Column, step: Column): Column = withExpr {
    new Sequence(start.expr, stop.expr, step.expr)
  }

  /**
   * 从start到stop生成一个整数序列，
   * 如果start小于等于stop，则步长为1；否则为-1。
   *
   * @group collection_funcs
   * @since 2.4.0
   */
  def sequence(start: Column, stop: Column): Column = withExpr {
    new Sequence(start.expr, stop.expr)
  }

  /**
   * 创建一个包含左参数重复右参数次数的数组。
   *
   * @group collection_funcs
   * @since 2.4.0
   */
  def array_repeat(left: Column, right: Column): Column = withExpr {
    ArrayRepeat(left.expr, right.expr)
  }

  /**
   * 创建一个包含左参数重复右参数次数的数组。
   *
   * @group collection_funcs
   * @since 2.4.0
   */
  def array_repeat(e: Column, count: Int): Column = array_repeat(e, lit(count))

  /**
   * 返回包含映射键的无序数组。
   * @group collection_funcs
   * @since 2.3.0
   */
  def map_keys(e: Column): Column = withExpr { MapKeys(e.expr) }

  /**
   * 返回包含映射值的无序数组。
   * @group collection_funcs
   * @since 2.3.0
   */
  def map_values(e: Column): Column = withExpr { MapValues(e.expr) }

  /**
   * 从给定的条目数组创建一个map。
   * @group collection_funcs
   * @since 2.4.0
   */
  def map_from_entries(e: Column): Column = withExpr { MapFromEntries(e.expr) }

  /**
   * 返回合并所有给定映射的结果。
   * @group collection_funcs
   * @since 2.4.0
   */
  def map_concat(cols: Column*): Column = withExpr { MapConcat(cols.map(_.expr)) }

udf函数

  // scalastyle:off line.size.limit
  // scalastyle:off parameter.number

  /* 使用以下代码生成：

  (0 to 10).foreach { x =>
    val types = (1 to x).foldRight("RT")((i, s) => {s"A$i, $s"})
    val typeTags = (1 to x).map(i => s"A$i: TypeTag").foldLeft("RT: TypeTag")(_ + ", " + _)
    val inputSchemas = (1 to x).foldRight("Nil")((i, s) => {s"Try(ScalaReflection.schemaFor(typeTag[A$i])).toOption :: $s"})
    println(s"""
      |/**
      | * 将具有$x个参数的Scala闭包定义为用户定义的函数（UDF）。
      | * 数据类型根据Scala闭包的签名自动推断。默认情况下，返回的UDF是确定性的。
      | * 要将其更改为不确定性，请调用API `UserDefinedFunction.asNondeterministic()`。
      | *
      | * @group udf_funcs
      | * @since 1.3.0
      | */
      |def udf[$typeTags](f: Function$x[$types]): UserDefinedFunction = {
      |  val ScalaReflection.Schema(dataType, nullable) = ScalaReflection.schemaFor[RT]
      |  val inputSchemas = $inputSchemas
      |  val udf = SparkUserDefinedFunction.create(f, dataType, inputSchemas)
      |  if (nullable) udf else udf.asNonNullable()
      |}""".stripMargin)
  }


# sparkSession.implicits源码

你可能感兴趣的:(spark,spark,大数据,分布式)

实时数据流计算引擎Flink和Spark剖析程小舰 flink spark 数据库 kafka hadoop
在过去几年，业界的主流流计算引擎大多采用SparkStreaming，随着近两年Flink的快速发展，Flink的使用也越来越广泛。与此同时，Spark针对SparkStreaming的不足，也继而推出了新的流计算组件。本文旨在深入分析不同的流计算引擎的内在机制和功能特点，为流处理场景的选型提供参考。（DLab数据实验室w.x.公众号出品）一.SparkStreamingSparkStreamin
Git 与 GitHub 的对比与使用指南一念& 其它 git github
Git与GitHub的对比与使用指南在软件开发中，Git和GitHub是两个密切相关但本质不同的工具。下面我将逐步解释它们的定义、区别、核心概念以及如何协同使用，确保内容真实可靠，基于广泛的技术实践。1.什么是Git？Git是一个分布式版本控制系统，由LinusTorvalds于2005年创建。它的核心功能是跟踪代码文件的变化，帮助开发者管理项目历史记录、协作和回滚错误。Git是开源的，可以在本地
最新阿里四面面试真题46道：面试技巧+核心问题+面试心得风平浪静如码
前言做技术的有一种资历，叫做通过了阿里的面试。这些阿里Java相关问题，都是之前通过不断优秀人才的铺垫总结的，先自己弄懂了再去阿里面试，不然就是去丢脸，被虐。希望对大家帮助，祝面试成功，有个更好的职业规划。一，阿里常见技术面1、微信红包怎么实现。2、海量数据分析。3、测试职位问的线程安全和非线程安全。4、HTTP2.0、thrift。5、面试电话沟通可能先让自我介绍。6、分布式事务一致性。7、ni
【项目实战】容错机制与故障恢复：保障系统连续性的核心体系本本本添哥 004 -研效与DevOps运维工具链 002 -进阶开发能力分布式
在分布式系统中，硬件故障、网络波动、软件异常等问题难以避免。容错机制与故障恢复的核心目标是：通过主动检测故障、自动隔离风险、快速转移负载、重建数据一致性，最大限度减少故障对业务的影响，保障系统“持续可用”与“数据不丢失”。以下从核心机制、实现方式、典型案例等维度展开说明。一、故障检测：及时发现异常节点故障检测是容错的第一步，需通过多维度手段实时感知系统组件状态，确保故障被快速识别。1.健康检查与心
Redis + Caffeine 实现高效的两级缓存架构周童學 Java 缓存 redis 架构
Redis+Caffeine实现高效的两级缓存架构引言在现代高并发系统中，缓存是提升系统性能的关键组件之一。传统的单一缓存方案往往难以同时满足高性能和高可用性的需求。本文将介绍如何结合Redis和Caffeine构建一个高效的两级缓存系统，并通过三个版本的演进展示如何逐步优化代码结构。项目源代码：github地址、gitee地址两级缓存架构概述两级缓存通常由本地缓存（如Caffeine）和分布式缓
Deepseek技术深化：驱动大数据时代颠覆性变革的未来引擎荣华富贵8 spring boot 搜索引擎后端缓存 redis
在大数据时代，信息爆炸和数据驱动的决策逐渐重塑各行各业。作为一项前沿技术，Deepseek正在引领新一轮技术革新，颠覆传统数据处理与分析方式。本文将从理论原理、应用场景和前沿代码实践三个层面，深入剖析Deepseek技术如何为大数据时代提供颠覆性变革的解决方案。一、技术背景与核心思想1.1大数据挑战与机遇在数据量呈指数级增长的背景下，传统数据处理方法面临数据存储、计算效率和信息提取精度的诸多挑战。
大数据之路：阿里巴巴大数据实践——大数据领域建模综述
为什么需要数据建模核心痛点数据冗余：不同业务重复存储相同数据（如用户基础信息），导致存储成本激增。计算资源浪费：未经聚合的明细数据直接参与计算（如全表扫描），消耗大量CPU/内存资源。数据一致性缺失：同一指标在不同业务线的口径差异（如“活跃用户”定义不同），引发决策冲突。开发效率低下：每次分析需重新编写复杂逻辑，无法复用已有模型。数据建模核心价值性能提升：分层设计（ODS→DWD→DWS→ADS）
分布式链路追踪系统架构设计：从理论到企业级实践 ma451152002 java 分布式系统架构
分布式链路追踪系统架构设计：从理论到企业级实践本文深入探讨分布式链路追踪系统的架构设计原理、关键技术实现和企业级应用实践，为P7架构师提供完整的技术方案参考。目录引言：分布式链路追踪的重要性核心概念与技术原理系统架构设计数据模型与协议标准核心组件架构设计性能优化与扩展性设计企业级实施策略技术选型与对比分析监控与运维体系未来发展趋势P7架构师面试要点引言：分布式链路追踪的重要性微服务架构下的挑战在现
Spark SQL架构及高级用法 Aurora_NeAr spark sql 架构
SparkSQL架构概述架构核心组件API层（用户接口）输入方式：SQL查询；DataFrame/DatasetAPI。统一性：所有接口最终转换为逻辑计划树（LogicalPlan），进入优化流程。编译器层（Catalyst优化器）核心引擎：基于规则的优化器（Rule-BasedOptimizer,RBO）与成本优化器（Cost-BasedOptimizer,CBO）。处理流程：阶段输入输出关键动
大数据技术笔记—spring入门卿卿老祖
篇一spring介绍spring.io官网快速开始Aop面向切面编程，可以任何位置，并且可以细致到方法上连接框架与框架Spring就是IOCAOP思想有效的组织中间层对象一般都是切入service层spring组成前后端分离已学方式，前后台未分离：Spring的远程通信：明日更新创建第一个spring项目来源：科多大数据
Redis 分布式锁深度解析：过期时间与自动续期机制爱恨交织围巾分布式事务 redis 分布式数据库微服务学习 go
Redis分布式锁深度解析：过期时间与自动续期机制在分布式系统中，Redis分布式锁的可靠性很大程度上依赖于对锁生命周期的管理。上一篇文章我们探讨了分布式锁的基本原理，今天我们将聚焦于一个关键话题：如何通过合理设置过期时间和实现自动续期机制，来解决分布式锁中的死锁与锁提前释放问题。一、为什么过期时间是分布式锁的生命线？你的笔记中提到"服务挂掉时未删除锁可能导致死锁"，这正是过期时间要解决的核心问题
Gerapy爬虫管理框架深度解析：企业级分布式爬虫管控平台 Python×CATIA工业智造爬虫分布式 python pycharm
引言：爬虫工程化的必然选择随着企业数据采集需求指数级增长，传统单点爬虫管理模式面临三重困境：管理效率瓶颈：手动部署耗时占开发总时长的40%以上系统可靠性低：研究显示超过65%的爬虫故障源于部署或调度错误资源利用率差：平均爬虫服务器CPU利用率不足30%爬虫管理方案对比：┌───────────────┬─────────────┬───────────┬───────────┬──────────
2025最新系统 Git 教程（七）（完结）嘿rasa 2025最新教程系列 git
第4章分布式Git4.1分布式Git-分布式工作流程你现在拥有了一个远程Git版本库，能为所有开发者共享代码提供服务，在一个本地工作流程下，你也已经熟悉了基本Git命令。你现在可以学习如何利用Git提供的一些分布式工作流程了。这一章中，你将会学习如何作为贡献者或整合者，在一个分布式协作的环境中使用Git。你会学习为一个项目成功地贡献代码，并接触一些最佳实践方式，让你和项目的维护者能轻松地完成这个过
大数据精准获客并实现高转化的核心思路和实现方法 2401_88470328 大数据精准获客数据分析数据挖掘大数据需求分析 big data
大数据精准获客并实现高转化的核心思路和实现方法大数据精准获客并实现高转化的核心思路和实现方法在当今信息爆炸的时代，企业如何通过海量的数据精准获取潜在客户，并提高转化率，已经成为营销策略中的关键环节。大数据精准获客的核心思路在于数据驱动、多渠道触达以及优化转化路径，从而实现高效的市场推广和客户转化。数据驱动原理和机制数据驱动的核心在于通过分析用户行为数据，挖掘潜在客户的需求和喜好，从而制定更加精准的
一地鸡毛—一个中年男人的日常2021241 随止心语所自欲律
2021年8月31日，星期二，阴有小雨。早起5:30，跑步10公里。空气清新，烟雨朦胧，远山如黛，烟雾缭绕，宛若仙境。空气中湿气很大，朦胧细雨拍打在脸上，甚是舒服，跑步的人明显减少。早上开会，领导说起逐年大幅度下滑的工作业绩，越说越激动，说得脸红脖子粗。开完会又讨论了一下会议精神，心情也有波动，学习热情不高。心里还有一个大事，是今日大数据分析第1次考试，因自己前期没学，而且计算机编程方面没有任何基
分布式全局唯一ID生成：雪花算法 vs Redis Increment，怎么选？
雪花算法vsRedisIncrement：分布式全局唯一ID生成方案深度对比在分布式系统开发中，“全局唯一ID”是绕不开的核心问题。无论是分库分表的数据库设计、订单编号的唯一性保证，还是日志追踪的链路标识，都需要一套可靠的ID生成方案。今天我们就来聊聊两种主流方案——雪花算法（Snowflake）和RedisIncrement，并从原理、特性到适用场景，帮你理清如何选择。同时，我们还将对比其他常见
Spring Security OAuth2.0在分布式系统中的安全实践
引言分布式系统架构下，安全认证与授权面临跨服务、高并发、多租户等挑战。SpringSecurity与OAuth2.0的结合为微服务安全提供了标准化解决方案。分布式系统中的安全挑战跨服务身份认证的复杂性令牌管理的可扩展性问题多租户场景下的权限隔离需求防止CSRF、XSS等常见攻击SpringSecurityOAuth2.0核心架构授权服务器设计@EnableAuthorizationServer配置
【Spring WebFlux】为什么 Spring 要拥抱响应式会飞的架狗师 Spring WebFlux spring java 后端
在现代分布式系统中，响应式系统已成为应对高并发、低延迟需求的核心方案。但构建响应式系统并非易事——它需要框架级别的支持来解决异步处理、资源调度、背压控制等底层问题。作为Java生态中最具影响力的框架，Spring对响应式的支持并非偶然，而是技术演进的必然选择。本文将从响应式系统的构建挑战出发，剖析Spring拥抱响应式的底层逻辑。一、响应式系统的构建困境：现有方案的局限性响应式系统的核心诉求是在有
涵盖轻量级锁（SpinLock）与操作系统同步原语（如 CRITICAL_SECTION）的性能优化、Monitor 的原子性和数据竞争防护、Monitor.Wait 和 Pulse 在生产者-消费者 zhxup606 C#实战教程李工篇 wpf 开发语言 C#
涵盖轻量级锁（SpinLock）与操作系统同步原语（如CRITICAL_SECTION）的性能优化、Monitor的原子性和数据竞争防护、Monitor.Wait和Pulse在生产者-消费者中的作用、控制线程执行顺序、Thread.Join的含义、避免嵌套锁的锁顺序策略，以及防止伪唤醒的条件检查。每个问题包括核心概念、实现细节、与之前讨论的关联（如线程池、进程间同步、分布式同步）、代码示例、测试用
Seata与DTF框架在微服务中的选型对比策划加强小乔微服务架构云原生
在微服务架构中，分布式事务管理是确保数据一致性的关键环节。Seata和DTF作为两款主流的分布式事务解决方案，各自具有独特的优势和适用场景。以下从核心原理、功能特性、适用场景和实战案例等维度进行详细对比分析，并提供选型建议。核心架构与工作原理Seata：采用经典的分布式事务模型，支持AT（自动补偿）、TCC（Try-Confirm-Cancel）、SAGA和XA四种模式。AT模式通过全局锁实现数据
python中的 JWT weixin_34355881 python json php
Jsonwebtoken(JWT),是为了在网络应用环境间传递声明而执行的一种基于JSON的开放标准（(RFC7519).该token被设计为紧凑且安全的，特别适用于分布式站点的单点登录（SSO）场景。JWT的声明一般被用来在身份提供者和服务提供者间传递被认证的用户身份信息，以便于从资源服务器获取资源，也可以增加一些额外的其它业务逻辑所必须的声明信息，该token也可直接被用于认证，也可被加密。基
一篇教你学会Git 编程界的彭于晏qaq java GIT git
从安装到高级使用（2025最新版）引言：为什么Git是开发者必备技能Git（GlobalInformationTracker）作为最流行的分布式版本控制系统，由Linux之父LinusTorvalds于2005年创建，现已成为软件开发的基础设施。与传统集中式版本控制系统（如SVN）相比，Git具有三大核心优势：分布式架构：每个开发者本地都有完整仓库副本，支持离线工作高效分支管理：创建和切换分支几乎
Mybatisplus的雪花算法及代码生成器的使用你我约定有三算法 dreamweaver
1.雪花算法1.1背景:雪花算法（Snowflake）的使用背景主要源于高并发分布式系统环境下对唯一ID生成的需求。这种需求在像Twitter这样的社交媒体平台上尤为突出，因为Twitter需要处理每秒上万条消息的请求，并且每条消息都必须分配一个唯一的ID。这些ID不仅需要全局唯一，以跨机器、跨时间区分，还需要保持一定的顺序性（尽管不要求连续），以方便客户端排序和后续的数据处理。1.2与自动递增的
分布式IO选型指南：2025年分布式无线远程IO品牌及采集控制方案详解 2501_91398178 分布式分布式IO模块远程IO模块
近年来，随着工业物联网（IIoT）、智能制造和工业4.0的深入发展，分布式无线远程IO模块在工业控制领域的应用愈发广泛。这种模块通过无线方式实现远程数据采集与控制，极大地提高了工业设施的灵活性和效率。2025年，分布式IO市场呈现出技术革新与品牌竞争加剧的态势。本文基于权威数据平台（如Statista、MarketsandMarkets、GrandViewResearch）的市场分析，全面解读分布
基本服务 FTP & SMB 会飞的灰大狼 Centos7 linux
基本服务FTP&SMB前言：FTP简称为文件传输协议前面说的他可以做到备份的功能那么它可以做到文件传输的过程smb我们简单来说共享文件夹‍NFSNFS（NetworkFileSystem，网络文件系统）是一种分布式文件系统协议，允许不同计算机之间通过网络共享文件和目录，使远程文件系统像本地文件系统一样被访问。它最初由SunMicrosystems开发，现在已成为UNIX/Linux系统中常用的网络
分布式事务Seata的4种模式详解「已注销」分布式 wpf
Seata是一个开源的分布式事务解决方案，它在微服务架构下提供了高性能和简单易用的分布式事务服务。Seata的设计基于AT、TCC、Saga和XA事务模式，以满足不同场景下的分布式事务处理需求，今天的内容针对Seata来详细介绍一下。1、四种事务模式介绍1.AT模式：这是一种无侵入的分布式事务解决方案。用户只需关注自己的业务SQL，Seata框架会自动生成事务的二阶段提交和回滚操作。在一阶段，Se
分布式IO详解：2025年分布式无线远程IO采集控制方案选型指南 2501_91398178 分布式分布式IO
随着工业物联网（IIoT）和智能制造的快速发展，分布式远程IO（输入/输出）采集控制技术作为工业自动化系统的重要组成部分，正逐步取代传统集中式控制架构。这种技术广泛应用于工厂自动化、能源管理、智慧城市、过程控制等领域。2025年，分布式无线远程IO系统凭借其灵活性、低功耗和高可靠性，成为工业控制领域的核心解决方案。本文基于权威数据平台分析，详细解读分布式无线远程IO技术，盘点全球领先厂商及其产品优
零基础学习性能测试第六章：性能难点-Jmeter实现海量用户压测
目录一、海量压测核心挑战与解决思路二、分布式压测集群搭建（百倍性能提升）1.架构设计2.实战步骤三、百万级用户参数化方案1.Redis预生成测试数据2.JMeter分段读取（避免内存溢出）3.CSV分片策略四、高并发优化配置模板1.`jmeter.properties`关键修改2.线程组配置技巧五、结果收集与监控方案1.轻量级结果存储2.实时监控看板六、海量压测实战案例：双11级流量模拟测试目标：
探索RabbitMQ，让消息传递变得简单易懂！黎杉娜Torrent
探索RabbitMQ，让消息传递变得简单易懂！当你寻找一个强大而可靠的分布式消息队列系统时，RabbitMQ无疑是最佳选择之一。这个开源项目已经赢得了全球无数开发者的喜爱，现在，更有一份详尽的【RabbitMQ中文】文档在等待你的探索！项目介绍RabbitMQ中文是一份专门为非英语国家的开发者准备的高质量翻译资源，它将原汁原味的RabbitMQ官方文档转化为中文，旨在帮助中国地区的开发者更好地理解
TiDB - 分布式数据库的架构与特性爽新全效瓷兔膏
本文还有配套的精品资源，点击获取简介：TiDB是一个开源的分布式NewSQL数据库，受到了Google的Spanner/F1系统的启发。它提供水平扩展和强一致性事务，适用于需要高可用性和大规模数据处理的场景。TiDB的核心特点包括其分布式架构，由TiDBServer（SQL层）、PDServer（调度器）和TiKVServer（存储引擎）组成；支持无缝的水平扩展和ACID事务；与MySQL高度兼容
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/