青年老年程序员

Java应用|使用Apache Spark MLlib构建机器学习模型【下】

如果您觉得本博客的内容对您有所帮助或启发，请关注我的博客，以便第一时间获取最新技术文章和教程。同时，也欢迎您在评论区留言，分享想法和建议。谢谢支持！

四、无监督学习

4.1 聚类

4.1.1 K-Means

K-Means是一种常见的无监督学习算法，用于将一组数据分成k个簇，使得每个数据点都属于离其最近的簇。K-Means的目标是最小化所有数据点到其所属簇中心的距离的平方和。

K-Means算法的基本流程如下：

随机选择k个点作为初始簇中心。
将每个数据点分配到距离其最近的簇中心。
根据分配的结果，更新每个簇的中心。
重复步骤2和3，直到簇中心不再变化或达到最大迭代次数。

接下来，我们将编写Java代码来演示如何使用Spark MLlib进行K-Means聚类。

首先，我们需要准备数据。我们将使用Iris数据集，该数据集包含3种不同类型的鸢尾花（Iris setosa，Iris virginica和Iris versicolor），每种类型50个样本。我们将从UCI Machine Learning Repository下载数据集。请确保在运行代码之前将数据集下载到本地并提供正确的路径。

接下来，我们将使用Spark读取数据并将其转换为DataFrame。然后，我们将提取特征并将数据分成训练集和测试集。

最后，我们将使用Spark MLlib的KMeans算法对数据进行聚类，并计算簇内误差平方和（SSE）和轮廓系数，以评估聚类的效果。

下面是Java代码：

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.ml.clustering.KMeans;
import org.apache.spark.ml.clustering.KMeansModel;
import org.apache.spark.ml.evaluation.ClusteringEvaluator;
import org.apache.spark.ml.feature.VectorAssembler;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.RowFactory;
import org.apache.spark.sql.SparkSession;
import org.apache.spark.sql.types.DataTypes;
import org.apache.spark.sql.types.Metadata;
import org.apache.spark.sql.types.StructField;
import org.apache.spark.sql.types.StructType;

public class KMeansExample {
    public static void main(String[] args) {
        // 创建SparkConf对象
        SparkConf conf = new SparkConf()
                .setAppName("KMeansExample")
                .setMaster("local[*]");

        // 创建JavaSparkContext对象
        JavaSparkContext sc = new JavaSparkContext(conf);

        // 创建SparkSession对象
        SparkSession spark = SparkSession.builder()
                .config(conf)
                .getOrCreate();

        // 读取数据并转换为DataFrame
        String path = "path/to/iris.data";
        JavaRDD data = sc.textFile(path);
        JavaRDD rows = data.map(line -> {
            String[] parts = line.split(",");
            double sepalLength = Double.parseDouble(parts[0]);
            double sepalWidth = Double.parseDouble(parts[1]);
            double petalLength = Double.parseDouble(parts[2]);
            double petalWidth = Double.parseDouble(parts[3]);
            String label = parts[4];
            return RowFactory.create(sepalLength, sepalWidth, petalLength, petalWidth, label);
        });
        StructType schema = new StructType(new StructField[] {
                new StructField("sepal_length", DataTypes.DoubleType, false, Metadata.empty()),
                new StructField("sepal_width", DataTypes.DoubleType, false, Metadata.empty()),
                new StructField("petal_length", DataTypes.DoubleType, false, Metadata.empty()),
                new StructField("petal_width", DataTypes.DoubleType, false, Metadata.empty()),
                new StructField("label", DataTypes.StringType, false, Metadata.empty())
        });
        Dataset df = spark.createDataFrame(rows, schema);

        // 提取特征向量
        VectorAssembler assembler = new VectorAssembler()
                .setInputCols(new String[] {"sepal_length", "sepal_width", "petal_length", "petal_width"})
                .setOutputCol("features");
        Dataset dataWithFeatures = assembler.transform(df);

        // 将数据分为训练集和测试集
        double trainTestRatio = 0.7;
        Dataset[] dataSplits = dataWithFeatures.randomSplit(new double[] {trainTestRatio, 1.0 - trainTestRatio});
        Dataset trainingData = dataSplits[0];
        Dataset testData = dataSplits[1];

        // 构建KMeans模型
        int numClusters = 3;
        int numIterations = 20;
        KMeans kmeans = new KMeans()
                .setK(numClusters)
                .setMaxIter(numIterations);
        KMeansModel model = kmeans.fit(trainingData);

        // 预测测试集并计算SSE和轮廓系数
        Dataset predictions = model.transform(testData);
        ClusteringEvaluator evaluator = new ClusteringEvaluator();
        double sse = model.computeCost(testData);
        double silhouette = evaluator.evaluate(predictions);

        // 打印SSE和轮廓系数
        System.out.println("SSE: " + sse);
        System.out.println("Silhouette: " + silhouette);

        // 停止Spark
        spark.stop();
    } 
}

4.1.2 二分K-Means

Spark MLlib的二分K-Means算法是一种基于K-Means的聚类算法，它通过不断将一个聚类划分成两个子聚类，直到达到用户定义的K值为止。相对于传统的K-Means算法，二分K-Means的结果更可靠，但需要更多的计算资源。

下面我们来讲解一下如何使用Spark MLlib进行二分K-Means聚类，以及如何编写一个完整可运行的Java程序。

首先，我们需要准备数据。这里我们使用UCI Machine Learning Repository中的Iris数据集，该数据集包含150个样本，每个样本有4个特征，共分为3类。

代码如下：

SparkConf conf = new SparkConf().setAppName("BisectingKMeansExample").setMaster("local");
JavaSparkContext jsc = new JavaSparkContext(conf);
SQLContext sqlContext = new SQLContext(jsc);

// 加载数据
JavaRDD data = jsc.textFile("iris.data");
JavaRDD parsedData = data.map(s -> {
    String[] sarray = s.split(",");
    double[] values = new double[sarray.length - 1];
    for (int i = 0; i < sarray.length - 1; i++) {
        values[i] = Double.parseDouble(sarray[i]);
    }
    return Vectors.dense(values);
});
parsedData.cache();

接着，我们可以使用BisectingKMeans类来进行聚类。需要注意的是，与K-Means不同，二分K-Means的K值并不是作为参数传递给算法，而是通过分割聚类来逐渐逼近目标K值。

代码如下：

// 建立模型
BisectingKMeans bkm = new BisectingKMeans()
        .setK(3)
        .setMaxIterations(20);

BisectingKMeansModel model = bkm.run(parsedData.rdd());

最后，我们可以使用model.predict()方法来对新数据进行聚类预测，并使用model.clusterCenters()方法来获取聚类中心点。

代码如下：

// 使用模型进行预测
JavaRDD predictedCluster = model.predict(parsedData);
JavaRDD predictedData = data.zip(predictedCluster).map(tuple2 -> tuple2._1() + "," + tuple2._2());

// 打印聚类结果
List predictedDataList = predictedData.collect();
for (String predictedDatum : predictedDataList) {
    System.out.println(predictedDatum);
}

// 获取聚类中心点
Vector[] clusterCenters = model.clusterCenters();
for (Vector clusterCenter : clusterCenters) {
    System.out.println(clusterCenter);
}

输出聚类结果。

// 输出聚类结果
Vector[] centers = model.clusterCenters();
System.out.println("Cluster Centers: ");
for (Vector center : centers) {
    System.out.println(center);
}
Dataset transformed = model.transform(data);
System.out.println("Cluster Assignments:");
transformed.show();

其中，model.clusterCenters()用于获取每个簇的中心点，model.transform(data)用于将数据集中的每个点分配到最近的簇中，并生成新的DataFrame，新的DataFrame包含原始数据和预测的簇编号。我们可以通过调用show()方法来查看聚类结果。

完整的Java程序如下：

import org.apache.spark.ml.clustering.BisectingKMeans;
import org.apache.spark.ml.clustering.BisectingKMeansModel;
import org.apache.spark.ml.linalg.Vector;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;
public class BisectingKMeansDemo {
    public static void main(String[] args) {
        // 创建SparkSession
        SparkSession spark = SparkSession.builder().appName("BisectingKMeansDemo").master("local[*]").getOrCreate();

        // 加载数据
        Dataset data = spark.read().format("libsvm").load("data/mllib/sample_kmeans_data.txt");

        // 训练模型
        BisectingKMeans bkm = new BisectingKMeans().setK(2).setSeed(1);
        BisectingKMeansModel model = bkm.fit(data);

        // 输出聚类结果
        Vector[] centers = model.clusterCenters();
        System.out.println("Cluster Centers: ");
        for (Vector center : centers) {
            System.out.println(center);
        }
        Dataset transformed = model.transform(data);
        System.out.println("Cluster Assignments:");
        transformed.show();

        // 停止SparkSession
        spark.stop();
    }
}

4.1.3 高斯混合模型

Spark MLlib中的高斯混合模型(Gaussian Mixture Model，简称GMM)是一种无监督学习算法，用于聚类和密度估计。它通过将每个样本分配到多个高斯分布中的一个来模拟数据分布。GMM的一个重要应用是图像分割，其中每个聚类对应于图像中的一个区域。

import java.util.Arrays;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.ml.clustering.GaussianMixture;
import org.apache.spark.ml.clustering.GaussianMixtureModel;
import org.apache.spark.ml.linalg.VectorUDT;
import org.apache.spark.sql.*;
import org.apache.spark.sql.types.Metadata;
import org.apache.spark.sql.types.StructField;
import org.apache.spark.sql.types.StructType;

public class GMMExample {
    public static void main(String[] args) {

        //创建SparkConf和JavaSparkContext
        SparkConf conf = new SparkConf().setAppName("GaussianMixtureDemo").setMaster("local[*]");
        JavaSparkContext jsc = new JavaSparkContext(conf);
        SQLContext sqlContext = new SQLContext(jsc);

        //读取数据
        JavaRDD data = jsc.textFile("data/gmm_data.txt");

        //将数据转换为DataFrame
        JavaRDD parsedData = data.map(s -> {
            String[] sarray = s.split(" ");
            double[] values = new double[sarray.length];
            for (int i = 0; i < sarray.length; i++) {
                values[i] = Double.parseDouble(sarray[i]);
            }
            return RowFactory.create(values);
        });
        StructType schema = new StructType(new StructField[] {
                new StructField("features", new VectorUDT(), false, Metadata.empty())
        });
        Dataset dataset = sqlContext.createDataFrame(parsedData, schema);

        //设置GaussianMixture模型参数
        int k = 3;
        GaussianMixture gaussianMixture = new GaussianMixture().setK(k).setSeed(1234L);
        gaussianMixture.setMaxIter(10);
        gaussianMixture.setTol(0.01);

        //训练GaussianMixture模型
        GaussianMixtureModel model = gaussianMixture.fit(dataset);

        //输出每个高斯分布的权重、均值和协方差矩阵
        for (int i = 0; i < k; i++) {
            System.out.printf("weight=%f\nmu=%s\ncov=\n%s\n",
                    model.weights()[i], Arrays.toString(model.gaussians()[i].mean().toArray()),
                    model.gaussians()[i].cov().toString());
        }

        //关闭JavaSparkContext
        jsc.stop();
    }
}

我们首先创建了一个SparkConf和JavaSparkContext对象，然后读取了数据。数据集是一个二维数据集，每一行代表一个样本，包含两个特征。

然后，我们将数据转换为DataFrame格式，并设置了GaussianMixture模型的参数。在这个例子中，我们设置了高斯混合模型的高斯分布数量为3，迭代次数为10，收敛阈值为0.01。

接着，我们使用GaussianMixture模型拟合数据，得到了训练后的GaussianMixtureModel对象。我们输出了每个高斯分布的权重、均值和协方差矩阵。

4.2 降维

4.2.1 主成分分析

Spark MLlib中的主成分分析(PCA)是一种降维技术，可用于将高维数据集转换为低维数据集，同时保留最重要的特征。PCA通常用于数据压缩和可视化，可以提高机器学习模型的效率和准确性。在本篇回答中，我们将讲解PCA的基本概念和Spark MLlib中的实现方法，并提供一个完整的可运行的Java示例。

PCA的基本概念 PCA是一种无监督学习算法，它将高维数据映射到低维数据，同时保留数据的最大方差。假设我们有一个m维的数据集，我们想将其降维到k维，那么PCA的基本步骤如下：

将数据集进行标准化，使其每个特征的平均值为0，方差为1。
计算数据集的协方差矩阵。
对协方差矩阵进行特征值分解。
选择k个最大特征值对应的特征向量，将它们作为主成分，组成投影矩阵。
将数据集乘以投影矩阵，得到降维后的数据集。

Spark MLlib中的PCA实现 Spark MLlib中的PCA实现使用了分布式计算技术，可以处理大规模数据集。下面是Spark MLlib中PCA的基本用法：

导入必要的类和方法。

import org.apache.spark.ml.feature.PCA;
import org.apache.spark.ml.feature.PCAModel;
import org.apache.spark.ml.feature.VectorAssembler;
import org.apache.spark.ml.linalg.Vector;
import org.apache.spark.ml.linalg.Vectors;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;

创建SparkSession对象和数据集。

SparkSession spark = SparkSession.builder()
        .appName("PCAExample")
        .master("local[*]")
        .getOrCreate();

// 创建数据集
Dataset data = spark.read().format("libsvm").load("data/mllib/sample_libsvm_data.txt");

将特征向量组装为向量列。

VectorAssembler assembler = new VectorAssembler()
        .setInputCols(data.columns())
        .setOutputCol("features");

Dataset assembledData = assembler.transform(data).select("features");

训练PCA模型。

PCAModel pcaModel = new PCA()
        .setInputCol("features")
        .setOutputCol("pcaFeatures")
        .setK(2)
        .fit(assembledData);

使用PCA模型进行数据转换。

Dataset result = pcaModel.transform(assembledData).select("pcaFeatures");
result.show();

下面是一个相对完整的 Java 示例代码，用于演示如何使用 Spark MLlib 进行主成分分析：

import org.apache.spark.ml.feature.PCA;
import org.apache.spark.ml.feature.PCAModel;
import org.apache.spark.ml.feature.VectorAssembler;
import org.apache.spark.ml.linalg.Vector;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;

public class PCADemo {
    public static void main(String[] args) {

        SparkSession spark = SparkSession.builder()
                .appName("PCADemo")
                .master("local[*]")
                .getOrCreate();

        // 读取数据集
        Dataset irisData = spark.read().format("csv")
                .option("header", "true")
                .option("inferSchema", "true")
                .load("iris.csv");

        // 将特征列合并为一个向量列
        VectorAssembler assembler = new VectorAssembler()
                .setInputCols(new String[]{"sepal_length", "sepal_width", "petal_length", "petal_width"})
                .setOutputCol("features");
        Dataset irisDataWithFeatures = assembler.transform(irisData);

        // 创建PCA模型
        PCAModel pca = new PCA()
                .setInputCol("features")
                .setOutputCol("pcaFeatures")
                .setK(2)
                .fit(irisDataWithFeatures);

        // 对数据集进行PCA变换
        Dataset transformedData = pca.transform(irisDataWithFeatures)
                .select("pcaFeatures");

        // 输出每个主成分解释的方差比例
        Vector explainedVariance = pca.explainedVariance();
        for (int i = 0; i < explainedVariance.size(); i++) {
            double ratio = explainedVariance.apply(i);
            System.out.println("PC" + (i + 1) + " explains " + ratio * 100 + "% variance.");
        }

        // 输出降维后的数据
        transformedData.show();

        spark.stop();
    }

}

在这个示例中，我们使用了鸢尾花数据集，将其四个特征列合并为一个向量列，并将其输入到 PCA 模型中进行主成分分析。通过调用 fit() 方法训练模型，然后使用 transform() 方法对数据集进行PCA变换，生成降维后的数据集。在输出中，我们还打印了每个主成分解释的方差比例。

4.2.2 特征选择

Spark MLlib提供了多种特征选择算法，其中最常用的是基于卡方检验的特征选择方法。下面我们就以基于卡方检验的特征选择算法为例，讲解Spark MLlib中的特征选择。

基于卡方检验的特征选择算法主要是通过计算特征和标签之间的相关性，来确定每个特征对于分类任务的重要性，进而对特征进行选择。在Spark MLlib中，我们可以使用ChiSqSelector来实现基于卡方检验的特征选择。ChiSqSelector会对每个特征进行卡方检验，然后根据设定的阈值来确定每个特征的重要性，最后将重要性高于阈值的特征选出来。选中的特征将被用于后续的建模任务。

下面是一个基于卡方检验的特征选择的Spark MLlib Java示例代码，该代码基于Iris数据集进行特征选择，选出最重要的两个特征：

import org.apache.spark.ml.feature.*;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;

public class PCADemo {
    public static void main(String[] args) {
        // 创建SparkSession
        SparkSession spark = SparkSession.builder()
                .appName("ChiSqSelectorDemo")
                .master("local[*]")
                .getOrCreate();

        // 读取数据
        Dataset data = spark.read().format("libsvm").load("data/sample_libsvm_data.txt");

        // 合并特征
        VectorAssembler assembler = new VectorAssembler()
                .setInputCols(data.columns())
                .setOutputCol("features");
        Dataset features = assembler.transform(data).select("label", "features");

        // 创建卡方选择器
        ChiSqSelector selector = new ChiSqSelector()
                .setNumTopFeatures(2) // 选取卡方值最大的两个特征
                .setFeaturesCol("features")
                .setLabelCol("label")
                .setOutputCol("selectedFeatures");

        // 训练模型
        ChiSqSelectorModel model = selector.fit(features);

        // 应用模型
        Dataset result = model.transform(features);

        // 输出结果
        result.show();

        // 关闭SparkSession
        spark.stop();
    }

}

在这个示例中，我们首先使用libsvm格式读取样本数据，并将其转换为Dataset类型。接下来，我们使用VectorAssembler将所有特征列合并为一列，命名为features。然后，我们创建一个ChiSqSelector对象，将features列和label列设置为其输入，并设置numTopFeatures参数为2，即选取卡方值最大的两个特征。最后，我们使用fit方法训练模型，并使用transform方法将特征集转换为卡方值最大的特征集。

需要注意的是，卡方选择器只能处理非负特征。如果数据集中包含负值特征，需要先将其转换为非负特征。

五、模型评估和调优

5.1 交叉验证

交叉验证是一种常用的模型评估方法，通过将数据集划分为若干个子集，然后用其中一个子集作为验证集，其他子集作为训练集，多次训练模型并进行验证，最终得到模型的平均性能。

在 Spark MLlib 中，提供了两种交叉验证方法：K-Fold 交叉验证和随机划分交叉验证。

K-Fold 交叉验证是将数据集划分为 K 个互不相交的子集，每个子集均被用作验证集一次，其余的 K-1 个子集被用作训练集，最终得到 K 个模型的平均性能。

随机划分交叉验证是将数据集随机划分为训练集和测试集，其中训练集用于训练模型，测试集用于评估模型性能。

下面，我们来看一个 Spark MLlib 的交叉验证的示例代码。

// 加载数据集
Dataset data = spark.read().format("libsvm").load("data/mllib/sample_libsvm_data.txt");

// 构建逻辑回归模型
LogisticRegression lr = new LogisticRegression();

// 设置参数
ParamGridBuilder paramGridBuilder = new ParamGridBuilder()
    .addGrid(lr.regParam(), new double[]{0.1, 0.01})
    .addGrid(lr.elasticNetParam(), new double[]{0.0, 0.5, 1.0})
    .addGrid(lr.maxIter(), new int[]{10, 100})
    .addGrid(lr.threshold(), new double[]{0.45, 0.5, 0.55});

// 构建交叉验证器
CrossValidator crossValidator = new CrossValidator()
    .setEstimator(lr)
    .setEstimatorParamMaps(paramGridBuilder.build())
    .setEvaluator(new BinaryClassificationEvaluator());

// 运行交叉验证
CrossValidatorModel cvModel = crossValidator.fit(data);

// 输出最佳模型参数
System.out.println(cvModel.bestModel().extractParamMap());

上面的代码中，我们首先加载了一个数据集，然后构建了一个逻辑回归模型。接着，我们使用 ParamGridBuilder 构建了一个参数网格，其中包含了多个参数组合。接着，我们使用 CrossValidator 构建了一个交叉验证器，并设置了模型、参数网格和评估器。最后，我们使用 fit 方法运行交叉验证，并输出最佳模型参数。

需要注意的是，交叉验证是一种非常耗时的操作，因此在大规模数据集和复杂模型中，需要适当减少交叉验证的次数和参数组合数，以提高效率。

5.2 参数调优

对于模型评估和调优，除了交叉验证外，另一种常用的方法是参数调优。在机器学习中，模型的性能很大程度上取决于所使用的参数。因此，通过调整参数，可以提高模型的性能。参数调优的目标是找到最佳参数组合以最大程度地提高模型的性能。

在Spark MLlib中，可以使用ParamGridBuilder和CrossValidator类进行参数调优。ParamGridBuilder允许构建参数网格，CrossValidator则执行交叉验证和参数调优。

具体而言，我们可以使用ParamGridBuilder来创建不同参数组合的网格，例如：

ParamGridBuilder paramGrid = new ParamGridBuilder();
paramGrid.addGrid(lr.regParam(), new double[] {0.1, 0.01});
paramGrid.addGrid(lr.elasticNetParam(), new double[] {0.0, 0.5, 1.0});

这里我们创建了一个包含两个参数的网格，一个是regParam，一个是elasticNetParam。regParam控制L2正则化，elasticNetParam控制L1正则化和L2正则化的组合。我们将每个参数设置为不同的值，以便在训练模型时进行尝试。

然后，我们可以将这个参数网格传递给CrossValidator类，使用它来执行交叉验证和参数调优。例如：

CrossValidator crossValidator = new CrossValidator()
  .setEstimator(lr)
  .setEvaluator(new RegressionEvaluator())
  .setEstimatorParamMaps(paramGrid.build())
  .setNumFolds(3);

这里我们创建了一个CrossValidator实例，将LogisticRegression作为评估器，将RegressionEvaluator作为评估器评估模型性能。我们将ParamGridBuilder创建的参数网格传递给setEstimatorParamMaps方法，并将折叠数设置为3。最后，我们可以使用fit方法拟合模型，如下所示：

CrossValidatorModel cvModel = crossValidator.fit(data);

在这个例子中，我们使用CrossValidator来拟合一个LogisticRegression模型，并尝试不同的参数组合。通过交叉验证，我们可以找到最佳参数组合，以提高模型性能。

需要注意的是，参数调优可能会消耗大量的计算资源和时间。因此，通常需要选择合适的参数范围和较少的参数组合，以便更有效地进行调优。

六、模型部署

6.1 模型保存和加载

模型的保存和加载是将训练好的模型保存到磁盘上，以便后续可以直接加载使用。在Spark MLlib中，可以使用org.apache.spark.ml.PipelineModel类来保存和加载模型。

模型保存和加载的常见步骤如下：

通过Spark MLlib训练得到一个模型，例如线性回归模型、分类模型等。
将模型保存到磁盘上，例如本地磁盘或HDFS等。在保存时需要指定保存路径。
在后续需要使用模型的地方，加载保存好的模型，以进行预测或其他操作。

以下是一个使用线性回归模型的例子，展示如何保存和加载模型：

import org.apache.spark.ml.Pipeline;
import org.apache.spark.ml.PipelineModel;
import org.apache.spark.ml.PipelineStage;
import org.apache.spark.ml.feature.VectorAssembler;
import org.apache.spark.ml.regression.LinearRegression;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;

import java.io.IOException;

public class LinearRegressionDemo {

    public static void main(String[] args) throws IOException {
        SparkSession spark = SparkSession.builder()
                .appName("LinearRegressionDemo")
                .master("local[*]")
                .getOrCreate();

        // 读取数据集
        Dataset data = spark.read()
                .format("libsvm")
                .load("data/mllib/sample_linear_regression_data.txt");

        // 构建特征向量
        VectorAssembler assembler = new VectorAssembler()
                .setInputCols(new String[]{"features"})
                .setOutputCol("featureVector");

        // 构建线性回归模型
        LinearRegression lr = new LinearRegression()
                .setMaxIter(10)
                .setRegParam(0.3)
                .setElasticNetParam(0.8)
                .setLabelCol("label")
                .setFeaturesCol("featureVector");

        // 构建Pipeline
        Pipeline pipeline = new Pipeline().setStages(new PipelineStage[]{assembler, lr});

        // 训练模型
        PipelineModel model = pipeline.fit(data);

        // 保存模型到本地磁盘
        String path = "lr_model";
        model.write().overwrite().save(path);

        // 加载模型
        PipelineModel loadedModel = PipelineModel.load(path);

        // 使用模型进行预测
        Dataset predictions = loadedModel.transform(data);
        predictions.show();

        spark.stop();
    }
}

在上述代码中，模型被保存到了本地磁盘上的lr_model文件夹中。使用PipelineModel.load方法加载模型时，需要指定模型所在的路径。

在实际应用中，可以将模型保存到分布式文件系统（如HDFS）上，以便在集群中的其他节点上也可以使用该模型。

6.2 模型部署到生产环境

将模型部署到生产环境通常需要以下步骤：

导出模型：将 Spark MLlib 模型导出为可以在生产环境中使用的格式，如 PMML 或 Hadoop SequenceFile。
部署模型：将导出的模型部署到生产环境的服务器上。
实时预测：使用生产环境的数据进行实时预测，并将预测结果返回给客户端。

在导出模型方面，Spark MLlib 提供了多种格式的支持，可以根据生产环境的要求选择适合的格式。下面以 PMML 格式为例介绍如何导出和部署模型。

首先，将训练好的 Spark MLlib 模型导出为 PMML 格式，可以使用 org.apache.spark.ml.PMMLExportable 接口，该接口允许将 MLlib 模型导出为 PMML 文件。例如，对于 KMeans 模型：

// 假设已经训练好了一个 KMeansModel 对象 model
// 创建一个 PMMLExportablePipelineModel 对象
PMMLExportablePipelineModel pmmlModel = new PMMLExportablePipelineModel()
        .setStages(new PipelineStage[] {model});

// 将模型导出为 PMML 文件
String pmmlString = pmmlModel.toPMML();

然后，将 PMML 文件部署到生产环境的服务器上。一般情况下，可以将 PMML 文件加载到内存中，并在需要预测时读取文件并创建模型对象。例如，对于 KMeans 模型：

// 读取 PMML 文件

String pmmlString = readPmmlFile(pmmlFilePath);

// 创建 PMMLImporter 实例并加载模型
PMMLImporter pmmlImporter = new PMMLImporter<>();
PipelineModel pipelineModel = (PipelineModel) pmmlImporter.importPMML(pmmlString);

// 使用模型进行预测
Dataset predictions = pipelineModel.transform(testData);

需要注意的是，生产环境的数据可能与训练数据的格式和特征不完全相同，因此在实际部署模型时需要进行一定的数据预处理和格式转换。另外，在部署模型时需要考虑模型的性能和稳定性等因素，例如选择合适的硬件和软件环境、使用多个实例进行负载均衡等。

七、结论

Spark MLlib 是一个强大的机器学习库，提供了各种算法和工具来处理不同类型的数据和问题。通过本篇文章，我们了解了 Spark MLlib 中常见的算法和应用，包括数据处理、分类、回归、聚类和降维等领域，并学习了如何使用 Spark MLlib 在 Java 环境下进行开发和部署。

我们了解到，在数据处理方面，Spark MLlib 提供了一系列数据清洗、特征提取和转换的工具，使得数据预处理变得简单快捷。在分类、回归和聚类方面，Spark MLlib 支持多种算法，包括逻辑回归、决策树、随机森林、K-Means 等，能够应对不同类型的数据和问题。在降维方面，Spark MLlib 提供了主成分分析和特征选择等算法，可以帮助我们从高维数据中提取出最为关键的特征。

除了算法之外，我们还学习了模型评估和调优的方法，包括交叉验证和参数调优。我们还学习了如何将训练好的模型保存和加载，以及如何将模型部署到生产环境中。

总之，Spark MLlib 是一个非常强大的机器学习库，它可以帮助我们快速、高效地构建机器学习模型，解决各种实际问题。熟练掌握 Spark MLlib 的使用方法，对于从事机器学习和数据分析工作的人员来说，是非常重要的技能之一。

如果您觉得本博客的内容对您有所帮助或启发，请关注我的博客，以便第一时间获取最新技术文章和教程。同时，也欢迎您在评论区留言，分享想法和建议。谢谢支持！

你可能感兴趣的:(java,apache,spark-ml)

移动端城市区县二级联动选择功能实现包 good2know
本文还有配套的精品资源，点击获取简介：本项目是一套为移动端设计的jQuery实现方案，用于简化用户在选择城市和区县时的流程。它包括所有必需文件：HTML、JavaScript、CSS及图片资源。通过动态更新下拉菜单选项，实现城市到区县的联动效果，支持数据异步加载。开发者可以轻松集成此功能到移动网站或应用，并可基于需求进行扩展和优化。1.jQuery移动端解决方案概述jQuery技术简介jQuery
IK分词初心myp
实现简单的分词功能，智能化分词添加依赖配置：4.10.4org.apache.lucenelucene-core${lucene.version}org.apache.lucenelucene-analyzers-common${lucene.version}org.apache.lucenelucene-queryparser${lucene.version}org.apache.lucenel
深入解析JVM工作原理：从字节码到机器指令的全过程
一、JVM概述Java虚拟机(JVM)是Java平台的核心组件，它实现了Java"一次编写，到处运行"的理念。JVM是一个抽象的计算机器，它有自己的指令集和运行时内存管理机制。JVM的主要职责：加载：读取.class文件并验证其正确性存储：管理内存分配和垃圾回收执行：解释或编译字节码为机器指令安全：提供沙箱环境限制恶意代码二、JVM架构详解JVM由三个主要子系统组成：1.类加载子系统类加载过程分为
JVM 内存模型深度解析：原子性、可见性与有序性的实现练习时长两年半的程序员小胡 JVM 深度剖析：从面试考点到生产实践 jvm java 内存模型
在了解了JVM的基础架构和类加载机制后，我们需要进一步探索Java程序在多线程环境下的内存交互规则。JVM内存模型（JavaMemoryModel，JMM）定义了线程和主内存之间的抽象关系，它通过规范共享变量的访问方式，解决了多线程并发时的数据一致性问题。本文将从内存模型的核心目标出发，详解原子性、可见性、有序性的实现机制，以及volatile、synchronized等关键字在其中的作用。一、J
Java | 多线程经典问题 - 售票 Ada54
一、售票需求1）同一个票池2）多个窗口卖票，不能出售同一张票二、售票问题代码实现（线程与进程小总结，请戳：Java|线程和进程，创建线程）step1：定义SaleWindow类实现Runnable接口，覆盖run方法step2：实例化SaleWindow对象，创建Thread对象，将SaleWindow作为参数传给Thread类的构造函数，然后通过Thread.start()方法启动线程step3
SpringMVC的执行流程
1、什么是MVCMVC是一种设计模式。MVC的原理图如下所示M-Model模型（完成业务逻辑：有javaBean构成，service+dao+entity）V-View视图（做界面的展示jsp，html……）C-Controller控制器（接收请求—>调用模型—>根据结果派发页面2、SpringMVC是什么SpringMVC是一个MVC的开源框架，SpringMVC=Struts2+Spring，
JAVA接口机结构解析秃狼 SpringBoot 八股文 Java java 学习
什么是接口机在Java项目中，接口机通常指用于与外部系统进行数据交互的中间层，负责处理请求和响应的转换、协议适配、数据格式转换等任务。接口机的结构我们的接口机的结构分为两个大部分，外部接口机和内部接口机，在业务的调度上也是通过mq来实现的，只要的目的就是为了解耦合和做差异化。在接口机中主要的方法就是定时任务，消息的发送和消费，其他平台调用接口机只能提供外部接口机的方法进行调用，外部接口机可以提供消
最新阿里四面面试真题46道：面试技巧+核心问题+面试心得风平浪静如码
前言做技术的有一种资历，叫做通过了阿里的面试。这些阿里Java相关问题，都是之前通过不断优秀人才的铺垫总结的，先自己弄懂了再去阿里面试，不然就是去丢脸，被虐。希望对大家帮助，祝面试成功，有个更好的职业规划。一，阿里常见技术面1、微信红包怎么实现。2、海量数据分析。3、测试职位问的线程安全和非线程安全。4、HTTP2.0、thrift。5、面试电话沟通可能先让自我介绍。6、分布式事务一致性。7、ni
包含日志获取webshell 陈望_ning
日志文件关闭：Apache目录下的httpd.conf文件#ErrorLog"logs/error.log"#CustomLog"logs/access.log"common加#号为注释不产生日志文件如果去掉#将会在Apache/logs/目录下产生日志文件linux:access_logerror_logwindows:access.logerror.logaccess_log每一行记录了一次网
图论算法经典题目解析：DFS、BFS与拓扑排序实战周童學数据结构与算法深度优先算法图论
图论算法经典题目解析：DFS、BFS与拓扑排序实战图论问题是算法面试中的高频考点，本博客将通过四道LeetCode经典题目（均来自"Top100Liked"题库），深入讲解图论的核心算法思想和实现技巧。涵盖DFS、BFS、拓扑排序和前缀树等知识点，每道题配有Java实现和易错点分析。1.岛屿数量(DFS遍历)问题描述给定一个由'1'(陆地)和'0'(水)组成的二维网格，计算岛屿的数量。岛屿由水平或
【异常】使用 LiteFlow 框架时，提示错误ChainDuplicateException: [chain name duplicate] chainName=categoryChallenge 本本本添哥 002 -进阶开发能力 java
一、报错内容Causedby:com.yomahub.liteflow.exception.ChainDuplicateException:[chainnameduplicate]chainName=categoryChallengeatcom.yomahub.liteflow.parser.helper.ParserHelper.lambda$null$0(ParserHelper.java:1
Java并发核心：线程池使用技巧与最佳实践！ | 多线程篇(五) bug菌¹ Java实战(进阶版)java Java零基础入门 Java并发线程池多线程篇
本文收录于「Java进阶实战」专栏，专业攻坚指数级提升，希望能够助你一臂之力，帮你早日登顶实现财富自由；同时，欢迎大家关注&&收藏&&订阅！持续更新中，up！up！up！！环境说明：Windows10+IntelliJIDEA2021.3.2+Jdk1.8本文目录前言摘要正文何为线程池？为什么需要线程池？线程池的好处线程池使用场景如何创建线程池？线程池的常见配置源码解析案例分享案例代码演示案例运行
Java 队列 tryxr java 开发语言队列
队列一般用什么哪种结构实现队列的特性数据入队列时一定是从尾部插入吗数据出队列时一定是从头部删除吗队列的基本运算有什么队列支持随机访问吗队列的英文表示什么是队列队列从哪进、从哪出队列的进出顺序队列是用哪种结构实现的Queue和Deque有什么区别Queue接口的方法Queue中的add与offer的区别offer、poll、peek的模拟实现如何利用链表实现队列如何利用顺序表实现队列什么叫做双端队列
JVM 内存分配与回收策略：从对象创建到内存释放的全流程
在JVM的运行机制中，内存分配与回收策略是连接对象生命周期与垃圾收集器的桥梁。它决定了对象在堆内存中的创建位置、存活过程中的区域迁移，以及最终被回收的时机。合理的内存分配策略能减少GC频率、降低停顿时间，是优化Java应用性能的核心环节。本文将系统解析JVM的内存分配规则、对象晋升机制，以及实战中的内存优化技巧。一、对象优先在Eden区分配：新生代的“临时缓冲区”大多数情况下，Java对象在新生代
代码随想录算法训练营第三十五天
01背包问题二维题目链接01背包问题二维题解importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);intM=sc.nextInt();intN=sc.nextInt();int[]space=newint[M];int[]value=new
微信公众号回调java_处理微信公众号消息回调 weixin_39607620 微信公众号回调java
1、背景在上一节中，咱们知道如何接入微信公众号，可是以后公众号会与咱们进行交互，那么微信公众号如何通知到咱们本身的服务器呢？咱们知道咱们接入的时候提供的url是GET/mp/entry，那么公众号以后产生的事件将会以POST/mp/entry发送到咱们本身的服务器上。html2、代码实现，此处仍是使用weixin-java-mp这个框架实现一、引入weixin-java-mpcom.github.
学C++的五大惊人好处
为什么要学c++学c++有什么用学习c++的好处有1.中考可以加分2.高考可能直接录取3.就业广且工资高4.在未来30--50年c++一定是一个很受欢迎的职业5.c++成功的例子deepsick等AI智能C++语言兼备编程效率和编译运行效率的语言C++语言是C语言功能增强版,在c语言的基础上添加了面向对象编程和泛型编程的支持既继承了C语言高效，简洁，快速和可移植的传统,又具备类似Java、Go等其
Java8 Stream流的sorted()的排序【正序、倒序、多字段排序】 Tony666688888 java windows 开发语言
针对集合排序，java8可以用Stream流的sorted()进行排序。示例Bean以下我们会使用这个Bean来做示例。publicclassOrder{privateStringweight;privateDoubleprice;privateStringdateStr;//忽略getter、setter、构造方法、toString}字段排序首先是比较器Comparator，形式如下：Compa
用代码生成艺术字：设计个性化海报的秘密
本文围绕“用代码生成艺术字：设计个性化海报的秘密”展开，先概述代码生成艺术字在海报设计中的独特价值，接着介绍常用的代码工具（如HTML、CSS、JavaScript等），详细阐述从构思到实现的完整流程，包括字体样式设计、动态效果添加等，还分享了提升艺术字质感的技巧及实际案例。最后总结代码生成艺术字的优势，为设计师提供打造个性化海报的实用指南，助力提升海报设计的独特性与吸引力，符合搜索引擎SEO标准
java实习生40多天有感别拿爱情当饭吃
从5月15日开始，我开始第一步步入社会，我今年大三，在一家上市互联网公司做一名实习生，主要做java后端开发。开始的时候，觉得公司的环境挺不错的，不过因为公司在CBD，所以隔壁的午饭和晚饭都要20+RMB，而且还吃不饱，这让我感觉挺郁闷的。一到下午，我就会犯困（因为饿）。因此，我又不得不买一些干粮在公司屯着。关于技术，有一个比较大的项目在需求调研当中，我们做实习生，就是辅助项目经理，测试功能，并且
mac os 10.9 mysql_MAC OSX 10.9 apache php mysql 环境配置 AY05 mac os 10.9 mysql
＃终端内运行sudoapachectlstart#启动Apachesudoapachectlrestart#重启Apachesudoapachectlstop#停止Apache＃配置Apachesudovi/private/etc/apache2/httpd.conf#将里面的这一行去掉前面的##LoadModulephp5_modulelibexec/apache2/libphp5.so＃配置P
大学生入门：初识方法及其易踩坑的点
在java学习过程中，我们不难发现有很多重复使用的功能代码块，每次使用如果都要重新写一遍，岂不是很麻烦，就算是“cv”大法，感觉也不是很方便，那么，有什么办法可以解决这个问题呢？方法！java中，一段可重用的，用于执行特定功能的代码块叫做方法，它可以接收参数、返回结果，并且可以被多次使用。一、方法的基本结构[修饰符]返回值类型方法名([参数列表])[throws异常类型]{//方法体}[throw
[Ljava.lang.Object; cannot be cast to [Ljava.lang.String; 这些不会的
解释：这个错误是很常见的错误，错误的提示已经很清楚了就是java的Object数组不能转换成为String[]数组，这就说明你要转换的数组它本身是Object类型的数组，但是你却非要把它转换为String类的数组，这当然是错误的。示例：[java]viewplaincopypackagecom.dada;importjava.util.ArrayList;importjava.util.List;
HikariCP调试日志深度解析：生产环境故障排查完全指南
HikariCP调试日志深度解析：生产环境故障排查完全指南更新时间：2025年7月4日|作者：资深架构师|适用版本：HikariCP5.x+|难度等级：中高级前言在生产环境中，数据库连接池往往是系统性能的关键瓶颈。HikariCP作为当前最流行的Java连接池，其调试日志包含了丰富的运行时信息，能够帮助我们快速定位和解决各种连接池相关问题。本文将深入解析HikariCP的日志体系，提供一套完整的故
大学社团管理系统（11831） codercode2022 java spring boot spring echarts spring cloud sentinel java-rocketmq
有需要的同学，源代码和配套文档领取，加文章最下方的名片哦一、项目演示项目演示视频二、资料介绍完整源代码（前后端源代码+SQL脚本）配套文档（LW+PPT+开题报告）远程调试控屏包运行三、技术介绍Java语言SSM框架SpringBoot框架Vue框架JSP页面Mysql数据库IDEA/Eclipse开发四、项目截图有需要的同学，源代码和配套文档领取，加文章最下方的名片哦!
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
【免费下载】 Aspose for Java：解锁无水印、无限制的文档处理能力房征劲Kendall
AsposeforJava：解锁无水印、无限制的文档处理能力【下载地址】AsposeforJava-去除水印和数量限制AsposeforJava-去除水印和数量限制Aspose是一个著名的文档处理库，专为Java应用程序设计，支持多种文档格式的操作，如Word、Excel、PDF等项目地址:https://gitcode.com/open-source-toolkit/56c82项目介绍在现代企业
微服务日志追踪，Skywalking接入TraceId功能 Victor刘微服务 skywalking java
文章目录一、借助skywalking追加traceIdlogbacklog4j2效果二、让skywalking显示日志内容版本差异logback配置文件log4j2配置文件一、借助skywalking追加traceId背景：在微服务或多副本中难以观察一个链路的日志，需要通过唯一traceId标识来查找，下面介绍Skywalking-traceId在Java中的配置方法。介绍两种java日志的配置方
【Java Web实战】从零到一打造企业级网上购书网站系统 | 完整开发实录（三）笙囧同学 java 前端状态模式
核心功能设计用户管理系统用户管理是整个系统的基础，我设计了完整的用户生命周期管理：用户注册流程验证失败验证通过验证失败验证通过用户名已存在用户名可用失败成功用户访问注册页面填写注册信息前端表单验证显示错误提示提交到后端后端数据验证返回错误信息用户名唯一性检查提示用户名重复密码加密处理保存用户信息保存成功?显示系统错误注册成功跳转登录页面登录认证机制深度解析我实现了一套企业级的多层次安全认证机制：认
Java：数据结构-ArrayList和顺序表（2） blammmp java 数据结构开发语言
一ArrayList的使用1.ArrayList的构造方法第一种（指定容量的构造方法）创建一个空的ArrayList，指定容量为initialCapacity。publicArrayList(intinitialCapacity){if(initialCapacity>0){this.elementData=newObject[initialCapacity];}elseif(initialCap
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S