李明朔

GCP学习笔记（二）——大数据和机器学习

文章目录

一、数据读取和处理
- 1.Pub/Sub
- - 代码实践
  - - Publishing
    - Subscribing
- 2. Dataflow
- - 使用Python搭建Pipeline
- 3. Dataproc
- 4. Cloud Data Fusion
- 5. 其他工具
- - Cloud Composer （Apache Airflow）
  - Cloud Scheduler
二、可视化与分析
- 1. Looker
- 2. Looker Studio
- 3. BigQuery
三、预处理和后处理
- 1. 数据传输
- 2. Dataprep
四、机器学习
- 1. BigQuery ML
- 2. Pre-built API
- 3. AutoML
- 4. Vertex AI
五、大数据和数据库的一些简单概念

我们可以将GCP大数据和机器学习服务分为以下四类：数据读取和处理、存储、分析、机器学习，一个完整的工作流程如下图所示

一、数据读取和处理

数据读取和处理服务包括：Pub/Sub、 Dataflow、 Dataproc、 Cloud Data Fusion。

数据质量的五个指标包括：

valid：数据和商业规则不匹配。使用SQL中的过滤方法（WHERE、HAVING）来筛选数据。
accurate：数据的值不正确。使用SQL创建测试例子（新列）来检查数据是否准确。
complete：创建/保存数据集失败，多数由于缺失值。使用SQL中IFNULL等方法查找空值。
consistent：数据计算错误，多数由于重复值。使用SQL中的COUNT方法寻找重复值。
uniform：同一列不同行的值含义不同。使用SQL中UNIFORM或者CAST方法来转换数据类型。

Batch Processing：在一组存储数据上进行处理和分析，例如支付系统
Streaming Data processing：由数据源产生的流式数据，数据的处理随着数据在系统中的流动，产生对数据的分析，这意味着流式数据几乎是实时分析

加载数据的方式取决于数据需要进行多少转换，包括

EL：从Cloud Storage抽取数据，加载到BigQuery，可以通过Cloud Function或者定时查询方式来引发。要求数据已经是干净、准确的
ELT：EL与上面相同，加载完毕后使用BigQuery view来进行数据转换。数据需要进行简单的转换例如scaling，可以在SQL中处理
ETL ：在数据管线中进行转换，之后再从数据管线写入数据仓库

ETL的几种方案：

Dataflow to BigQuery：常用方案
Dataflow to Bigtable：低延迟、throughput
Dataproc：使用Spark管线
Cloud Data Fusion：可视化管线搭建

1.Pub/Sub

Pub/Sub全称为Publisher/Subscriber，是一个分布式消息服务，可以从多个设备流中读取数据例如IOT设备，默认为Global，提供端到端编码。可能存在延迟、乱序、重复等问题。

Pub/Sub的工作流程如下图

Pub/Sub的工作流程：

发布者向topic发送消息
消息存储在消息存储中，直到它们被订阅者传递和确认
Pub/Sub 将消息从topic转发给订阅者。消息可以由 Pub/Sub 推送给订阅者或由订阅者从 Pub/Sub 中拉取
订阅者从订阅中接收待处理消息并确认发布/订阅
订阅者确认消息后，它会从订阅者的消息队列中删除。

发布/订阅的模式可分为以下几种：

1对1：1个发布者发布的topic被1个订阅者订阅
负载均衡，多个发布者发布相同的topic，多个订阅者接收相同的订阅
fan out：数据被发送到多个订阅者

Push和Pull两种发送方式：

Pull：订阅者会周期性的寻找信息，Pub/Sub会发送信息，最后返回ACK。信息会存储7天。
Push：通常是HTTP终端，Pub/Sub会发送最新信息，之后返回ACK。

每次订阅都需要返回ACK，超过限制时间消息会重新发送。

Pub/Sub的一些特点：

streaming resilience：将信息发送效率限制在系统可以处理的速度上
dead letter sinks、 error logging：Pub/Sub 可以将无法传送的消息转发到dead letter（是一种订阅主题），可以配置传送尝试次数上限等。
exponential back off：重新尝试之前不断增加尝试间隔
消息重放机制：通过配置主题的message_retention_duration可以保留订阅和主题消息。可以通过快照来还原至主题的任何订阅。
消息排序：发布者指定排序键，键的作用是同一个键的消息都要排序。订阅者要打开排序特性。这样做会对性能产生损伤。

Pub/Sub去重

维护一个数据库表来存储每个数据条目的哈希值和其他元数据。
Cloud Pub/Sub 为每条消息分配一个唯一的 message_id，可用于检测订阅者收到的重复消息。
在以下情况下可能会发生大量重复消息：端点未在确认期限内确认消息

代码实践

Publishing

# create topic
gcloud pubsub topics create sandiego
# publish to topic
gcloud pubsub topics publish sandiego --message "hello"

# Create a client

import os
from google.cloud import pubsub_v1

publisher = pubsub_v1.PublisherClient()

topic_name ='projects/{project_id}/topics/{topic}'.format(
	project_id=os.getenv('GOOGLE_CLOUD_PROJECT'),
	topic='MY_TOPIC_NAME',
)
publisher.create_topic(topic_name)
publisher.publish(topic_name, b'My first message!', author='dylan')

Subscribing

async pull

import os
from google.cloud import pubsub_v1

subscriber = pubsub_v1.SubscriberClient()
topic_name ='projects/{project_id}/topics/{topic}'.format(
	project_id=os.getenv('GOOGLE_CLOUD_PROJECT'),
	topic='MY_TOPIC_NAME',
)
subscription_name ='proiects/{proiect_id}/subscriptions/{sub})'format(
	proiect_id=os.getenv('GOOGLE_CLOUD_PROJECT'),
	Sub='MY_SUBSCRIPTION_NAME'
)
subscriber.create_subscription(
	name=subscription_name， topic=topic_name)

def callback(message):
	print(message.data)
	message.ack()

future = subscriber.subscribe(subscription_name, callback)

synchronous pull

# Create subscription
gcloud pubsub subscriptions create --topic sandiego mySub1
# Pull subscription
gcloud pubsub subscriptions pull --auto-ack mySub1

# Create a client
import time
from google.cloud import pubsub_v1

subscriber = pubsub_v1.SubscriberClient()
subscription_path = subscriber.subscription_path(project_id，subscription_name)

NUM_MESSAGES =2
ACK_DEADLINE = 30
SLEEP_TIME 10

# The subscriber pulls a specific number of messages
response = subscriber.pull(subscription_path，max_messages=NUM_MESSAGES)

2. Dataflow

Apache Beam：是一个开源的模型来定义和运行数据处理管道，包括ETL、Batch/Streaming processing。

Beam portability：可以理解成一个中间操作层，可以提供跨语言、自定义Docker环境等支持。其中跨语言支持如下图：

Dataflow是一个全部管理的服务用来在谷歌云执行Apache Beam数据管道。Dataflow是一种serverless和NoOps（自动维护、监控、autoscaling）服务。其服务包括：

Dataflow的工作流程可以如下图所示：

Element：数据的单个条目（例如表行）
PCollection：分布式数据集，输入输出
Transform：管道中的数据处理
ParDo：转换类型，可以使用side input

可以使用 Google App Engine Cron 服务创建 cron 作业来运行 Cloud Dataflow 作业

Dataflow模板允许用户快速部署标准任务类型，总共分为三种：

Streaming：处理连续实时数据，Dataflow Streaming Engine
Batch：处理批处理数据，Dataflow shuffle服务
Utility：Bulk compression、deletion、conversion

Dataflow的安全性：

IAM：developer允许与Dataflow job进行交互，worker提供Compute Engine service account来运行Dataflow工作流节点。
Data locality：确保数据和元数据在一个区域里
shared VPC
private IP：禁用外部IP

更新pipeline的方法：使用drain flag（停止pipelilne并更新）、 json mapping（处理兼容性问题）

Dataflow中的window，可以自定义trigger

fixed (Tumbling )：每周、每月，包含连续不重叠的时间块
sliding (Hopping)：通过窗口大小和滑动间隔来确定
sessions：时间块不固定，一般用来捕捉一段时间内的行为

Trigger决定数据到达时何时发出聚合结果。默认情况下，当watermark经过窗口末尾时发出结果。Apache Beam SDK 可以设置在以下条件的任意组合下运行的触发器：

事件时间，由每个数据元素上的时间戳指示。
处理时间，是在管道中任何给定阶段处理数据元素的时间。
集合中数据元素的数量。

from apache_beam import window
fixed_windowed_items =(
	items| 'window'>> beam.WindowInto(window.FixedWindows(60)))
sliding_windowed_items =(
	items| 'window'>>beam.WindowInto(window.SlidingWindows(30，5)))
session_windowed_items =(
	items | 'window'>> beam.WindowInto(window.Sessions(10 *60)))

由于事件发生的时间和事件经过处理的时间存在延迟，Dataflow的windows中使用Watermarks提供一个lag time来处理晚到的消息队列，一旦消息晚于lag time，我们可以选择是否继续等待。

搭建Pipeline的三种方式：

通过模板加载
通过Apache beam SDK写代码加载
通过SQL加载

使用Python搭建Pipeline

PCollection_out = (PCollection_in| PTransform_1
				| PTransform_2
				| PTransform_3)

# branching pipeline
PCollection_out_1 = PCollection_in] PTransform_1
PCollection_out_2 = PCollection_in] PTransform_2

使用Python运行Dataflow Pipeline

import apache_beam as beam

if __name__ =='__main__':

	with beam.Pipeline(argv=sys.argv) as p:

		(p
			| beam.io.ReadFromText('gs://...') # read input
			| beam.FlatMap(count_words) # apply transform
			| beam.io.WriteToText('gs://...') # write output
		)

# end of with-clause: runs，stops the pipeline

我们可以自定义Pipeline的一些参数

import apache_beam as beam

options ={'project': <project>,
		  'runner':'DataflowRunner',
	      'region': <region>,
	      'setup_file': <setup.py file>)
pipeline_options = beam.pipeline.PipelineOptions(flags=[], **options)
pipeline = beam.Pipeline(options = pipeline_options)

读取输入

with beam.Pipeline(options=pipeline_options) as p:

# Read from Cloud Storage (returns a string)
lines = p | beam.io.ReadFromText("gs://.../input-*.csv.gz")

# Read from Pub/Sub (returns a string)
lines = p | beam.io.ReadStringsFromPubSub(topic=known_args.input_topic)

# Read from BigQuery (returns rows)
query = "SELECT x，y，Z FROM 'project.dataset.tablename'"
BQ_source = beam.io.BigQuerySource(query = <query>，use_standard_sql=True)
BQ_data = pipeline | beam.io.Read(BQ_source)

输出

from apache_beam.io.gcp.internal.clients import bigquery

# Establish reference to BigQuery table
table_spec = bigquery.TableReference(
	projectId='clouddataflow-readonly',
	datasetId='samples',
	tableId='weather_stations')

# Write to BiqQuery table
p | beam.io.WriteToBigQuery(
	table_spec，
	schema=table_schema,
	write_disposition=beam.io.BigQueryDisposition.WRITE_TRUNCATE,
	create_disposition=beamio.BigQueryDisposition.CREATE_IF_NEEDED)

转换

# Map (fn) uses a callable fn to do a one-to-one transformation.
'WordLengths'>> beam.Map(word，len(word))

# FlatMap is similar to Map, but fn returns an iterable. The iterables are flattened into one PCollection. Non 1:1 relationship
def my_grep(line， term):
	if term in line:
		yield line
'Grep'>> beam.FlatMap(my_grep(line，searchTerm))

# Pardo: filter/format dataset, extract element, simple computation
# 可以在Pardo添加side input
words = ...
class ComputeWordLengthFn(beam.DoFn):
	def process(self， element):
		return [len(element)]

word_lengths = words | beam.ParDo(ComputeWordLengthFn())

# 聚合函数：GroupByKey（group）、Combine（group）、Faltten（merge）、Partition（split）

# Window：数据默认存在与Global Window里，即从第一个数据开始到最后一个数据结束，我们可以使用Window来处理时间序列问题（按时间分组）
# SlidingWindows代表每个窗口持续60秒，每过30秒开始一个新窗口
beam.WindowInto(beam.window.SlidingWindows(60，30))

3. Dataproc

Dataproc是基于Apache Hadoop和Spark的数据处理服务。

Dataproc定制化集群的两种方法：

optional component：预定义集群
initialization actions：通过脚本自定义集群

Dataproc集群的结构：

主节点
workers
- primary workers
- preemptible secondary workers
- non-preemptible secondary workers
HDFS：当虚拟机关机数据会丢失，可以使用其他GCP存储服务

使用Dataproc的步骤：

设置：通过console、YAML文件或命令行创建集群
配置：集群可以被认为是一个虚拟机，需要配置区域、节点等信息
优化：使用preemptible VM，自定义镜像、CPU等可以降低成本
使用：开始一个任务
监控：使用Cloud Monitor来监控

优化Dataproc：

数据区域和集群区域相邻，Auto Zone
不要同时处理超过10000输入文件
存储方式选择
- HDFS：需要有很多元数据操作、经常修改HDFS文件、需要重命名路径、经常使用append操作、经常使用I/O操作、I/O操作需要非常敏感的延迟
- Cloud Storage：建议默认使用
使用Dataproc模板：通过REST API或者命令行使用YAML文件来完成搭建集群等任务
auto scaling

4. Cloud Data Fusion

Cloud Data Fusion是一个图形化的、无代码的数据管线。主要针对batch data。

Data Fusion的组成部分：

控制中心：可以从整体上查看数据集、管线
管线：搭建工作流程，可以预览、导出、管理一个项目
wrangler：为数据集进行数据准备，数据转换、数据质量检查
rules engine：商业数据转换、指定规则
元数据：追踪数据流程
hub：可用插件
entities：
administration

数据管线——有向无环图：有向无环图中有一系列阶段，每个阶段可以是不同的类型，例子如下图

5. 其他工具

Cloud Data Catalog：是一个serverless数据发现和元数据管理服务。

Cloud Composer （Apache Airflow）

Cloud Composer是一个管理引擎，用来控制多个GCP服务的运行。Cloud Composer的结构也是一个有向无环图。

Airflow使用operator在有向无环图中来管理其他GCP服务。具体的operator参考官方文档 Google Cloud Operators。

Cloud Composer scheduling的方法：

周期性：设定周期来调用
事件驱动：使用Cloud Function来调用

使用Python的一个例子

from airflow.contrib.operators import *
# update training data, 指定SQL语句
t1 = BigQueryOperator()
# BigQuery training data export to GCS
t2 = BigQueryToCloudStorageOperator()
# AI Platform training job
t3 = MLEngineTrainingOperator()
# App Engine deploy new version
t4 = AppEngineVersionOperator()
# DAG dependencies
t2.set_upstream(t1)
t3.set_upstream(t2)
t4.set upstream(t3)

Cloud Scheduler

二、可视化与分析

可视化与分析服务包括BigQuery、Looker、Looker Studio

1. Looker

Looker支持BigQuery等超过60个SQL数据库，使用Looker建模语言来定义数据的逻辑。

2. Looker Studio

Looker Studio与Looker不同的地方在于不需要管理的支持来获得数据连接。

建立Looker Studio Dashboard的步骤：

选择模板
将dashboard与数据源连接
探索dashboard

Looker Studio的缓存机制：Looker Studio通过临时存储数据来提高性能并降低查询成本，通过设置数据新鲜度（data freshness）来更新数据。

3. BigQuery

BigQuery是一个全管理的数据仓库，可以存储和分析数据。全管理是指无需考虑BigQuery的部署、安全和可扩展性。BigQuery是column oriented，通常UTF-8编码。其工作流程如下

BigQuery的特点

与其他 GCP 服务集成：它与各种 GCP 服务（如 Dataflow、Cloud Storage 和 Data Studio）无缝集成，用于数据摄取、存储和可视化。
交互方式：网站、命令行、REST API
组织结构：项目——数据集——表
数据类型：数值型数据、String型数据、日期型数据、其他（布尔型、数组、结构体）
任务类型：查询（付费）、导入表、导出表、复制表。
可扩展性：BigQuery 可以通过其分布式架构处理和分析海量数据集，无论数据大小如何都可以快速执行查询。
partitioned tables：分区表被分成多个段，称为分区，通过将大表划分为较小的分区，您可以通过减少查询读取的字节数来提高查询性能并控制成本。不能修改现有表进行分区。
normalize：将较大的表分解为较小的相关表，以减少数据重复并提高整体数据库性能。在规范化模式中，每条信息只存储一次，避免数据不一致和异常。
denormalize：来自多个表的数据组合到一个表中，以通过减少所需的连接数来提高查询性能。通过对数据进行非规范化，您可以简化复杂的查询并优化数据检索，尤其是在处理聚合和报告时。当优先考虑读取性能并且可以容忍数据冗余时，通常使用反规范化。
外部数据库：指可以直接从 BigQuery 查询的数据源，即使数据未存储在 BigQuery 中。通过直接查询外部数据源，无需在每次数据发生变化时都将数据重新加载到 BigQuery 存储中。
视图：由 SQL 查询定义的虚拟表。可以使用视图为复杂查询或一组有限的数据提供易于重用的名称，然后可以授权其他用户访问这些名称。
可以导出为Json/CSV.Avro类型文件，可以通过GZIP压缩

BigQuery权限控制：

IAM：BigQuery Admin, BigQuery Data Viewer, or BigQuery Job User， project和dataset级别
Identity-Aware Proxy (IAP)：细粒度控制
authorized view：可以将查询结果分享给特定用户同时不允许他们访问原始数据，可以仅分分享特定的行或列，可以建立一共额外的数据集来存储视图

Bigquery的优化查询：

规范化数据库设计将有助于最大限度地减少数据冗余并提高查询效率。
当想修改列的数据类型时，可使用query或者新建表。使用query方便但是会产生很大的查询费用，新建表需要额外的存储费用
考虑对性能关键型查询的架构进行非规范化，以最大限度地减少 JOIN 操作。
根据逻辑边界对表进行分区，以减少查询期间扫描的数据量。
使用集群根据特定列以物理方式组织数据，以提高查询性能。
Schema设计：
- normalize：更好的组织结构、性能优化较差
- denormalize：增加查询速度、使查询更简单
- nested and replicated fields
anti-patterns
- 避免self-join：自联接用于计算依赖于行的关系。如果使用自联接，它可能会对输出行数进行平方运算。输出数据的增加可能会导致性能变差。
- 避免cross-join：避免使用产生的输出多于输入的联接。
- 避免不均衡分区：在使用 JOIN 子句时，对联接两侧的数据执行 Shuffle 操作，可能会导致槽过载。
- 避免数据倾斜：数据倾斜是指数据分入大小极不均匀的分区这种情况，应该提前进行过滤。

一些SQL基础:

LIMIT：限制返回结果数量，即使使用LIMIT，也会扫描全表
ORDER BY：排序，DESC为降序
FORMAT：格式化结果
AS：重命名列名为一个别名
WHERE：筛选结果，不能使用别名
HAVING：筛选聚合结果
CAST：数据类型转换
LEAD：
RANK：
GIS函数：ST_DWithin、 ST_GeogPoint、 ST_Makeline等
尽量避免使用 SELECT *
聚合函数：SUM(), COUNT(), AVG(), MAX()
内置函数：ROUND（保留小数位）
处理NULL类型数据

三、预处理和后处理

1. 数据传输

AVRO数据格式：

加载速度更快。即使数据块被压缩，数据也可以并行读取。
不需要打字或序列化
更容易解析，因为其他格式有一些不明编码的问题，例如Ascii
不支持编写AVRO文件，但是编写的数据块是。 Bigquerysupts deflate and ntappy编解码器

在GCP中，数据传输是指GCP生态系统中各种服务，区域或环境之间数据的移动。 GCP提供了几种机制和工具来促进数据传输，每个机制都有不同的目的和方案。以下是GCP中数据传输的一些常见方法：

基于网络的数据传输：GCP提供了高性能和安全的网络基础架构，用于在同一区域内或不同区域内的资源之间传输数据。
云存储传输服务：Google Cloud Storage提供了一个名为Cloud Storage Transfer Service的专用服务，该服务使您可以在本地系统，其他云存储提供商和Google Cloud Storage之间传输数据。它支持一次性转移和重复转移，使您能够自动化数据移动和同步任务。
BigQuery数据传输服务：BigQuery数据传输服务简化了将数据加载到Google BigQuery的过程，该服务可自动化数据提取，转换和加载（ETL）过程，从而使数据更容易摄入大量数据进行分析。
传输设备（Transfer Appliance）：对于大规模数据传输，GCP提供了传输设备，即在数据中心部署的硬件设备。可以将数据加载到设备上，然后将其运送到Google中以摄入GCP存储或计算服务。当您拥有大量的数据时，这种方法很耗时或不切实际，可以通过网络转移。
在线交易（Online Transactions）的数据传输服务：用于从在线交易处理（OLTP）数据库（例如Oracle，MySQL和SQL Server）传输数据到Google Cloud Cloud数据库，例如Cloud SQL或Cloud Spanner 。 DTO降低了数据迁移的复杂性，并帮助有效地将数据库工作负载转换为GCP。
如果要传输大量文件，则可能需要使用gsutil -m选项，以执行并行（多线程/多处理）副本
将较小的文件压缩和组合到更少的较大文件中也是加速传输速度的最佳实践

2. Dataprep

Google Cloud Dataprep 是一项完全托管的数据准备和转换服务，可帮助清理、转换和可视化原始数据以进行分析和下游处理。它提供了可视化的界面和强大的数据转换能力，让用户无需编写代码即可准备数据。

Dataprepd的架构/组件：

Dataprep UI：用户交互和配置数据准备步骤的可视化界面。
数据连接器：支持从各种来源（包括文件、数据库和云存储）摄取数据的连接器。
转换器库：一组预构建的转换和函数，可应用于数据进行清理和转换。
Recipe：一组数据准备步骤和转换组织成一个可重用的工作流程。
数据流：一组精心编排的配方和依赖项，用于定义端到端的数据准备工作流程。
作业执行环境：底层

Dataprepd的工作流程：

导入数据：连接到文件、数据库或云存储等数据源，并将原始数据导入 Dataprep。
探索和剖析数据：Dataprep 提供数据剖析功能，以了解数据的结构、质量和统计特征。您可以直观地探索数据并确定需要解决的问题。
清理和转换数据：使用可视化界面应用各种转换、过滤、聚合和丰富步骤，根据您的要求清理和重塑数据。
预览和验证：预览转换后的数据以确保正确应用所需的更改。在进行进一步的转换之前验证结果。
创建配方和数据流：将您的数据准备步骤组织成可重复使用的配方和数据流。配方允许您将相同的转换应用于其他数据集，而数据流提供了一种编排多个配方和构建端到端数据准备工作流的方法。
执行和安排作业：按需执行数据准备作业或安排它们以特定时间间隔运行。 Dataprep 自动处理执行和资源管理。
导出或集成：将转换后的数据导出到您想要的目的地，例如 Google BigQuery、Google 表格或其他云存储。您还可以将 Dataprep 与其他数据处理或分析工具集成以进行进一步分析。

Dataprepd的主要特征：

可视化数据准备：Dataprep 提供了一个直观的可视化界面，使用户能够使用各种内置转换和函数来探索、清理和转换数据。
可扩展性和性能：Dataprep 旨在处理大规模数据处理，利用 Google Cloud 基础架构的强大功能来确保高性能和可扩展性。
数据连接器：Dataprep 支持各种数据连接器来访问来自多个来源的数据，例如 Google Cloud Storage、BigQuery、关系数据库等。
数据转换库：Dataprep 提供丰富的预建转换和函数库，可轻松执行复杂的数据准备任务。
协作和共享：Dataprep 允许用户在数据准备项目上进行协作、共享数据流并维护版本历史记录以实现更好的团队协作。

四、机器学习

使用GCP搭建机器学习系统分为三个层次，分别是AI基础、AI开发平台和AI解决方案。

AI开发包括Vertex AI、AutoML，AI解决方案包括Document AI、Contact Center AI等。

搭建AI开发平台的四种方式：Bigquery ML、预训练API、AutoML、自定义训练。四种方式对比如下

1. BigQuery ML

我们可以在BigQuery中使用SQL查询语句来创建和运行机器学习模型。步骤如下：

ETL，将数据加载到BigQuery
选择并预处理特征
使用CREATE MODEL命令创建模型
使用ML.EVALUATE评估模型表现
使用SQL预测语句来调用ml.PREDICT

以下是BigQuery 支持的模型

BigQuery ML的常见命令：

2. Pre-built API

GCP的预建立API包括：

Speech-to-text API：语音转化为文字
Cloud Natural Language API：识别实体和情感
Cloud Translation API：翻译
Text to Speech API：文本转化语音
Vision API：识别图片
Video intelligence API：识别视频

3. AutoML

AutoML是一种不需要代码的解决方案来搭建模型。其核心有两点：

迁移学习：
神经架构搜索：自动搜索最优模型

AutoML的数据来源可以是Cloud Storage、Big Query或者本地路径。其主要处理以下数据：

图片：图片分类、目标检测
结构化数据：回归模型、分类模型、时序数据预测，使用Auto ML Table
文本：文本分类、实体抽取、情感分析
视频：视频分类、目标跟踪、姿态识别

使用AutoML的过程包括训练、部署、服务。其中训练过程中，我们需要准备好原始数据集。数据集保存在csv文件中，第一列代表数据组别（训练集、验证集、测试集），第二列为数据的保存位置，第三列为标签。在部署过程中，模型会在一段时间后被删除，所以我们需要周期性的训练模型。

4. Vertex AI

Vertex AI支持AutoML和自定义训练。

自定义训练环境分为两种：

预定义容器：已经预安装了Tensorflow、Scikit Learn等软件包
自定义容器：需要自己安装所需要的软件包

Vertex AI提供以下特征以帮助训练和部署“

Feature Store：用来管理特征
Vizier：帮助调整超参数
Explainable AI：帮助解释模型
Pipelines：帮助自动化和监控机器学习生产线，可以在AI Hub中使用其他人完成的Pipeline

Vertex AI的Pipelines如下图所示

训练一个机器学习模型的工作流程包括：

数据准备：上传数据、特征工程
模型训练：模型训练、模型评估
模型服务：模型部署、模型监控，三种部署方式
- Endpoint：实时预测
- Batch Prediction：非实时预测，例如定时投送广告
- Offline Prediction：需要部署在特定环境

Notebook是运行在computer engine实例中，我们可以定义其实例类型、GPU等。

Notebook中的魔法方法：我们可以在notebook中运行BigQuery命令，将BigQuery结果保存到pandas的dataframe中，例如

%%bigquery df
SELECT
	*
FROM
	'bigquery-public-data.austin_bikeshare.bikeshare_trips'
WHERE
	end_station_name = 'Stolen'

print(type(df))
df.head()

结果是一个dataframe表

五、大数据和数据库的一些简单概念

Hadoop：

开源MapReduce框架
Dataproc的底层技术

HDFS：Hadoop的文件系统
Pig：编译成 MapReduce 作业的脚本语言
Hive：数据仓库系统和查询语言

Spark：

快速、通用目标的框架
用更快速的在内存中的办法解决MapReduce问题

Sqoop：

在 Hadoop 和结构化数据存储（关系）之间传输数据
Sqoop 将数据从关系数据库系统或导入 HDFS。
在 Dataproc Hadoop 集群上运行 Sqoop 让您可以访问内置的 Google Cloud Storage 连接器
可以使用 Sqoop 将数据直接导入 Cloud Storage

Oozie：

用于管理 Apache Hadoop 作业的工作流调度程序系统
Oozie Workflow 作业是操作的有向无环图 (DAG)

Cassandra：

基于BigTable和DynamoDB(Datastore)的宽列存储
拥有一个非常繁重的写入系统并且您希望在存储的数据之上拥有一个响应迅速的报告系统的问题的解决方案。
不提供 ACID 和关系数据属性
支持最终一致性的可用的分区容错系统
可能的替代品：Datastore

MongoDB：适用于系统需要schema-less文档存储的用例。
Hbase：可能适用于搜索引擎、分析日志数据或需要扫描大的二维无连接表的任何地方。
Redis：旨在为各种数据结构（如树、队列、链表等）提供内存中搜索，非常适合制作实时排行榜

你可能感兴趣的:(gcp,云计算)

Serverless架构下Spring Function的创新实践 tmjpz04412 serverless 架构 spring
引言：Serverless与Spring生态的交汇背景介绍：云计算与Serverless架构的兴起Spring生态的演进与云原生适配性核心问题：传统Spring应用如何融入Serverless范式Serverless架构的核心特征与挑战事件驱动、弹性伸缩与按需计费冷启动问题与性能优化需求Spring应用在Serverless环境中的典型瓶颈（如依赖注入、上下文初始化）SpringFunction的
深入了解 Kubernetes（k8s）：从概念到实践
目录一、k8s核心概念二、k8s的优势三、k8s架构组件控制平面组件节点组件四、k8s+docker运行前后端分离项目的例子1.准备前端项目2.准备后端项目3.创建k8s部署配置文件4.部署应用到k8s集群在当今云计算和容器化技术飞速发展的时代，Kubernetes（简称k8s）已成为容器编排领域的事实标准。无论是互联网巨头、传统企业还是初创公司，都在广泛采用k8s来管理和部署容器化应用。本文将带
新一代数据库：融合多模智能，重塑数据价值
一、场景重塑产业格局：数据库“融合进化”AI浪潮奔涌而至，数字产业格局加速重构。云计算、移动互联、万物互联（IoT）、人工智能（AI）等技术的深度融合与快速落地，正以前所未有的速度重塑着企业的应用形态。新业务场景层出不穷——从高并发的在线交易、实时精准的分析决策，到海量物联网设备监控、基于图关系的风控反欺诈，再到AI驱动的智能推荐与内容生成，应用场景的多样性与复杂性已突破传统数据库的能力边界。这对
物联网与数字孪生：深度协同驱动智能未来 —— 专业规划分析 boyedu 物联网域名物联网区块链
一、定义与核心技术架构1.1物联网（IoT）的技术本质与架构定义：通过信息传感设备将物理对象与互联网连接，实现智能化识别、定位、跟踪和管理的网络。四层架构：感知层：传感器、RFID等设备采集物理数据（如温度、压力）。网络层：通过Wi-Fi、5G等通信技术传输数据，确保实时性与稳定性。平台层：云计算/边缘计算平台处理数据（如AWSIoT、AzureIoT）。应用层：提供终端服务（如智能家居、工业监控
边缘计算与云计算协同：未来架构的黄金组合大力出奇迹985 边缘计算云计算架构
边缘计算与云计算的协同融合，正成为支撑未来智能社会的核心架构。本文从技术互补性、应用场景拓展、架构安全保障、性能优化路径和未来发展趋势五个维度，系统剖析二者协同的底层逻辑与实践价值。通过分析边缘节点的实时处理能力与云端的全局算力优势如何形成合力，探讨该架构在工业互联网、自动驾驶、智慧城市等领域的创新应用，并针对安全防护、资源调度等关键问题提出解决方案，最终总结其对数字经济发展的战略意义。一、技术互
阿里云服务器购买参考，适合个人和普通企业用户的阿里云服务器推荐阿里云最新优惠和活动汇总
无论是个人开发者、初创企业，还是已经成熟的公司，只要有建站，做APP，存储数据等需要就需要一台云服务器。阿里云针对不同用户的需求推出了多款云服务器产品。本文将重点介绍适合个人和普通企业用户的阿里云服务器，帮助您找到性价比最高的云计算解决方案。一、阿里云服务器的用户群体阿里云服务器的用户主要可以分为三类：个人用户、普通企业用户以及对云服务器性能有特殊需求的集团型企业级用户。对于不同类型的用户，阿里云
AI浪潮涌，数据库“融合智能”奏响产业新乐章可涵不会debug AI赋能人工智能数据库
一、场景重塑产业格局：数据库“融合进化”AI浪潮奔涌而至，数字产业格局加速重构。云计算、移动互联、万物互联（IoT）、人工智能（AI）等技术的深度融合与快速落地，正以前所未有的速度重塑着企业的应用形态。新业务场景层出不穷——从高并发的在线交易、实时精准的分析决策，到海量物联网设备监控、基于图关系的风控反欺诈，再到AI驱动的智能推荐与内容生成，应用场景的多样性与复杂性已突破传统数据库的能力边界。这对
云成本管理技术深度解析：核心原理与最佳实践 TechVision大咖圈云成本管理成本优化云计算自动化运维预算控制资源管理
在这个"云"满天飞的时代，钱包也跟着飞？别慌！本文带你深入云成本管理的世界，让你的云账单不再成为"惊喜"。关键词:云成本管理、成本优化、云计算、资源管理、预算控制、自动化运维文章目录1.引言：云成本管理的重要性2.云成本管理核心原理2.1成本可见性原理2.2资源优化原理2.3预算控制原理3.技术架构深度解析3.1数据收集层3.2分析处理层3.3决策执行层4.最佳实践指南4.1成本监控体系建设4.2
数据库融合进化：AI驱动下的数字化转型新纪元颜颜yan_ 前沿科技产品测评数据库人工智能
一、场景重塑产业格局：数据库“融合进化”AI浪潮奔涌而至，数字产业格局加速重构。云计算、移动互联、万物互联（IoT）、人工智能（AI）等技术的深度融合与快速落地，正以前所未有的速度重塑着企业的应用形态。新业务场景层出不穷——从高并发的在线交易、实时精准的分析决策，到海量物联网设备监控、基于图关系的风控反欺诈，再到AI驱动的智能推荐与内容生成，应用场景的多样性与复杂性已突破传统数据库的能力边界。这对
融合与智能：AI时代数据库的演进新范式与产业格局重塑意疏测评人工智能数据库
一、场景重塑产业格局：数据库“融合进化”AI浪潮奔涌而至，数字产业格局加速重构。云计算、移动互联、万物互联（IoT）、人工智能（AI）等技术的深度融合与快速落地，正以前所未有的速度重塑着企业的应用形态。新业务场景层出不穷——从高并发的在线交易、实时精准的分析决策，到海量物联网设备监控、基于图关系的风控反欺诈，再到AI驱动的智能推荐与内容生成，应用场景的多样性与复杂性已突破传统数据库的能力边界。这对
在阿里云服务器上搭建单节点Kubernetes集群的完整指南与故障排除老牛十八岁SYZ Kubernetes 阿里云服务器 kubernetes
在阿里云服务器上搭建单节点Kubernetes集群的完整指南与故障排除在云计算和容器化技术日益普及的今天，Kubernetes（简称K8s）已成为容器编排的事实标准。本文将以阿里云服务器（AlibabaCloudLinux）为例，详细介绍如何搭建单节点Kubernetes集群，并针对实际操作中可能遇到的典型问题提供系统性解决方案。【阿里云限时特惠】云产品低至38元/年起！各位技术伙伴，阿里云爆款钜
数字经济时代全产业链详解
数字经济全产业链概述数字经济全产业链涵盖从底层技术到终端应用的完整生态，包括基础技术层、核心产业层、融合应用层和支撑服务层。以下是详细拆解：基础技术层1.硬件基础设施芯片与半导体：CPU、GPU、AI芯片（如NPU）等，支撑算力需求。通信设备：5G基站、光纤网络、卫星互联网等。数据中心：云计算服务器、边缘计算节点、绿色数据中心（如液冷技术）。2.软件与平台操作系统：鸿蒙、Windows、Linux
GaussDB云数据库SQL应用系列-视图管理没有星期叭数据库 gaussdb sql
一、前言GaussDB是一款基于云计算技术的高性能关系型数据库，支持多种数据模型和分布式架构。在GaussDB中，视图管理是非常重要的一项功能，它可以帮助用户更方便地管理和查询数据。数据库视图管理是指对数据库中的视图进行创建、修改、删除、查询等操作的过程。二、准备条件参考上一篇文章《GaussDB云数据库SQL应用系列-基础使用》1、登录华为云数据库GaussDB2、选择对应实例并进入到SQL执行
训练效率提升100%！阿里云后训练全栈解决方案发布实录阿里云大数据AI技术人工智能深度学习大模型大数据强化学习云计算
演讲人：魏博文（阿里云计算平台大数据AI解决方案总监）演讲主题：阿里云后训练解决方案活动：甲子光年围炉夜话-后训练技术闭门会目前大模型能力已经足够优秀，模型后训练作为大模型落地的重要一环，能显著优化模型性能，适配特定领域需求。相比于模型预训练，后训练阶段对计算资源和数据资源需求更小，更易迭代，为大语言模型提供了针对特定业务场景调优的能力，打通了通用大模型到垂直领域应用的"最后一公里"。阿里云大数据
数据库如何应对场景挑战？电科金仓 “融合智能” 范式给出答案！澪贰话题数据库
文章目录一、场景重塑产业格局：数据库“融合进化”二、多模数据融合：打破数据藩篱，激发内在价值三、多架构随需应变：业务驱动的灵活底座四、多语法兼容：平滑迁移的“无痛”实践五、智能注入：运维自治与效能跃升的未来六、融合·智能：数据库演进新范式一、场景重塑产业格局：数据库“融合进化”AI浪潮奔涌而至，数字产业格局加速重构。云计算、移动互联、万物互联（IoT）、人工智能（AI）等技术的深度融合与快速落地，
架构师深度研究报告：职责、技能与职业发展萧十一郎@ 深度研究人工智能
目录一、引言1.1研究背景与目的1.2架构师的定义与起源二、架构师的职责2.1技术职责2.1.1系统架构设计2.1.2技术难题解决与性能优化2.1.3新技术研究与应用2.2组织职责2.2.1团队协作与沟通2.2.2技术团队领导与指导三、架构师的技能要求3.1技术技能3.1.1编程与多语言能力3.1.2框架与工具掌握3.1.3数据库与云计算技术3.2软技能3.2.1逻辑与抽象思维能力3.2.2沟通与
AWS CAF：企业云转型的战略指南
在数字化转型的大潮中，企业正面临前所未有的变革压力。如何利用云计算驱动业务创新、提升IT敏捷性、优化成本结构，已成为众多企业迫切需要解决的关键课题。然而，云迁移并不是简单地将本地应用“复制”到云上，它是一项牵涉企业组织架构、流程治理、人员能力与技术堆栈的系统性工程。为了帮助企业有序、安全、可持续地推进云上转型，AmazonWebServices（AWS）推出了CloudAdoptionFramew
10、云安全框架与控制体系解析 k9l0m1 探索云安全：从理论到实践云安全安全框架数据安全
云安全框架与控制体系解析1.云安全框架概述在云计算环境中，数据安全至关重要。为确保用户数据在云端的机密性、正确性、可用性和完整性，提出了一种安全框架和多智能体系统（MAS）架构来促进云数据存储（CDS）的安全性。1.1安全框架结构该安全框架主要由两层组成：-代理层：包含多种智能代理，负责不同的数据安全任务。-云数据存储层：用于实际的数据存储。1.2MAS架构中的智能代理MAS架构包括五种类型的代理
实施数字化工具过程中企业普遍面临的典型挑战
一、技术整合与系统兼容性挑战典型表现：旧系统（如ERP、CRM）与新技术（如云计算、AI）集成时接口不兼容，导致数据丢失或业务中断新技术（如区块链）与遗留系统（如COBOL开发的核心账务系统）数据格式冲突，需人工转换解决方案：中间件技术：通过API网关或企业服务总线（ESB）实现系统解耦，例如某银行采用分布式事务中间件解决COBOL与区块链数据互通问题模块化架构：采用微服务架构支持渐进式升级，降低
Spring技术内幕——深入解析Spring架构与设计原理（一）IOC实现原理 Eric_xiaoQ 框架 spring
转自：http://www.javaeye.com/topic/493282?page=1简单来说，自己的软件产品是一个基于互联网的SaaS协同软件平台,操作简单，支持流程定义，管理和多种客户端-像短信，MSN，智能手机什么的（我这里就不多做什么广告了），也有一个企业版的版本，使用的技术框架是hibernate+Spring+Wicket，下面是Linux和MySQL，还有云计算的平台的使用，以支
执迷不醒!第六届研究所姜新宁算力3.0违法套路曝光!不能出金受骗事实! 大盛律道
近年来，股市波动不断，投资者们无不渴望找到稳健的投资途径。而一些不法分子趁机利用第六届研究所荐股群的手段，设下重重陷阱，致使投资者损失惨重。骗子冒充姜新宁，打着“算力3.0市场”“云计算市场YUN.云”“低成本高收益”“国家扶持项目”等幌子，很多人在不懂投资、不追问平台是否合法、一心只想赚钱的心态下，被不法分子姜新宁（骗子假冒的）所利用，最终落入算力3.0和云计算YUN.云交易市场的陷阱。如果你能
阿里云代理商：如何在云端实现大数据的实时分析与处理？ v_junsouyun06 阿里云服务器阿里云代理商阿里云优惠券阿里云大数据云计算
目录1.大数据与云计算概述1.1大数据的定义1.2云计算的定义1.3大数据与云计算的结合2.如何在云端实现大数据的实时分析与处理？2.1云平台的实时数据处理架构2.2云计算在大数据实时分析中的优势2.3云端大数据实时分析的关键技术3.大数据实时分析的应用场景3.1金融行业3.2电子商务3.3智能制造3.4智慧城市4.结论1.大数据与云计算概述1.1大数据的定义大数据是指在传统数据处理工具难以应对的
阿里云代理商：云计算如何推动人工智能与大数据的结合 v_junsouyun06 阿里云代理商阿里云服务器阿里云优惠券云计算阿里云人工智能
目录一、云计算为人工智能提供强大的计算资源1.海量计算能力2.多层次的数据处理能力二、云计算促进大数据与人工智能的融合1.数据存储与访问的灵活性2.大数据分析与AI模型训练的协同三、云计算的可扩展性推动AI与大数据的深度融合1.按需资源扩展与高效利用2.跨云平台协同工作四、云计算的AI服务简化大数据分析流程1.自动化机器学习平台2.智能化数据预处理与分析工具五、云计算与AI推动行业应用创新1.智能
亚马逊云科技实战架构：构建可扩展、高效率、无服务器应用德育处主任Pro 科技架构 serverless
对于今天的开发者、架构师和技术爱好者而言，云计算早已超越了简单的“虚拟机租赁”或“服务器托管”阶段。它已经演化为一套丰富、强大且精密的工具集，能够以前所未有的方式设计、部署和扩展应用程序。真正的云原生思维，是掌握并运用多种架构模式，为不同的业务场景选择最合适的解决方案。我整理了三个具体的、可动手实践的项目，一步步构建出功能完备的解决方案：弹性单体架构：学习如何利用基础设施即服务（IaaS）的控制力
Spring Boot中的多租户架构实现省赚客APP开发者@聚娃科技 spring boot 架构后端
SpringBoot中的多租户架构实现大家好，我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编，也是冬天不穿秋裤，天冷也要风度的程序猿！一、引言随着云计算和SaaS（软件即服务）模式的流行，多租户架构成为了解决不同客户（租户）共享同一应用程序实例的重要方案。在多租户系统中，每个租户都能够安全且有效地使用相同的应用程序，同时确保数据隔离和性能独立性。本文将探讨如何利用SpringBo
2024年AI领域10大影响力事件中國龍在廣州人工智能-智能体-具身智能人工智能 chatgpt 机器学习机器人深度学习
2024年AI领域10大影响力事件原创deepaiedu.com深度人工智能深度人工智能在即将过去的一年里，我们共同见证了一个非凡的时代——人工智能（AI）不仅在科技领域内取得了突破性的进展，更是在社会各个层面引发了深刻的变革。从年初开始，AI技术就以惊人的速度发展，无论是多模态模型的能力拓展，还是小型化语言模型的崛起，亦或是硬件革新与云计算技术的深度融合，都标志着这一年AI产业迈上了新的台阶。2
购买云服务器为什么都喜欢选择阿里云服务器？用户选择的理由分析阿里云最新优惠和活动汇总
购买云服务器为什么都喜欢选择阿里云服务器？现在的用户在购买云服务器产品时首先考虑的就是阿里云服务器，为什么呢？总结起来，既有云服务器本身的优势，又有口碑和市场占有率的影响，同时也离不开阿里云的各种促销活动的吸引。下面是小编分析的几个用户购买云服务器时喜欢喜欢阿里云服务器的理由。阿里云服务器优势图.png首先：云服务器本身的优势相比于传统物理服务器，阿里云服务器是一种高效，计算能力可弹性伸缩的云计算
通过Deepseek找工作速易达网络人工智能
推送的结果如下，对应的AI提示词在底部：计算机方向远程工作职位汇总整合全球远程技术岗位|支持全地域远程办公|涵盖开发、安全、云计算等方向覆盖方向：8+个技术领域薪资范围：¥10K-¥40K/月工作模式：100%远程远程技术职位列表职位名称技能要求经验要求薪资待遇工作模式WordPress开发工程师PHP,HTML5/CSS3,WordPress二次开发,SEO优化3年+1.4-1.6万/月全球远程
一体化兼容、多模融合、AI驱动！金仓发布会释放国产数据库最强信号羑悻的小杀马特. 人工智能数据库
一、场景重塑产业格局：数据库“融合进化”AI浪潮奔涌而至，数字产业格局加速重构。云计算、移动互联、万物互联（IoT）、人工智能（AI）等技术的深度融合与快速落地，正以前所未有的速度重塑着企业的应用形态。新业务场景层出不穷——从高并发的在线交易、实时精准的分析决策，到海量物联网设备监控、基于图关系的风控反欺诈，再到AI驱动的智能推荐与内容生成，应用场景的多样性与复杂性已突破传统数据库的能力边界。这对
融合与智能：AI 浪潮驱动下数据库的多维度进化与产业格局重塑新范式 wei_shuo 人工智能数据库金仓数据库
一、场景重塑产业格局：数据库“融合进化”AI浪潮奔涌而至，数字产业格局加速重构。云计算、移动互联、万物互联（IoT）、人工智能（AI）等技术的深度融合与快速落地，正以前所未有的速度重塑着企业的应用形态。新业务场景层出不穷——从高并发的在线交易、实时精准的分析决策，到海量物联网设备监控、基于图关系的风控反欺诈，再到AI驱动的智能推荐与内容生成，应用场景的多样性与复杂性已突破传统数据库的能力边界。这对
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache