场景:电商网站在“双十一”期间流量激增,需要临时扩容服务器资源。
代码:使用AWS Boto3库动态启动EC2实例
import boto3
# 创建EC2客户端
ec2 = boto3.client('ec2', region_name='us-west-2')
# 启动一个临时EC2实例
response = ec2.run_instances(
ImageId='ami-0c55b159cbfafe1f0', # Amazon Linux 2 AMI
MinCount=1,
MaxCount=1,
InstanceType='t2.micro',
KeyName='my-key-pair', # 替换为你的密钥对
TagSpecifications=[{'ResourceType': 'instance', 'Tags': [{'Key': 'Name', 'Value': 'AutoScaleInstance'}]}]
)
print("启动的实例ID:", response['Instances'][0]['InstanceId'])
解释:
场景:分析电商平台的用户点击日志,统计每个商品的点击次数。
代码:
from pyspark.sql import SparkSession
# 初始化Spark会话
spark = SparkSession.builder \
.appName("UserBehaviorAnalysis") \
.getOrCreate()
# 读取CSV数据
df = spark.read.csv("s3://your-bucket/user_logs.csv", header=True, inferSchema=True)
# 统计每个商品的点击次数
product_clicks = df.groupBy("product_id").count().orderBy("count", ascending=False)
# 输出结果
product_clicks.show()
解释:
groupBy
统计商品点击量,结果自动分布到多台机器计算。场景:分析用户评论的情感倾向(正面/负面)。
代码:
from transformers import pipeline
# 加载预训练情感分析模型
classifier = pipeline("sentiment-analysis")
# 输入文本
texts = [
"I love this product! It's amazing.",
"The service was terrible. I'm very disappointed."
]
# 分析情感
results = classifier(texts)
for i, result in enumerate(results):
print(f"文本: {texts[i]} -> 情感: {result['label']}, 置信度: {result['score']:.2f}")
输出示例:
文本: I love this product! It's amazing. -> 情感: POSITIVE, 置信度: 0.99
文本: The service was terrible. I'm very disappointed. -> 情感: NEGATIVE, 置信度: 0.98
解释:
pipeline
简化了模型调用,无需手动编写复杂代码即可完成任务。代码流程:
# 读取用户行为数据
user_actions = spark.read.parquet("hdfs://user/actions/")
# 清洗数据:过滤无效记录
cleaned_data = user_actions.filter(user_actions["action_type"].isin(["click", "purchase"]))
# 统计用户偏好(如点击最多的商品类别)
user_preferences = cleaned_data.groupBy("user_id", "category").count()
from xgboost import XGBClassifier
from sklearn.model_selection import train_test_split
# 准备训练数据
X = user_preferences.toPandas()[["category", "count"]]
y = user_preferences.toPandas()["user_id"] # 假设目标是预测用户ID
# 训练模型
model = XGBClassifier()
model.fit(X, y)
# 预测新用户偏好
new_user = [[2, 5]] # 示例输入
predicted_category = model.predict(new_user)
print("推荐商品类别:", predicted_category[0])
import boto3
# 将推荐结果写入S3
s3 = boto3.client('s3')
s3.put_object(Body=str(predicted_category), Bucket='my-recommendation-bucket', Key='output.txt')
解释:
技术 | 核心能力 | 应用场景 |
---|---|---|
云计算 | 弹性资源、按需分配 | 动态扩容、远程数据存储 |
大数据 | 分布式计算、处理海量数据 | 用户行为分析、日志处理 |
AI | 模式识别、预测与决策 | 推荐系统、情感分析、图像识别 |
实际价值:
如果需要更具体的某领域案例(如医疗、金融、制造业),可以告诉我,我会进一步展开