听风347

python实训

一、项目目的与意义

二、项目的内容与操作环境

三、项目实施过程

四、项目总结及收获

一、项目目的与意义

数据采集课程设计是计算机科学与技术专业的一门专业课程，涉及python编程、数据库技术等课程。课程设计的目的是使学生掌握数据采集以及预处理的技术，理解数据采集的原理以及实现，培养学生综合运用所学知识的能力。通过数据采集项目解决实际问题，培养学生严谨的学习态度和良好的学习习惯。

数据采集课程是一门旨在教授如何使用 Python 编写程序来获取、处理和分析数据的课程。该课程将介绍如何使用 Python 编写网络爬虫、解析 HTML 页面、使用数据库存储数据并对数据进行预处理。旨在通过本次课程设计，锻炼学生发现问题、解决问题、综合编程、团队合作等方面的能力，通过案例开发掌握python爬虫基础技术和数据采集以及预处理思路，了侧重实践能力引导和培养。由浅入深的带领学生熟悉数据采集的技术和原理，并辅导学生一步一步的完成项目的开发，学习和提高数据采集和处理能力，提高项目开发能力，注重学生团队意识培养。

二、项目的内容与操作环境

（一）项目内容

本项目的目的是通过使用Python爬虫技术从目标网站上爬取数据，并将数据存储到MySQL数据库中，然后使用Kettle软件对爬取的数据进行处理。通过这个项目，学生可以学习并掌握Python爬虫的基本原理和实现方法，了解MySQL数据库的基本操作和Kettle软件的使用，同时也可以提高学生对数据处理和数据清洗的认识和实践能力。

（二）项目环境

一台PC机，Windows10/11操作系统，Pycharm，JDK8，MySQL数据库,Navicat premium15,kettle

三、项目实施过程

一.基础环境搭建安装

1.python相关库安装

安装爬虫所需的urllib和bs4包

pip install urllib3

pip install beautifulsoup4

安装数据入库所需的包

pip install pymysql

安装数据可视化所需要的包

pip install pyecharts

2. mysql数据库安装

下载安装包

解压压缩包，将my.ini文件放到解压后的目录

命令行窗口下，切换到指定的文件夹下面

安装并启动mysql服务

启动mysql服务，配置远程可连接

用Navicat连接mysql数据库

3. kettle软件安装并连接mysql数据库

解压缩文件pdi-ce-8.2.0.0-342.zip解压完成之后，配置环境变量，环境变量指向Java的安装目录

kettle 连接数据库

mysql-connector-java-8.0.30.jar放在kettle 的lib文件夹下面

修改kettel中的sample-jndi文件夹下的配置文件

修改完成后，采用jndi的方式连接mysql数据库

二.数据采集以及预处理

1.编写代码

python爬虫数据采集，构造请求,使用urllib库

urllib库的主要作用是发送HTTP请求和处理响应。它支持同步和异步两种方式，可以发送GET、POST、PUT、DELETE等HTTP请求，并支持HTTPS协议。urllib库还提供了许多有用的功能，例如URL编码、处理Cookie、处理重定向等。

python爬虫数据采集，解析数据

Beautiful Soup是一个Python库，用于解析HTML和XML文档，包括从网页或其他来源获取内容，并以树形结构组织这些内容，使其可以轻松地通过标签名、属性、ID或搜索等来访问。

Beautiful Soup的主要作用是：

1.解析HTML或XML文档：Beautiful Soup可以将复杂的HTML或XML文档转换成一个复杂的树形结构，每个节点都是Python对象，这样你就可以很方便地查询、修改文档。

2.搜索文档：Beautiful Soup支持在树形文档中进行搜索，可以搜索标签名、属性、文本内容等

数据采集代码如下

#!/usr/bin/env python
# coding: utf-8

# 导入所需库
import csv  # 用于 CSV 文件的读写操作
import urllib  # 用于 URL 解析
import urllib.request  # 用于 HTTP 请求
from time import sleep  # 用于添加延迟
from bs4 import BeautifulSoup as bs  # 用于解析 HTML
from urllib.parse import urljoin  # 用于处理 URL
import pymysql  # 用于连接 MySQL 数据库
import random  # 用于生成随机数
import time  # 用于处理时间
import requests  # 用于发送 HTTP 请求
from urllib.request import urlopen, build_opener  # 用于构建 HTTP 请求
from urllib.request import Request, HTTPHandler  # 用于处理 HTTP 请求
from fake_useragent import UserAgent  # 用于生成浏览器 User-Agent
import urllib3  # 用于禁用警告

# 关闭警告
urllib3.disable_warnings()

# 获取代理 IP
def getProxy():
    res = requests.get('http://127.0.0.1:5010/get/').json()  # 从代理池获取代理 IP
    proxies = {}
    if res['https']:
        proxies['https'] = res['proxy']  # 设置 https 代理
    else:
        proxies['http'] = res['proxy']  # 设置 http 代理
    return proxies  # 返回代理 IP 字典

# 获取页面信息
def get_info(page):
    sleep(1)  # 添加延迟，防止访问过快被封禁
    url = 'https://www.cnhnb.com/p/mianfen-0-0-0-0-{}/'.format(page)  # 目标网站 URL
    proxy_ip = getProxy()['http']  # 使用随机获取的代理 IP
    print(proxy_ip)
    proxy_handler = urllib.request.ProxyHandler({"http": proxy_ip})  # 构造代理处理器对象
    opener = urllib.request.build_opener(proxy_handler, urllib.request.HTTPHandler)  # 构造一个自定义的 opener 对象
    urllib.request.install_opener(opener)
    headers = {}  # 构造请求头信息
    headers['User-Agent'] = UserAgent().chrome  # 设置浏览器 User-Agent
    headers['Accept'] = 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9'
    ############ 需修改为自己的 Cookie
    headers['Cookie'] = ''  # 添加自己的 Cookie
    req = Request(url, headers=headers)  # 封装请求
    response = opener.open(req)  # 使用自定义的 opener 对象发起访问请求
    html = urllib.request.urlopen(req)
    soup = bs(html.read(), 'html.parser')
    lu = soup.find_all('div', class_='show-ctn')
    product_all = []
    for i in lu:
        product_name = i.find('h2').get_text()  # 获取产品名称
        supplier = i.find("a").get_text()  # 获取供应商
        supplier_web = i.find("a").attrs['href']  # 获取供应商网址
        product_desc = i.find('div', class_='shop-image').img.attrs['alt']  # 获取产品介绍
        product_img = i.find('div', class_='shop-image').img.attrs['src']  # 获取产品图片
        product_price = str(i.find('div', class_='shops-price').get_text()).strip().replace('\n', '').replace(' ', '')  # 获取产品价格
        addr = str(i.find('div', class_='r-shop-btm').get_text())  # 获取发货地
        mailing_ins = str(i.find('div', class_='cw-tags').get_text()).strip().replace('\n', '').replace(' ', '')  # 获取邮寄说明
        product = [product_name, supplier, supplier_web, product_desc, product_img, product_price, addr, mailing_ins]
        product_all.append(product)  # 将提取的信息添加到列表中
    return product_all  # 返回产品信息列表

# 保存到 MySQL
def save_mysql(all_data):
    conn = pymysql.connect(host='127.0.0.1', user='root', port=3306, password='123456', db='mydb', charset='utf8')  # 连接 MySQL 数据库
    cursor = conn.cursor()
    insertsql = 'insert into product_info(product_name,supplier,supplier_web,product_desc,product_img,product_price,addr,mailing_ins) value (%s,%s,%s,%s,%s,%s,%s,%s)'  # 插入数据 SQL 语句
    for data in all_data:
        data = tuple(data)
        cursor.execute(insertsql, data)  # 执行插入数据操作
    conn.commit()  # 提交事务

# 主程序入口
if __name__ == '__main__':
    lst = [i for i in range(1, 88)]  # 生成页面列表
    while len(lst) > 0:
        for i in lst:
            try:
                all_data = get_info(i)  # 获取页面信息
                print(i)
                lst.remove(i)  # 移除已爬取的页面
                save_mysql(all_data)  # 保存至 MySQL

            except:
                pass  # 忽略异常

2.登录网站获取获取cookie信息

使用chrome浏览器打开惠农网的页面，注册登录之后，按F12

一次选择Application -> Storage -> Cookies -> .c > show Requests With Cookie，获取cookie信息后，将代码中的cookie信息替换掉

二.数据采集以及预处理

3.获取IP代理

有些网站有反爬虫机制,通过代理ip可以绕开限制

1.首先解压proxy_pool-master.zip，解压之后用pycharm打开

2.修改setting.py DB_CONN = 'redis://127.0.0.1:6379/0’

3.安装redis 运行 redis-cli.exe

4.python proxyPool.py schedule

运行时如果报某个库不存在，用pip install 语句安装对应的库就可以

5.python proxyPool.py server

4.使用kettle做数据预处理

Kettle是一款开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，绿色无需安装。它允许你管理来自不同数据库的数据，通过提供一个图形化的用户环境来描述你想做什么，功能强大可以对多种数据源进行抽取（Extraction）、加载（Loading）、数据落湖（Data lake Injection）、对数据进行各种清洗（Cleaning）、转换（Transformation）、混合（Blending），并支持多维联机分析处理（OLAP）和数据挖掘（Data mining）

1.安装并打开kettle

2.kettle 连接数据库

3.kettle数据etl处理

3.1数据抽取

3.2数据转换

4.数据转换

4.1数据剔重

4.2缺失值替换

5.数据load（将数据加载到数据库中的新表）

6.查看新表product_info_new中的数据

三.数据可视化

1.编写代码

导入相关库

import pandas as pd # 导入 pandas 库用于数据处理
import pymysql # 导入 pymysql 用于连接 MySQL 数据库
from pyecharts import options as opts # 导入 pyecharts 中的选项模块
from pyecharts.charts import Bar # 导入柱状图模块
from pyecharts.globals import ThemeType # 导入主题类型

连接到 MySQL 数据库
创建游标对象
编写 SQL 查询语句，获取数据
执行 SQL 查询，获取数据并存入 Pandas DataFrame
显示 DataFrame 的前 500 行数据
将 ‘price’ 列转换为浮点型，并筛选出小于 100 的值
按 ‘addr’ 列分组计算 ‘price’ 列的均值，排序并重置索引
提取前 20 个 ‘addr’ 和相应的 ‘price’ 值
定义一个函数，创建带有次级 y 轴的柱状图
渲染柱状图，并将其保存为一个 HTML 文件

数据可视化代码如下

# 导入所需库
import pandas as pd  # 导入 pandas 库用于数据处理
import pymysql  # 导入 pymysql 用于连接 MySQL 数据库
from pyecharts import options as opts  # 导入 pyecharts 中的选项模块
from pyecharts.charts import Bar  # 导入柱状图模块
from pyecharts.commons.utils import JsCode
from pyecharts.globals import ThemeType  # 导入主题类型
import random
# 连接到 MySQL 数据库
db = pymysql.connect(host='127.0.0.1', user='root', port=3306, password='123456', db='mydb', charset='utf8')

# 创建游标对象
cursor = db.cursor()

# 编写 SQL 查询语句，获取数据
sql = '''select addr,replace(product_price,"元/斤","") price 
         from product_info_new1 
         where product_price like "%元/斤%"'''

# 执行 SQL 查询，获取数据并存入 Pandas DataFrame
cursor.execute(sql)
data = cursor.fetchall()  # 获取所有查询结果
pd.set_option('display.precision', 2)  # 设置 pandas 显示精度
df = pd.DataFrame(list(data), columns=['addr', 'price'])  # 创建 DataFrame 存储查询结果

# 显示 DataFrame 的前 500 行数据
df.head(500)

# 将 'price' 列转换为浮点型，并筛选出小于 100 的值
df["price"] = pd.to_numeric(df["price"], downcast="float")  # 将价格列转换为浮点型
df = df[df.iloc[:, 1] < 100]  # 筛选出价格小于 100 的数据

# 按 'addr' 列分组计算 'price' 列的均值，排序并重置索引
price_mean = df.groupby("addr")['price'].mean().sort_values(ascending=False).to_frame()  # 按地址分组计算价格均值
price_mean.reset_index(inplace=True)  # 重置索引

# 提取前 10 个 'addr' 和相应的 'price' 值
x = list(price_mean['addr'])[0:10]  # 获取前 10 个地址数据
y_tmp = list(price_mean['price'])[0:10]  # 获取前 10 个价格数据
y = [round(num, 1) for num in y_tmp]  # 对价格数据保留一位小数并保存

# 定义一个函数，创建带有次级 y 轴的柱状图
def overlap_bar_line(x, y, title) -> Bar:
    # 初始化柱状图，并设置主题为亮色
    bar = (
        Bar(init_opts=opts.InitOpts(theme=ThemeType.LIGHT))
        # 设置 x 轴数据
        .add_xaxis(x)
        # 添加 y 轴数据，并设置柱状图的宽度和样式
        .add_yaxis(
            "惠农网面粉价格Top10发货地",
            y,
            bar_width=46,
            itemstyle_opts=opts.ItemStyleOpts(
                # 设置渐变颜色
                color=JsCode(
                    """
                    new echarts.graphic.LinearGradient(0, 0, 0, 1, [
                        { offset: 0, color: '#6197EE' },
                        { offset: 1, color: '#B7BFE8' }
                    ])
                    """
                ),
                # 设置柱状图边框圆角
                border_radius=[2, 2, 0, 0],
            ),
        )
        # 添加次级 y 轴的设置
        .extend_axis(
            yaxis=opts.AxisOpts(
                axislabel_opts=opts.LabelOpts(formatter="{value}"), interval=15
            )
        )
        # 设置柱状图上数据标签样式
        .set_series_opts(label_opts=opts.LabelOpts(is_show=True, font_size=18, color='black'))
        # 设置全局选项
        .set_global_opts(
            # 设置标题
            title_opts=opts.TitleOpts(title=title),
            # 设置左侧 y 轴选项
            yaxis_opts=opts.AxisOpts(
                axislabel_opts=opts.LabelOpts(formatter="{value}", font_size=15)
            ),
            # 设置 x 轴选项
            xaxis_opts=opts.AxisOpts(
                axislabel_opts=opts.LabelOpts(
                    is_show=True, position="top", color="black", rotate=0, interval=0, font_size=15
                )
            ),
        )
    )
    return bar
# 渲染柱状图，并将其保存为一个 HTML 文件
overlap_bar_line(x, y, "").render("C:/Users/LENOVO/Desktop/数据采集课程设计/bar_chart5.html")

2.运行

3.生成结果

四、项目总结及收获

（一）难点问题/关键技术/优势与特色

1.难点问题

Mysql安装后无法连接数据库，通过更改端口成功连接数据库

无法导入UserAgent库，通过手动在pycharm中导入

代理服务器运行时没有定位到相关目录，更改目录后成功运行

数据采集后通过kellte处行预处理时数据库结果一直不变，实际是每次预处理后都会在原来的记录下边生成，通过更改查看记录的范围，找到了原因

数据可视化时无法产生结果，通过渲染柱状图，并将其保存为一个 HTML 文件，成功打开结果

2.关键技术

Python语言编程和应用

Pycharm的安装与使用

JDK8的安装与配置环境变量

MySQL数据库的安装与连接

Navicat premium15的安装，连接与使用

Kettle的安装，配置和使用

数据采集技术，数据预处理技术和数据可视化技术的应用

3.优势与特色

3.1除了使用本地数据库以外，我们还实现了云服务器数据库的配置和连接

配置云服务器

安装centos 系统

配置docker环境

通过docker拉取1panel可视化面板的镜像

通过1panel镜像创建容器

在1panel可视化面板里安装和配置mysql并成功连接

最后成功了实现采集数据到云数据库，预处理云数据库，可视化云服务器数据库数据

3.2通过青龙面板，实现了定期爬取数据和分析数据

通过docker拉取青龙面板镜像

通过青龙面板镜像创建容器并启动

导入数据爬取与可视化代码

添加相关依赖

添加定时任务

查看爬取和可视化结果总结及收获

（二）团队体会与收获

通过团队合作进行基于Python爬虫的数据采集与预处理的设计与实现，我们获得了技术实践的机会，提高了团队协作能力和问题解决能力，加深了对数据质量的认识，并获得了宝贵的学习与成长的机会。这些经验和收获将对我们未来的职业发展产生积极的影响，并为我们在数据领域的探索和进一步学习奠定了坚实基础。

python 读excel每行替换_Python脚本操作Excel实现批量替换功能 weixin_39646695 python 读excel每行替换
Python脚本操作Excel实现批量替换功能大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理excel，其实针对的就是WorkBook，Sheet，Cell这三个最根本的元素~明确需求原始excel如下我们的目标是把下面excel工作表的sheet1表页A列的内容“替换我吧”批量替换为B列的“我用来替换的
什么是缓存雪崩？缓存击穿？缓存穿透？分别如何解决？什么是缓存预热？ daixin8848 缓存 redis java 开发语言
缓存雪崩：在一个时间段内，有大量的key过期，或者Redis服务宕机，导致大量的请求到达数据库,带来巨大压力-给key设置不同的TTL、利用Redis集群提高服务的高可用性、添加多级缓存、添加降级流策略缓存击穿：给某一个key设置了过期时间，当key过期的时间，恰好这个时间点有大量的并发请求访问这个key，可能会瞬间把数据库压垮-互斥锁：缓存失败时，只允许一个请求去加载数据并更新缓存，其他请求阻塞
Aop +反射实现方法版本动态切换
需求分析在做技术选型的时候一直存在着两个声音，mongo作为数据库比较mysql好，mysql做为该数据比mongo好。当然不同数据库都有有着自己的优势，我们在做技术选型的时候无非就是做到对数据库的扬长避短。mysql最大的优势就是支持事务，事务的五大特性保证的业务可靠性，随之而来的就是事务会产生的问题：脏读、幻读、不可重复度，当然我们也会使用不同的隔离级别来解决。（最典型的业务问题：银行存取钱）
最新阿里四面面试真题46道：面试技巧+核心问题+面试心得风平浪静如码
前言做技术的有一种资历，叫做通过了阿里的面试。这些阿里Java相关问题，都是之前通过不断优秀人才的铺垫总结的，先自己弄懂了再去阿里面试，不然就是去丢脸，被虐。希望对大家帮助，祝面试成功，有个更好的职业规划。一，阿里常见技术面1、微信红包怎么实现。2、海量数据分析。3、测试职位问的线程安全和非线程安全。4、HTTP2.0、thrift。5、面试电话沟通可能先让自我介绍。6、分布式事务一致性。7、ni
python笔记14介绍几个魔法方法抢公主的大魔王 python python
python笔记14介绍几个魔法方法先声明一下各位大佬，这是我的笔记。如有错误，恳请指正。另外，感谢您的观看，谢谢啦！(1).__doc__输出对应的函数，类的说明文档print(print.__doc__)print(value,...,sep='',end='\n',file=sys.stdout,flush=False)Printsthevaluestoastream,ortosys.std
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
环境搭建 | Python + Anaconda / Miniconda + PyCharm 的安装、配置与使用
本文将分别介绍Python、Anaconda/Miniconda、PyCharm的安装、配置与使用，详细介绍Python环境搭建的全过程，涵盖Python、Pip、PythonLauncher、Anaconda、Miniconda、Pycharm等内容，以官方文档为参照，使用经验为补充，内容全面而详实。由于图片太多，就先贴一个无图简化版吧，详情请查看Python+Anaconda/Minicond
MySQL复习题
一.填空题1.关系数据库的标准语言是SQL。2.数据库发展的3个阶段中，数据独立性最高的是阶段数据库系统。3.概念模型中的3种基本联系分别是一对一、一对多和多对多。4.MySQL配置文件的文件名是my.ini或my.cnf。5.在MySQL配置文件中，datadir用于指定数据库文件的保存目录。6.添加IFNOTEXISTS可在创建的数据库已存在时防止程序报错。7.MySQL提供的SHOWCREA
你竟然还在用克隆删除？Conda最新版rename命令全攻略！曦紫沐 Python基础知识 conda 虚拟环境管理
文章摘要Conda虚拟环境管理终于迎来革命性升级！本文揭秘Conda4.9+版本新增的rename黑科技，彻底告别传统“克隆+删除”的繁琐操作。从命令解析到实战案例，手把手教你如何安全高效地重命名Python虚拟环境，附带版本检测、环境迁移、故障排查等进阶技巧，助你提升开发效率10倍！一、颠覆认知：Conda居然自带重命名功能？很多开发者仍停留在“Conda无法直接重命名环境”的认知阶段，实际上自
centos7安装配置 Anaconda3
Anaconda是一个用于科学计算的Python发行版,Anaconda于Python，相当于centos于linux。下载[root@testsrc]#mwgethttps://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.2.0-Linux-x86_64.shBegintodownload:Anaconda3-5.2.0-L
Pandas：数据科学的超级瑞士军刀科技林总 DeepSeek学AI 人工智能
**——从零基础到高效分析的进化指南**###**一、Pandas诞生：数据革命的救世主****2010年前的数据分析噩梦**：```python#传统Python处理表格数据data=[]forrowincsv_file:ifrow[3]>100androw[2]=="China":data.append(float(row[5])#代码冗长易错！```**核心痛点**：-Excel处理百万行崩
Android GreenDao介绍和Generator生成表对象代码
目录(?)[-]介绍创建工程转载请注明：http://blog.csdn.net/sinat_30276961/article/details/50052109最近无意中发现了GreenDao，然后查看了一些资料后，发现这个数据库框架很适合用，于是乎，查看了官网的api，并自己写了一个小应用总结一下它的使用方法。介绍按照国际惯例，在开篇，总要先介绍一下什么是GreenDao吧。首先需要说明的是Gr
【Jupyter】个人开发常见命令 TIM老师 #Pycharm &VSCode python Jupyter
1.查看python版本importsysprint(sys.version)2.ipynb/py文件转换jupyternbconvert--topythonmy_file.ipynbipynb转换为mdjupyternbconvert--tomdmy_file.ipynbipynb转为htmljupyternbconvert--tohtmlmy_file.ipynbipython转换为pdfju
用 Python 开发小游戏：零基础也能做出《贪吃蛇》
本文专为零基础学习者打造，详细介绍如何用Python开发经典小游戏《贪吃蛇》。无需复杂编程知识，从环境搭建到代码编写、功能实现，逐步讲解核心逻辑与操作。涵盖Pygame库的基础运用、游戏界面设计、蛇的移动与食物生成规则等，让新手能按步骤完成开发，同时融入SEO优化要点，帮助读者轻松入门Python游戏开发，体验从0到1做出游戏的乐趣。一、为什么选择用Python开发《贪吃蛇》对于零基础学习者来说，
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
lesson20：Python函数的标注你的电影很有趣 python 开发语言
目录引言：为什么函数标注是现代Python开发的必备技能一、函数标注的基础语法1.1参数与返回值标注1.2支持的标注类型1.3Python3.9+的重大改进：标准集合泛型二、高级标注技巧与最佳实践2.1复杂参数结构标注2.2函数类型与回调标注2.3变量注解与类型别名三、静态类型检查工具应用3.1mypy：最流行的类型检查器3.2Pyright与IDE集成3.3运行时类型验证四、函数标注的工程价值与
Jupyter Notebook：数据科学的“瑞士军刀” a小胡哦机器学习基础人工智能机器学习
在数据科学的世界里，JupyterNotebook是一个不可或缺的工具，它就像是数据科学家手中的“瑞士军刀”，功能强大且灵活多变。今天，就让我们一起深入了解这个神奇的工具。一、JupyterNotebook是什么？JupyterNotebook是一个开源的Web应用程序，它允许你创建和共享包含实时代码、方程、可视化和解释性文本的文档。它支持多种编程语言，其中Python是最常用的语言之一。Jupy
Mac OSX 下的mysql数据库文件存放位置 Bruuuces mysql mac osx 位置存放
之前我的mysql的系统数据库里的表被我玩坏了，万般无奈之下只得删除所有mysql的东西重新构建数据库。按照网上搜到的内容删除后重装发现数据库没有什么变化。于是自己在每个可能存放数据库文件的目录查找，最终确认目录位置如下:使用HomeBrew安装为/usr/local/var/mysql使用官方下载的dmg镜像安装为/usr/local/mysql删除这个目录再重新安装mysql就会重新生成系统数
Django学习笔记（一）
学习视频为：pythondjangoweb框架开发入门全套视频教程一、安装pipinstalldjango==****检查是否安装成功django.get_version()二、django新建项目操作1、新建一个项目django-adminstartprojectproject_name2、新建APPcdproject_namedjango-adminstartappApp注：一个project
Python 程序设计讲义（26）：字符串的用法——字符的编码睿思达DBA_WGX Python 讲义 python 开发语言
Python程序设计讲义（26）：字符串的用法——字符的编码目录Python程序设计讲义（26）：字符串的用法——字符的编码一、字符的编码二、`ASCII`编码三、`Unicode`编码四、使用`ord()`函数查询一个字符对应的`Unicode`编码五、使用`chr()`函数查询一个`Unicode`编码对应的字符六、`Python`字符串的特征一、字符的编码计算机默认只能处理二进制数，而不能处
mac升级mysql_Mac OSX下的MySQL数据库升级 weixin_39801714 mac升级mysql
MacOSX下的数据库升级最麻烦的不过权限的问题.本文的MySQL的安装方式为OSX下DMG磁盘镜像的安装方式,MacPorts/Homebrew的方式大同小异.从5.6.17升级到5.7.18安装目录信息ls-al/usr/local|grepmysqllrwxr-xr-x1rootwheel30B52100:39mysql@->mysql-5.6.17-osx10.7-x86_64drwxr-
【Python】pypinyin-汉字拼音转换工具鸟哥大大 Python python 自然语言处理
文章目录1.主要功能2.安装3.常用API3.1拼音风格3.2核心API3.2.1pypinyin.pinyin()3.2.2pypinyin.lazy_pinyin()3.2.3pypinyin.load_single_dict()3.2.4pypinyin.load_phrases_dict()3.2.5pypinyin.slug()3.3注册新的拼音风格4.基本用法4.1库导入4.2基本汉字
python编程第十四课：数据可视化小小源助手 Python代码实例信息可视化 python 开发语言
Python数据可视化：让数据“开口说话”在当今数据爆炸的时代，数据可视化已成为探索数据规律、传达数据信息的关键技术。Python凭借其丰富的第三方库，为数据可视化提供了强大而灵活的解决方案。本文将带你深入了解Matplotlib库的基础绘图、Seaborn库的高级可视化以及交互式可视化工具Plotly，帮助你通过图表清晰地展示数据背后的故事。一、Matplotlib库基础绘图Matplotlib
【MySQL】MySQL数据库如何改名武昌库里写JAVA 面试题汇总与解析 spring boot vue.js sql java 学习
MySQL建库授权语句https://www.jianshu.com/p/2237a9649ceeMySQL数据库改名的三种方法https://www.cnblogs.com/gomysql/p/3584881.htmlMySQL安全修改数据库名几种方法https://blog.csdn.net/haiross/article/details/51282417MySQL重命名数据库https://
HikariCP调试日志深度解析：生产环境故障排查完全指南
HikariCP调试日志深度解析：生产环境故障排查完全指南更新时间：2025年7月4日|作者：资深架构师|适用版本：HikariCP5.x+|难度等级：中高级前言在生产环境中，数据库连接池往往是系统性能的关键瓶颈。HikariCP作为当前最流行的Java连接池，其调试日志包含了丰富的运行时信息，能够帮助我们快速定位和解决各种连接池相关问题。本文将深入解析HikariCP的日志体系，提供一套完整的故
Python数据可视化：用代码绘制数据背后的故事 AAEllisonPang Python 信息可视化 python 开发语言
引言：当数据会说话在数据爆炸的时代，可视化是解锁数据价值的金钥匙。Python凭借其丰富的可视化生态库，已成为数据科学家的首选工具。本文将带您从基础到高级，探索如何用Python将冰冷数字转化为引人入胜的视觉叙事。一、基础篇：二维可视化的艺术表达1.1Matplotlib：可视化领域的瑞士军刀importmatplotlib.pyplotaspltimportnumpyasnpx=np.linsp
大学社团管理系统（11831） codercode2022 java spring boot spring echarts spring cloud sentinel java-rocketmq
有需要的同学，源代码和配套文档领取，加文章最下方的名片哦一、项目演示项目演示视频二、资料介绍完整源代码（前后端源代码+SQL脚本）配套文档（LW+PPT+开题报告）远程调试控屏包运行三、技术介绍Java语言SSM框架SpringBoot框架Vue框架JSP页面Mysql数据库IDEA/Eclipse开发四、项目截图有需要的同学，源代码和配套文档领取，加文章最下方的名片哦!
python学习笔记（汇总）朕的剑还未配妥 python学习笔记整理 python 学习开发语言
文章目录一.基础知识二.python中的数据类型三.运算符四.程序的控制结构五.列表六.字典七.元组八.集合九.字符串十.函数十一.解决bug一.基础知识print函数字符串要加引号，数字可不加引号，如print(123.4)print('小谢')print("洛天依")还可输入表达式，如print(1+3)如果使用三引号，print打印的内容可不在同一行print("line1line2line
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs

python实训

一、项目目的与意义

二、项目的内容与操作环境

三、项目实施过程

四、项目总结及收获

你可能感兴趣的:(python,开发语言,数据分析,数据库)