MusicDancing

好用的Airflow Platform

1. 简介

1.1 为什么是airflow?

Airflow 是 Airbnb 开发的用于工作流管理(管理和调度各种离线定时 Job ，可以替代 crontab)的开源平台，它以编程方式创作，自带 web UI 和调度。基于有向无环图(DAG)，可以定义一组有依赖的任务，并按照依赖依次执行。提供了丰富的命令行工具用于系统管控，而其web管理界面同样也可以方便的管控调度任务，并且对任务运行状态进行实时监控，方便系统的运维和管理。

Airflow的调度，有定义图(DAG)、任务(Task)、依赖、监控之类的东西，基本上数仓是一个图对应一个调度，很相似的也可以放在一个图里做。

DAG 的定义使用 Python 完成的，其实就是一个 Python 文件，存放在 DAG 目录，Airflow 会动态的从这个目录构建 DAG object，每个 DAG object 代表了一个 workflow，每个 workflow 都可以包含任意个 task。

1.2 airflow自动部署流程

Gitlab持续发布自动部署方案

2. 环境配置

2.1 airflow 安装

查看是否已安装 airflow 模块：

pip list 
# 或
pip show airflow

安装

pip install apache-airflow
# pip3 install "apache-airflow~=2.2.5"

安装版本一般为 2.2.5

2.2 git权限开通

找相关负责人开通 airflow 项目git代码权限。

2.3 Pycharm 项目配置

从git 复制 airflow 项目地址(eg: [email protected]:bigdata/airflow-2.0-sa.git)，在本地IDE环境新建项目，并创建个人分支。

2.4 开通airflow 服务器权限

--- 用于代码测试 ---

（1）登录airflow 服务器:
hw-xx-bigdata-prod-airflow-01-11.22.33.44 (通过跳板机登录)
（2）跳转到airflow 账户:

sudo su - airflow
# 激活环境（. ~/venv/bin/activate）

（3）新建一个自己的目录(/home/airflow/zz)，并把待运行脚本上传到这里
rz test_air_flow.py
（4）测试脚本中每一个任务task

airflow tasks test {dag_id} {task_id} {execution_date} -S {script path}
airflow tasks test app_daily_tj t2 '2023-08-28 10' -S app_daily_tj.py

注意：dag_id 尽量多加后缀，不能与其他项目重复！

（5）代码测试通过之后，上传到git；

2.5 airflow平台权限开通

--- 代码正式例行调度 ---

代码上传到git平台后，过几分钟(运维配置会自动同步到Airflow调度任务)，在Airflow平台通过筛选DAG或用户名，可以看到自己的任务，点击开关按钮，其会进行调度（并自动执行过往日期任务）。

3. 流程详解

本地编写"app_daily_tj.sql"文件和“app_daily_tj.py”文件(两者同名)。“app_daily_tj.py”脚本实际上只是一个配置文件，将DAG的结构指定为代码。

3.1 导包

# -*- coding: utf-8 -*-
import os
import requests
import logging
import MySQLdb
import time
from datetime import datetime, timedelta
from utils.validate_metrics_utils import *
from utils.connection_helper import get_hive_cursor, get_db_conn
import airflow
from airflow.contrib.hooks.redis_hook import RedisHook
from airflow.hooks.hive_hooks import HiveCliHook, HiveServer2Hook
from airflow.hooks.mysql_hook import MySqlHook
from airflow.operators.bash_operator import BashOperator
from airflow.operators.dagrun_operator import TriggerDagRunOperator
from airflow.operators.hive_operator import HiveOperator
from airflow.operators.hive_to_mysql import HiveToMySqlTransfer
from airflow.operators.impala_plugin import ImpalaOperator
from airflow.operators.python_operator import PythonOperator
from airflow.operators.mysql_operator import MySqlOperator
from airflow.sensors.external_task_sensor import ExternalTaskSensor
from airflow.sensors.hive_partition_sensor import HivePartitionSensor
from airflow.sensors.named_hive_partition_sensor import NamedHivePartitionSensor
from airflow.models import Variable
from plugins.OdsSchemaUpdate import OdsSchemaUpdate
from plugins.TaskTimeoutMonitor import TaskTimeoutMonitor
from plugins.TaskTouchzSuccess import TaskTouchzSuccess

3.2 定义默认参数args

主要修改owner、日期、邮箱地址，另外此处还可以添加一些程序中需要使用的变量，其会与环境变量一起，在后续程序中可以直接使用。

args = {
    'owner': 'zz.song',
    'start_date': datetime(2023, 6, 1),  # 脚本调度起始时间
    # 'start_date': datetime(2023, 6, 1, 23),
    'depends_on_past': False,
    'retries': 3,
    'retry_delay': timedelta(minutes=3),
    'email': ['[email protected]'],
    'email_on_failure': True,
    'email_on_retry': False,
    # 'end_date': datetime(2023, 7, 1),   # 与start_date配合，可补跑指定范围的任务
    # 'queue': 'bash_queue',
    # 'pool': 'backfill',
    # 'priority_weight': 40,
    # 'provide_context': True,
    # 'on_failure_callback': send_email_msg  # 设置回调函数
    # 'end_date': datetime(2016, 1, 1)
}

3.3 定义DAG对象

dag = airflow.DAG(
    'app_daily_tj',  # dag_id，作为DAG的唯一标识符
    schedule_interval = "30 05 * * *",  # 每天5:30自动开始执行
    # schedule_interval=timedelta(days=1),
    default_args=args,
    # catchup=False,  # 为True会回填start_date至今的任务
    # max_active_runs=2,
    # concurrency=10,
)

注意：dag_id 尽量与脚本名称保持一致！保证唯一性。

3.4 创建任务

任务Task 可分为“依赖检测任务”和“自定义执行任务”，具体参考“任务拆解”章节。

3.5 设置依赖关系

t2.set_upstream(t1)  
t3.set_upstream(t1)
# 其他定义方式 (t2依赖t1)
t1.set_downstream(t2)
t1 >> t2
t2 << t1
# t3依赖t2, t2依赖t1,
t1 >> t2 >> t3
t1.set_downstream([t2, t3])
t1 >> [t2, t3]
[t2, t3] << t1

4. 任务分解

一个DAG图中，任务可以有多个。

4.1 依赖任务

主要是检测文件是否存在。

4.1.1 oss文件检测

from airflow.sensors import OssSensor
table_1_task = OssSensor(
    task_id = 'table_1_task',  # task_id：与依赖的命名对齐
    bucket_key = '{hdfs_path_str}/dt={pt}/_SUCCESS'.format(
        hdfs_path_str='oss://bd-datalake/bd_dw/table_1',  # 可通过元数据信息查看表文件路径
        pt='{{ds}}'  # 自带环境变量
        # pt='{{macros.ds_add(next_ds, -1)}}'
    ),
    poke_interval=60,  # 依赖不满足时，一分钟检查一次依赖状态
    dag=dag
)

4.1.2 obs文件检测

小时级分区表，execution_date 为环境变量

from airflow.providers.amazon.aws.sensors.s3 import S3KeySensor
t1 = S3KeySensor(
    task_id='t1',
    bucket_key='{hdfs_path_str}/dt={pt}/hour={h}/_SUCCESS'.format(
        hdfs_path_str="obs://bd-datalake/table_1",
        pt='{{execution_date.strftime("%Y-%m-%d")}}',
        h='{{execution_date.strftime("%H")}}'
),
    poke_interval=60,  # 依赖不满足时，一分钟检查一次依赖状态
    dag=dag
)

4.1.3 检查hive表的分区是否存在

1. 元数据检测: hive_partition_sensor

通过连接hive元数据所在的mysql数据库，来检查hive表的分区是否存在，速度比较快。

from airflow.sensors.hive_partition_sensor.MetastorePartitionSensor
# 用于检查hive分区是否生成
check_hive_partition= MetastorePartitionSensor(
    task_id='check_hive_artition_task',  
    mysql_conn_id='mysql-conn',   # hive元数据库连接，可在web界面的Connection进行配置
    schema='default',  # 如果是default，那么table里要加上库名
    table='db_name.table_name',  # 需要检查的hive表名
    partition="dt='{{ ds }}'",     # 需要检测的分区
    dag=dag
)

2. 分区检测：hive_partition_sensor

from airflow.sensors.hive_partition_sensor import HivePartitionSensor
check_hive_partition= HivePartitionSensor(
    task_id='check_hive_artition_task', 
    metastore_conn_id='hive-conn', # hive_metastore连接，可在web界面的Connection进行配置
    schema='default', # 如果是default，那么table里要加上库名
    table='库名.表名',       # 需要检查的hive表名
    poke_interval=300,      # 两次检查的间隔时间，单位秒。建议该值不小于60。
    partition="dt='{{ ds }}'",   # 需要检测的分区
    # partition="dt='{{ ds }}' and hour='{{ execution_date.strftime(\"%H\") }}'",
    dag=dag
)

注意：这类非默认op，需要指定conn_id。

4.2 自定义任务

4.2.1 bash任务

在实例化操作对象时生成任务，从运算符实例化的对象称为构造函数。

t1 = BashOperator(
    task_id='print_date',  # 任务的唯一标识符
    bash_command='date',
    dag=dag)
 
t2 = BashOperator(
    task_id='sleep',
    bash_command='sleep 5',
    retries=3,
    dag=dag)

Airflow利用Jinja 模板的强大功能，为管道作者提供一组内置参数和宏，还为管道作者提供了定义自己的参数，宏和模板的钩子。最常见的模板变量: {{ ds }} -- 今天的“日期戳”

templated_command = """
    {% for i in range(5) %}
        echo "{{ ds }}"
        echo "{{ macros.ds_add(ds, 7)}}"
        echo "{{ params.my_param }}"
    {% endfor %}
"""

t3 = BashOperator(
    task_id='templated',
    bash_command=templated_command,
    # bash_command='bash -x test.sh 110 {{ ds }}',
    # bash_command='bash -x test.sh ',  # 一定要留一个空格
    # bash_command='sh /home/airflow/test.sh %s'%datetime.now().strftime("%Y-%m-%d"),
    # bash_command='bash -x test.sh 110 {{ arg_params.yesterday }}',  # 从arg字典取数
    params={'my_param': 'Parameter I passed in'},
    dag=dag)

Jinja模板常见内置变量说明：

{{ data_interval_start }}	数据间隔的开始（pendulum.DateTime）
{{ data_interval_end }}	数据间隔结束 ( pendulum.DateTime )
{{ ds }}	DAG 运行的逻辑日期(YYYY-MM-DD).
{{ ts }}	2018-01-01T00:00:00+00:00
{{ tomorrow_ds }}  2023-08-31
{{ yesterday_ds }}  2023-08-29
{{ execution_date }}	DateTime(2023, 8, 30, 10, 0, 0, tzinfo=Timezone('UTC')))
{{ v_execution_time }}
{{ dag }}	
{{ task }}	任务对象
{{ task_instance }}	task_instance 对象
{{ macros }}	对宏包的引用
{{ params }}	对用户定义的 params 字典的引用
{{ conf }}	airflow.configuration.conf代表您的内容的完整配置对象 airflow.cfg。

4.2.2 python任务

t5 = PythonOperator(
    task_id='t5',
    python_callable=fun,
    provide_context=True,
    op_kwargs={
        'v_execution_time': '{{execution_date.strftime("%Y-%m-%d %H:%M:%S")}}'
    },
    # on_retry_callback=send_email_msg,
    dag=dag
)

from plugins.CountriesAppFrame import CountriesAppFrame
def fun(ds, dag, **kwargs):
    v_execution_time = kwargs.get('v_execution_time')
    hive_hook = HiveCliHook()
    args = [
        {
            "dag": dag,
            "is_countries_online": "true",
            "db_name": db_name,
            "table_name": table_name,
            "data_oss_path": hdfs_path,
            "is_country_partition": "true",
            "is_result_force_exist": "false",
            "execute_time": v_execution_time,
            "is_hour_task": "false",
            "frame_type": "local",
            "business_key": "bd"
        }
    ]
    cf = CountriesAppFrame(args)
    _sql = "\n" + cf.alter_partition() + "\n" + temp_sql
    hive_hook.run_cli(_sql)
    cf.touchz_success()  # 生产success

以上与4.2.3 也是两种执行sql语句以及创建success文件的方式。

4.2.3 hive 任务

hive_table = "ods_xx_di"
# 任务1: 创建分区
app_partiton_task = HiveOperator(
    task_id="add_partition_%s" % hive_table,
    hql='''
        alter table bd_ods.{table} add IF NOT EXISTS partition (dt='{pt}', hour='{dh}')
    '''.format(table=hive_table,
        pt='{{ds}}',
        dh='{{execution_date.strftime("%H")}}',
    # hql=open('xx.sql').read().format(pt='{{ ds }}', db='db_name', table='table_name')  # 读取sql文件
    # schema=hive_db,
    dag=dag
)
# 任务2: 创建success文件
cmd = "hadoop fs -touchz obs://bd-datalake/ods_xx_di/"+"dt='{{ ds }}'"+"/_SUCCESS"
touch_success_task = BashOperator(
    task_id='touch_success_%s' % str.lower(hive_table),
    bash_command=cmd,
    dag=dag
)
# 依赖
app_partiton_task >> touch_success_task

4.2.4 SparkSql 任务

from pathlib import Path
from airflow.providers.apache.spark.operators.spark_sql import SparkSqlOperator

# 获取服务器sql代码文件地址
dag_var = Variable.get('var_global', deserialize_json=True)  # 获取airflow web中Variable配置参数
sql_path = Path(dag_var['code_path']) / 'bd_script' / 'sql'
tt = SparkSqlOperator(
    task_id='tt',
    name = 'tt',
    conn_id='spark_default',
    master = 'yarn',
    yarn_queue = 'root.bigdata',
    num_executors = 8,
    executor_cores = 2,
    executor_memory = '4G',
    sql=open('{}/xx_df.sql'.format(sql_path)).read().format(pt='{{ ds }}'),
    # sql="select count(*) from table1 where dt='2023-03-01'"
    dag=dag
)

4.2.5 其他任务

SSHOperator、PostgresOperator

5. demo实战

5.1 一个简单demo

每天例行统计指定表中分区的数据量

5.1.1 编写任务脚本

# coding: utf-8
import logging
from datetime import datetime, timedelta
from utils.validate_metrics_utils import *
from impala.dbapi import connect
import airflow
from airflow.operators.python_operator import PythonOperator
from airflow.providers.amazon.aws.sensors.s3 import S3KeySensor
from airflow.hooks.base_hook import BaseHook

# --- 1. 定义默认参数  ---
args = {
    'owner': 'zz.song',
    'start_date': datetime(2023, 8, 28),
    'depends_on_past': False,
    'retries': 1,
    'retry_delay': timedelta(minutes=5),
}
# --- 2. 定义DAG对象  ---
dag = airflow.DAG(
    'count_xx_table_daily',
    schedule_interval="20 02 * * *",
    default_args=args
)
# --- 3. 定义任务  ---
# 3.1 任务1
t1 = S3KeySensor(
    task_id='t1',
    bucket_key='{hdfs_path_str}/country_code=NG/dt={pt}/_SUCCESS'.format(
        hdfs_path_str="obs://db_name/table_name",
        pt='{{ds}}'
    ),
    bucket_name='bd-datalake',
    poke_interval=60,  # 依赖不满足时，一分钟检查一次依赖状态
    dag=dag
)
# 3.2 任务2
t2 = PythonOperator(
    task_id='t2',
    python_callable=fun,
    provide_context=True,
    dag=dag
)
# --- 4. 设置依赖关系  ---
t1 >> t2

具体执行的逻辑

def fun(ds, **kwargs):  # ds 为调度传入当前时间
    dt = datetime.strptime(ds + ' 00:00:00', '%Y-%m-%d %H:%M:%S')
    # dt = kwargs.get('execution_date')  # 环境变量
    # dt = dt.strftime('%Y-%m-%d')
    last_7_day = (dt + timedelta(days=-7)).strftime('%Y-%m-%d')
    # 连接hive 客户端
    conn = BaseHook.get_connection('hive_cli_default')
    conn_hive = connect(host=conn.host,
                        port=conn.port,
                        timeout=3600,
                        auth_mechanism='PLAIN',
                        user=conn.login,
                        password=conn.password)
    cursor = conn_hive.cursor()
    cursor.execute('set mapreduce.job.queuename=root.bigdata')
    cursor.execute('set hive.vectorized.execution.enabled=false')
    sql = '''
        select count(1)
        from db_name.table_name
        where dt='{dt}'
    '''.format(dt=last_7_day)
    logging.info('Executing: %s', sql)
    cursor.execute(sql)
    data = cursor.fetchall()
    cursor.close()
    logging.info(data)

连接其他客户端

# 连接mysql客户端
def get_mysql_conn(conf_name='mysql_default'):
    conn = BaseHook.get_connection(conf_name)
    conn_mysql = MySQLdb.connect(host=conn.host, port=conn.port, db=conn.schema,
                                 user=conn.login, passwd=conn.password,
                                 charset='utf8mb4', use_unicode=True,
                                 autocommit=True)
    return conn_mysql
# 连接redis
def get_redis_connection(conf_name='redis'):
    conn = BaseHook.get_connection(conf_name)
    return StrictRedis(host=conn.host, port=conn.port)

5.1.2 查看任务执行日志

点击下图小方框，可以查看任务执行详情

查看日志

5.2 晋级Demo

批量任务执行

from airflow.operators.dummy import DummyOperator
dag_start = DummyOperator(task_id='dag_start', dag=dag)
dag_end = DummyOperator(task_id='dag_end', dag=dag)
dag_start >> [t1,t2, t3] >> t4 >> t5
dag_start >> [a1, a2] >> a3 >> a4 >> dag_end

6. 任务超时监控

一般不作更改

def task_timeout_monitor(ds, dag, **kwargs):
    msg = [{
       "dag": dag,
       "db": "db_name",
       "table": "{dag_name}".format(dag_name=dag.dag_id),
       "partition": "dt={pt}".format(pt=ds),
       # "partition": "country_code=NG/dt={pt}".format(pt=ds)
       "timeout": "600"
    }]
    TaskTimeoutMonitor().set_task_monitor(msg)

xx_task_timeout_monitor = PythonOperator(
    task_id='task_timeout_monitor',
    python_callable=task_timeout_monitor,
    provide_context=True,
    dag=dag
)

7. 发送飞书报警消息

1. 在飞书中新建一个群(2人即可)，加入机器人，并找到机器人的webhook地址；

找到此群 --> 设置 --> 群机器人 --> 添加机器人 --> 自定义机器人 --> 添加即可

点击机器人头像，复制其 webhook 地址

7.1 编辑发送消息函数

def send_feishu_markdown_warning(title, message):
    _http_headers = {'content-type': 'application/json'}
    _http_feishu_warning_url = 'https://open.feishu.cn/open-apis/bot/v2/hook/f8727e49-bd8e-40f1-8346-00d423d18288'
    request_data = {
        "msg_type": "interactive",
        "card": {
            "config": {"wide_screen_mode": True},
            "header": {
                "title": {
                    "content": title,
                    "tag": "plain_text"
                }
            },
            "elements": [
                {
                    "tag": "markdown",
                    "content": message + "\n" + "",
                }
            ]
        }
    }
    response = requests.post(_http_feishu_warning_url, json=request_data, headers=_http_headers)
    if response.status_code != 200:
        print('预警消息发送失败，http_code=%s，http_message=%s' % (response.status_code, response.reason))
    else:
        print('预警消息发送成功')

调用

def product_email(**kwargs):
    dt = kwargs.get('execution_date')  # 环境变量
    t_day, t_hour = dt.strftime('%Y-%m-%d %H').split(" ")
    msg_1 = 'hello'
    msg_2 = '哈喽'
    message = f"日期：{str(t_day)+' '+str(t_hour)+':00:00'}  \n 下一行" \
              f"{msg_1}" \
              f"{msg_2}"
    send_feishu_markdown_warning('XX服务监控日报', message)

7.2 使用封装函数

from plugins.QqMailAlert import send_feishu_markdown_warn
def send_lark_msg(context):
    execution_date = context.get("execution_date").strftime("%Y-%m-%d")
    dag_id = context.get("dag").dag_id
    send_feishu_markdown_warn(session_title='数据校验',
                              warning_message=f"{execution_date} {dag_id} 已延迟产出，请尽快处理！",
                              token='c42e086d-0b38-4762-ab57-004c45e7d97a',
                              at_all=True)

7.3 发邮件

from plugins.QqMailAlert import send_mail
def send_email_msg(context):
    execution_date = context.get("execution_date").strftime("%Y-%m-%d")
    dag_id = context.get("dag").dag_id
    sender = '110'
    password = '123321'
    receiver = '[email protected]'
    subject = f"失败警告！"
    message = f"{execution_date} {dag_id} 已失败，请尽快处理！http://11.22.33.44:8080/tree?dag_id={dag_id}&root="
    send_mail(sender, password, receiver, subject, message)

7.4 电话报警

import requests

_http_headers = {'content-type': 'application/x-www-form-urlencoded'}
request_url = 'https://ops.bddev.com/api/alarm_channel/?aisle_type=TEL&username=devops&api_password=dL54CW&system=other&level=10&receive_obj=123,134&content=XX核心指标日报紧急报警，请及时关注!'
request_data = {"data": [
    {"status": True, "code": "OK", "message": "OK", "request_id": "CF700C2E-4C34-5E76-BE2E-8462546F2CD5"}]}
response = requests.get(request_url, json=request_data, headers=_http_headers)
if response.status_code != 200:
    print('告警电话拨打失败，http_code=%s，http_message=%s' % (response.status_code, response.reason))
else:
    print('告警电话拨打成功')

python 读excel每行替换_Python脚本操作Excel实现批量替换功能 weixin_39646695 python 读excel每行替换
Python脚本操作Excel实现批量替换功能大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理excel，其实针对的就是WorkBook，Sheet，Cell这三个最根本的元素~明确需求原始excel如下我们的目标是把下面excel工作表的sheet1表页A列的内容“替换我吧”批量替换为B列的“我用来替换的
python笔记14介绍几个魔法方法抢公主的大魔王 python python
python笔记14介绍几个魔法方法先声明一下各位大佬，这是我的笔记。如有错误，恳请指正。另外，感谢您的观看，谢谢啦！(1).__doc__输出对应的函数，类的说明文档print(print.__doc__)print(value,...,sep='',end='\n',file=sys.stdout,flush=False)Printsthevaluestoastream,ortosys.std
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
环境搭建 | Python + Anaconda / Miniconda + PyCharm 的安装、配置与使用
本文将分别介绍Python、Anaconda/Miniconda、PyCharm的安装、配置与使用，详细介绍Python环境搭建的全过程，涵盖Python、Pip、PythonLauncher、Anaconda、Miniconda、Pycharm等内容，以官方文档为参照，使用经验为补充，内容全面而详实。由于图片太多，就先贴一个无图简化版吧，详情请查看Python+Anaconda/Minicond
你竟然还在用克隆删除？Conda最新版rename命令全攻略！曦紫沐 Python基础知识 conda 虚拟环境管理
文章摘要Conda虚拟环境管理终于迎来革命性升级！本文揭秘Conda4.9+版本新增的rename黑科技，彻底告别传统“克隆+删除”的繁琐操作。从命令解析到实战案例，手把手教你如何安全高效地重命名Python虚拟环境，附带版本检测、环境迁移、故障排查等进阶技巧，助你提升开发效率10倍！一、颠覆认知：Conda居然自带重命名功能？很多开发者仍停留在“Conda无法直接重命名环境”的认知阶段，实际上自
centos7安装配置 Anaconda3
Anaconda是一个用于科学计算的Python发行版,Anaconda于Python，相当于centos于linux。下载[root@testsrc]#mwgethttps://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.2.0-Linux-x86_64.shBegintodownload:Anaconda3-5.2.0-L
Pandas：数据科学的超级瑞士军刀科技林总 DeepSeek学AI 人工智能
**——从零基础到高效分析的进化指南**###**一、Pandas诞生：数据革命的救世主****2010年前的数据分析噩梦**：```python#传统Python处理表格数据data=[]forrowincsv_file:ifrow[3]>100androw[2]=="China":data.append(float(row[5])#代码冗长易错！```**核心痛点**：-Excel处理百万行崩
【Jupyter】个人开发常见命令 TIM老师 #Pycharm &VSCode python Jupyter
1.查看python版本importsysprint(sys.version)2.ipynb/py文件转换jupyternbconvert--topythonmy_file.ipynbipynb转换为mdjupyternbconvert--tomdmy_file.ipynbipynb转为htmljupyternbconvert--tohtmlmy_file.ipynbipython转换为pdfju
用 Python 开发小游戏：零基础也能做出《贪吃蛇》
本文专为零基础学习者打造，详细介绍如何用Python开发经典小游戏《贪吃蛇》。无需复杂编程知识，从环境搭建到代码编写、功能实现，逐步讲解核心逻辑与操作。涵盖Pygame库的基础运用、游戏界面设计、蛇的移动与食物生成规则等，让新手能按步骤完成开发，同时融入SEO优化要点，帮助读者轻松入门Python游戏开发，体验从0到1做出游戏的乐趣。一、为什么选择用Python开发《贪吃蛇》对于零基础学习者来说，
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
lesson20：Python函数的标注你的电影很有趣 python 开发语言
目录引言：为什么函数标注是现代Python开发的必备技能一、函数标注的基础语法1.1参数与返回值标注1.2支持的标注类型1.3Python3.9+的重大改进：标准集合泛型二、高级标注技巧与最佳实践2.1复杂参数结构标注2.2函数类型与回调标注2.3变量注解与类型别名三、静态类型检查工具应用3.1mypy：最流行的类型检查器3.2Pyright与IDE集成3.3运行时类型验证四、函数标注的工程价值与
Jupyter Notebook：数据科学的“瑞士军刀” a小胡哦机器学习基础人工智能机器学习
在数据科学的世界里，JupyterNotebook是一个不可或缺的工具，它就像是数据科学家手中的“瑞士军刀”，功能强大且灵活多变。今天，就让我们一起深入了解这个神奇的工具。一、JupyterNotebook是什么？JupyterNotebook是一个开源的Web应用程序，它允许你创建和共享包含实时代码、方程、可视化和解释性文本的文档。它支持多种编程语言，其中Python是最常用的语言之一。Jupy
Django学习笔记（一）
学习视频为：pythondjangoweb框架开发入门全套视频教程一、安装pipinstalldjango==****检查是否安装成功django.get_version()二、django新建项目操作1、新建一个项目django-adminstartprojectproject_name2、新建APPcdproject_namedjango-adminstartappApp注：一个project
Python 程序设计讲义（26）：字符串的用法——字符的编码睿思达DBA_WGX Python 讲义 python 开发语言
Python程序设计讲义（26）：字符串的用法——字符的编码目录Python程序设计讲义（26）：字符串的用法——字符的编码一、字符的编码二、`ASCII`编码三、`Unicode`编码四、使用`ord()`函数查询一个字符对应的`Unicode`编码五、使用`chr()`函数查询一个`Unicode`编码对应的字符六、`Python`字符串的特征一、字符的编码计算机默认只能处理二进制数，而不能处
【Python】pypinyin-汉字拼音转换工具鸟哥大大 Python python 自然语言处理
文章目录1.主要功能2.安装3.常用API3.1拼音风格3.2核心API3.2.1pypinyin.pinyin()3.2.2pypinyin.lazy_pinyin()3.2.3pypinyin.load_single_dict()3.2.4pypinyin.load_phrases_dict()3.2.5pypinyin.slug()3.3注册新的拼音风格4.基本用法4.1库导入4.2基本汉字
python编程第十四课：数据可视化小小源助手 Python代码实例信息可视化 python 开发语言
Python数据可视化：让数据“开口说话”在当今数据爆炸的时代，数据可视化已成为探索数据规律、传达数据信息的关键技术。Python凭借其丰富的第三方库，为数据可视化提供了强大而灵活的解决方案。本文将带你深入了解Matplotlib库的基础绘图、Seaborn库的高级可视化以及交互式可视化工具Plotly，帮助你通过图表清晰地展示数据背后的故事。一、Matplotlib库基础绘图Matplotlib
Python数据可视化：用代码绘制数据背后的故事 AAEllisonPang Python 信息可视化 python 开发语言
引言：当数据会说话在数据爆炸的时代，可视化是解锁数据价值的金钥匙。Python凭借其丰富的可视化生态库，已成为数据科学家的首选工具。本文将带您从基础到高级，探索如何用Python将冰冷数字转化为引人入胜的视觉叙事。一、基础篇：二维可视化的艺术表达1.1Matplotlib：可视化领域的瑞士军刀importmatplotlib.pyplotaspltimportnumpyasnpx=np.linsp
python学习笔记（汇总）朕的剑还未配妥 python学习笔记整理 python 学习开发语言
文章目录一.基础知识二.python中的数据类型三.运算符四.程序的控制结构五.列表六.字典七.元组八.集合九.字符串十.函数十一.解决bug一.基础知识print函数字符串要加引号，数字可不加引号，如print(123.4)print('小谢')print("洛天依")还可输入表达式，如print(1+3)如果使用三引号，print打印的内容可不在同一行print("line1line2line
PDF转Markdown - Python 实现方案与代码 Eiceblue Python Python PDF pdf python 开发语言 vscode
PDF作为广泛使用的文档格式，转换为轻量级标记语言Markdown后，可无缝集成到技术文档、博客平台和版本控制系统中，提高内容的可编辑性和可访问性。本文将详细介绍如何使用国产Spire.PDFforPython库将PDF文档转换为Markdown格式。技术优势：精准保留原始文档结构（段落/列表/表格）完整提取文本和图像内容无需Adobe依赖的纯Python实现支持Linux/Windows/mac
使用Python和Gradio构建实时数据可视化工具 PythonAI编程架构实战家信息可视化 python 开发语言 ai
使用Python和Gradio构建实时数据可视化工具关键词：Python、Gradio、数据可视化、实时数据、Web应用、交互式界面、数据科学摘要：本文将详细介绍如何使用Python和Gradio框架构建一个实时数据可视化工具。我们将从基础概念开始，逐步深入到核心算法实现，包括数据处理、可视化技术以及Gradio的交互式界面设计。通过实际项目案例，读者将学习如何创建一个功能完整、响应迅速的实时数据
Python Gradio：实现交互式图像编辑 PythonAI编程架构实战家 Python编程之道 python 开发语言 ai
PythonGradio：实现交互式图像编辑关键词：Python,Gradio,交互式图像编辑,计算机视觉,深度学习,图像处理,Web应用摘要：本文将深入探讨如何使用Python的Gradio库构建交互式图像编辑应用。我们将从基础概念开始，逐步介绍Gradio的核心功能，并通过实际代码示例展示如何实现各种图像处理功能。文章将涵盖图像滤镜应用、对象检测、风格迁移等高级功能，同时提供完整的项目实战案例
数据可视化：数据世界的直观呈现卢政权1 信息可视化数据分析数据挖掘
在当今数字化浪潮中，数据呈爆炸式增长。数据可视化作为一种强大的技术手段，能够将复杂的数据转化为直观的图形、图表等形式，让数据背后的信息一目了然。无论是在商业决策、科学研究还是日常数据分析中，数据可视化都发挥着极为重要的作用。它帮助我们快速理解数据的分布、趋势、关联等特征，从而为进一步的分析和行动提供有力支持。接下来，我们将深入探讨数据可视化的奥秘，并通过代码示例展示其实际应用。一、Python数据
Python 程序设计讲义（25）：循环结构——嵌套循环
Python程序设计讲义（25）：循环结构——嵌套循环目录Python程序设计讲义（25）：循环结构——嵌套循环一、嵌套循环的执行流程二、嵌套循环对应的几种情况1、内循环和外循环互不影响2、外循环迭代影响内循环的条件3、外循环迭代影响内循环的循环体嵌套循环是指在一个循环体中嵌套另一个循环。while循环中可以嵌入另一个while循环或for循环。反之，也可以在for循环中嵌入另一个for循环或wh
基于Python引擎的PP-OCR模型库推理张欣-男 python ocr 开发语言 PaddleOCR PaddlePaddle
基于Python引擎的PP-OCR模型库推理1.文本检测模型推理#下载超轻量中文检测模型：wgethttps://paddleocr.bj.bcebos.com/PP-OCRv3/chinese/ch_PP-OCRv3_det_infer.tartarxfch_PP-OCRv3_det_infer.tarpython3tools/infer/predict_det.py--image_dir=".
一个开源AI牛马神器 | AiPy，平替Manus，装完直接上手写Python！ Agent加载失败人工智能 python 开源算法 AI编程
还记得三个月前那个在闲鱼被炒到万元邀请码的Manus吗？现在你点官网，直接提示「所在地区不可用」了它走了，但更香的国产开源项目出现了：AiPy（爱派）。主打一个极致简化的AIAgent理念：别搞什么插件市场、Agent路由，直接给AI一个Python解释器，让它用自然语言写代码干活。听起来狠活？实际体验更狠：•完全本地化，界面傻瓜式操作，支持自然语言生成&执行Python任务；•数据清洗、文档总结
零数学基础理解AI核心概念：梯度下降可视化实战九章云极AladdinEdu 人工智能 gpu算力深度学习 pytorch python 语言模型 opencv
点击“AladdinEdu，同学们用得起的【H卡】算力平台”，H卡级别算力，按量计费，灵活弹性，顶级配置，学生专属优惠。用Python动画演示损失函数优化过程，数学公式具象化读者收获：直观理解模型训练本质，破除"数学恐惧症"当盲人登山者摸索下山路径时，他本能地运用了梯度下降算法。本文将用动态可视化技术，让你像感受重力一样理解AI训练的核心原理——无需任何数学公式推导。一、梯度下降：AI世界的"万有
2025.07 Java入门笔记01 殷浩焕笔记
一、熟悉IDEA和Java语法（一）LiuCourseJavaOOP1.一直在用C++开发，python也用了些，Java是真的不熟，用什么IDE还是问的同事；2.一开始安装了jdk-23，拿VSCode当编辑器，在cmd窗口编译运行，也能玩；但是想正儿八经搞项目开发，还是需要IDE；3.安装了IDEA社区版：（1）IDE通常自带对应编程语言的安装包，例如IDEA自带jbr-21（和jdk是不同的
响应式编程实践：Spring Boot WebFlux构建高性能非阻塞服务 fanxbl957 Web spring boot 后端 java
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人响应式编程实践：SpringBootWebFlux构建高性能非阻塞服务一、引言在当今数字化时代，互
Python STL概念学习与代码实践体制教科书
本文还有配套的精品资源，点击获取简介：通过”py_stl_learning”项目，学习者可以使用Python实现和理解C++STL的概念，包括数据结构、算法、容器适配器、模板和泛型容器等。Python中的列表、集合、字典等数据结构与STL中的vector、set、map等类似，而Python的itertools和functools模块提供了STL风格的算法功能。Python通过其面向对象的特性以及
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag