只有左边一个小酒窝

（二）知识图谱之数据获取

关于知识图谱数据获取（多源异构数据收集），结合电影知识图谱案例展开，涵盖数据源选择、API调用、网页爬取、数据整合等关键环节：

一、数据源规划与优先级排序

操作步骤

明确数据需求清单

基于知识建模阶段定义的实体和关系（如电影、演员、导演、类型、评分），列出所需字段：

实体类型	核心字段	可选字段	数据格式
电影	标题、ID、上映年份、片长	简介、海报URL、票房	结构化数据
演员	姓名、ID、出生日期、国籍	代表作、社交账号	半结构化数据
关系	导演→电影、演员→角色→电影	合作次数、获奖记录	需关联多个源

评估数据源可行性
- 按数据质量、完整性、获取成本（API限制、爬取难度）排序：
  
  权威数据源
  
  开放API
  
  结构化数据库
  
  TMDB
  
  IMDb
  
  豆瓣电影
  
  烂番茄
  
  维基百科
制定数据获取策略
- 示例优先级：
  1. TMDB API（电影、演员、导演信息，多语言支持）
  2. IMDb Datasets（公开CSV数据，覆盖全量电影）
  3. 豆瓣电影（评分、用户评论，中文语境）
  4. 维基百科（补充人物生平、获奖细节）
  5. 网页爬取（如Box Office Mojo获取票房数据）

二、结构化数据获取（API调用）

1. TMDB API数据获取

操作步骤

注册API Key
- 访问TMDB开发者平台，注册账号并申请API Key。

调用流程示例

import requests
import json
from tqdm import tqdm

API_KEY = "your_api_key"
BASE_URL = "https://api.themoviedb.org/3"

def fetch_movies(page=1):
    """获取电影列表（按popularity排序）"""
    url = f"{BASE_URL}/discover/movie?api_key={API_KEY}&sort_by=popularity.desc&page={page}"
    response = requests.get(url)
    return response.json()

def fetch_movie_details(movie_id):
    """获取单部电影详细信息（含演员、导演）"""
    url = f"{BASE_URL}/movie/{movie_id}?api_key={API_KEY}&append_to_response=credits"
    response = requests.get(url)
    return response.json()

# 批量获取电影数据（示例：前10页）
all_movies = []
for page in tqdm(range(1, 11)):
    page_data = fetch_movies(page)
    for movie in page_data["results"]:
        details = fetch_movie_details(movie["id"])
        all_movies.append(details)

# 保存数据
with open("tmdb_movies.json", "w", encoding="utf-8") as f:
    json.dump(all_movies, f, ensure_ascii=False, indent=2)

数据清洗与映射

提取核心字段：

def process_tmdb_data(movie_data):
    processed = {
        "movie_id": movie_data["id"],
        "title": movie_data["title"],
        "year": int(movie_data["release_date"].split("-")[0]) if movie_data.get("release_date") else None,
        "rating": movie_data["vote_average"],
        "overview": movie_data["overview"],
        "genres": [genre["name"] for genre in movie_data["genres"]],
        "cast": [
            {
                "actor_id": actor["id"],
                "name": actor["name"],
                "character": actor["character"]
            }
            for actor in movie_data["credits"]["cast"][:10]  # 取前10位主演
        ],
        "director": next(
            (crew["name"] for crew in movie_data["credits"]["crew"] if crew["job"] == "Director"),
            None
        )
    }
    return processed

2. IMDb公开数据集处理

操作步骤

下载数据集
- 从IMDb Datasets下载以下TSV文件：
  - title.basics.tsv.gz（电影基本信息）
  - title.ratings.tsv.gz（评分信息）
  - name.basics.tsv.gz（人物信息）
  - title.principals.tsv.gz（人物与电影关联）

数据解析与整合

import pandas as pd

# 读取电影基本信息
titles_df = pd.read_csv("title.basics.tsv.gz", sep="\t", na_values=["\\N"])
titles_df = titles_df[titles_df["titleType"] == "movie"]  # 筛选电影类型

# 读取评分信息并合并
ratings_df = pd.read_csv("title.ratings.tsv.gz", sep="\t")
movies_df = pd.merge(titles_df, ratings_df, on="tconst")

# 读取人物信息
names_df = pd.read_csv("name.basics.tsv.gz", sep="\t", na_values=["\\N"])

# 提取电影-人物关联（仅导演和主演）
principals_df = pd.read_csv("title.principals.tsv.gz", sep="\t")
directors_df = principals_df[principals_df["category"] == "director"]
actors_df = principals_df[principals_df["category"].isin(["actor", "actress"])]

三、半结构化数据获取（网页爬取）

1. 豆瓣电影评分爬取

操作步骤

分析页面结构
- 目标URL：https://movie.douban.com/subject/{douban_id}/
- 需提取字段：评分、评分人数、短评。

实现爬虫（示例）

import requests
from bs4 import BeautifulSoup
import re

def get_douban_info(douban_id):
    url = f"https://movie.douban.com/subject/{douban_id}/"
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"
    }
    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.text, "html.parser")
    
    try:
        # 提取评分
        rating = float(soup.select_one(".rating_num").text)
        
        # 提取评分人数
        rating_count = int(re.search(r"(\d+)人评价", soup.select_one(".rating_people").text).group(1))
        
        # 提取前5条短评
        comments = [
            comment.select_one(".short").text
            for comment in soup.select(".comment-item")[:5]
        ]
        
        return {
            "douban_rating": rating,
            "douban_votes": rating_count,
            "comments": comments
        }
    except Exception as e:
        print(f"Error fetching {douban_id}: {e}")
        return None

反爬策略
- 随机User-Agent轮换
- 请求间隔≥1秒
- 代理IP池（如付费代理服务）
- 异常处理与断点续传

四、非结构化数据获取（文本挖掘）

1. 维基百科人物信息提取

操作步骤

调用Wikipedia API

import wikipedia

def get_wikipedia_info(person_name):
    try:
        # 搜索并获取页面
        page = wikipedia.page(person_name, auto_suggest=False)
        
        # 提取基本信息
        summary = page.summary
        birth_date = re.search(r"born ([\w\s,]+)", summary)
        birth_date = birth_date.group(1) if birth_date else None
        
        # 提取关系（如合作导演、常演角色类型）
        relationships = []
        for sentence in summary.split(". "):
            if "collaborated with" in sentence:
                relationships.append(sentence)
        
        return {
            "summary": summary,
            "birth_date": birth_date,
            "relationships": relationships
        }
    except Exception as e:
        print(f"Error fetching {person_name}: {e}")
        return None

实体识别与关系抽取

使用NLP工具（如spaCy、AllenNLP）从文本中提取实体和关系：

import spacy

nlp = spacy.load("en_core_web_sm")

def extract_relations(text):
    doc = nlp(text)
    relations = []
    
    for ent in doc.ents:
        if ent.label_ == "PERSON":
            # 提取与人物相关的关系
            for token in ent:
                if token.dep_ == "nsubj":
                    for child in token.head.children:
                        if child.dep_ == "dobj":
                            relations.append({
                                "subject": ent.text,
                                "relation": token.head.text,
                                "object": child.text
                            })
    
    return relations

五、多源数据整合与对齐

1. 实体对齐（Entity Alignment）

操作步骤

构建ID映射表

通过交叉引用字段（如电影名称+上映年份）建立不同数据源的ID关联：

def align_entities(tmdb_data, douban_data):
    id_mapping = {}
    
    for tmdb_movie in tmdb_data:
        tmdb_title = tmdb_movie["title"]
        tmdb_year = tmdb_movie["year"]
        
        # 在豆瓣数据中查找匹配项
        for douban_movie in douban_data:
            # 模糊匹配标题（考虑中英文差异）
            if fuzz.ratio(tmdb_title, douban_movie["title"]) > 80 and \
               abs(tmdb_year - douban_movie["year"]) <= 1:
               
               id_mapping[tmdb_movie["movie_id"]] = douban_movie["douban_id"]
               break
    
    return id_mapping

数据融合

合并多源数据到统一格式：

def merge_data(tmdb_data, douban_data, id_mapping):
    merged = []
    
    for tmdb_movie in tmdb_data:
        tmdb_id = tmdb_movie["movie_id"]
        douban_id = id_mapping.get(tmdb_id)
        
        merged_movie = {
            "id": tmdb_id,
            "title": tmdb_movie["title"],
            "year": tmdb_movie["year"],
            "tmdb_rating": tmdb_movie["rating"],
            "genres": tmdb_movie["genres"],
            "cast": tmdb_movie["cast"]
        }
        
        # 添加豆瓣数据（如果存在）
        if douban_id:
            douban_info = next(
                (d for d in douban_data if d["douban_id"] == douban_id),
                None
            )
            if douban_info:
                merged_movie["douban_rating"] = douban_info["rating"]
                merged_movie["douban_comments"] = douban_info["comments"]
        
        merged.append(merged_movie)
    
    return merged

六、数据质量保障

1. 完整性检查

def check_data_integrity(data):
    missing_fields = {}
    
    for entity_type in ["movie", "actor", "director"]:
        required_fields = {
            "movie": ["title", "year", "rating"],
            "actor": ["name", "actor_id"],
            "director": ["name", "director_id"]
        }
        
        for field in required_fields[entity_type]:
            missing_count = sum(1 for item in data if field not in item or not item[field])
            if missing_count > 0:
                missing_fields[f"{entity_type}.{field}"] = missing_count
    
    return missing_fields

2. 一致性验证

def validate_consistency(data):
    issues = []
    
    # 验证电影-演员关系一致性
    for movie in data:
        if "cast" in movie:
            for actor in movie["cast"]:
                # 检查演员ID是否存在于演员实体中
                actor_exists = any(
                    a["actor_id"] == actor["actor_id"] 
                    for a in data if a.get("type") == "actor"
                )
                if not actor_exists:
                    issues.append(f"电影 {movie['title']} 引用了不存在的演员ID: {actor['actor_id']}")
    
    return issues

七、数据存储与版本控制

1. 分层存储

data/
├── raw/                  # 原始数据
│   ├── tmdb/             # TMDB API数据
│   ├── imdb/             # IMDb数据集
│   └── douban/           # 豆瓣爬取数据
├── processed/            # 处理后的数据
│   ├── movies.json       # 合并后的电影数据
│   ├── actors.json       # 演员数据
│   └── relationships.csv # 关系数据
└── metadata/             # 元数据
    ├── schema.json       # 当前Schema版本
    └── data_mapping.csv  # 数据源映射表

2. 版本控制

# 使用Git管理数据变更
git add data/raw/tmdb_movies_202305.json
git commit -m "Update TMDB data (2023-05)"
git tag v1.0.0  # 标记数据版本

八、数据清洗的流程和注意事项

知识图谱构建中数据清洗的完整流程与关键注意事项，结合电影知识图谱案例详细说明：

（一）、数据清洗核心流程

1. 数据概览与质量评估

操作步骤

加载数据

import pandas as pd
from collections import Counter

# 加载多源数据
tmdb_data = pd.read_json("tmdb_movies.json")
imdb_data = pd.read_csv("imdb_movies.csv")
douban_data = pd.read_json("douban_movies.json")

基本统计分析

def data_summary(df):
    print(f"数据量: {len(df)} 条")
    print(f"字段数: {len(df.columns)} 个")
    print("\n缺失值统计:")
    print(df.isnull().sum())
    print("\n数据类型:")
    print(df.dtypes)
    print("\n唯一值统计:")
    for col in df.columns:
        print(f"{col}: {df[col].nunique()} 个唯一值")

data_summary(tmdb_data)

质量问题识别

问题类型	检测方法
缺失值	`df.isnull().sum()` 统计各字段缺失率
异常值	数值字段：计算Z-score（\|Z\|>3视为异常）日期字段：检查是否在合理范围（如年份>2023）
重复数据	`df.duplicated().sum()` 统计完全重复行 `df[['title', 'year']].duplicated().sum()` 统计特定组合重复
格式不一致	正则表达式验证（如日期格式是否为YYYY-MM-DD）
值域违规	枚举类型字段（如电影类型）检查是否存在非法值（如"未知类型"）

2. 缺失值处理

策略选择

删除法

# 删除"title"字段缺失的记录
tmdb_data = tmdb_data.dropna(subset=["title"])

填充法

# 数值字段：用中位数填充评分
tmdb_data["rating"] = tmdb_data["rating"].fillna(tmdb_data["rating"].median())

# 分类字段：用众数填充电影类型
most_common_genre = Counter([g for genres in tmdb_data["genres"] for g in genres]).most_common(1)[0][0]
tmdb_data["genres"] = tmdb_data["genres"].apply(lambda x: x if x else [most_common_genre])

模型预测法

from sklearn.ensemble import RandomForestRegressor

# 使用其他字段预测缺失的"runtime"
rf = RandomForestRegressor()
train_data = tmdb_data[tmdb_data["runtime"].notnull()]
test_data = tmdb_data[tmdb_data["runtime"].isnull()]

X_train = train_data[["rating", "year"]]  # 特征
y_train = train_data["runtime"]
X_test = test_data[["rating", "year"]]

rf.fit(X_train, y_train)
tmdb_data.loc[tmdb_data["runtime"].isnull(), "runtime"] = rf.predict(X_test)

3. 异常值处理

操作示例

数值异常值

# 计算Z-score，过滤异常票房数据
mean_revenue = tmdb_data["revenue"].mean()
std_revenue = tmdb_data["revenue"].std()
tmdb_data = tmdb_data[(tmdb_data["revenue"] - mean_revenue).abs() / std_revenue <= 3]

日期异常值

# 过滤未来日期
from datetime import datetime
current_year = datetime.now().year
tmdb_data = tmdb_data[tmdb_data["year"] <= current_year]

分类异常值

# 定义合法电影类型列表
valid_genres = {"Action", "Comedy", "Drama", "Sci-Fi", "Thriller", "Romance", "Animation"}

# 替换非法类型为"Other"
tmdb_data["genres"] = tmdb_data["genres"].apply(
    lambda genres: [g if g in valid_genres else "Other" for g in genres]
)

4. 格式规范化

操作示例

日期格式统一

# 将不同格式的日期统一为YYYY-MM-DD
def normalize_date(date_str):
    if not date_str:
        return None
    try:
        # 处理"2023-05-20"格式
        return datetime.strptime(date_str, "%Y-%m-%d").strftime("%Y-%m-%d")
    except ValueError:
        try:
            # 处理"2023/05/20"格式
            return datetime.strptime(date_str, "%Y/%m/%d").strftime("%Y-%m-%d")
        except ValueError:
            # 处理"May 20, 2023"格式
            return datetime.strptime(date_str, "%B %d, %Y").strftime("%Y-%m-%d")

tmdb_data["release_date"] = tmdb_data["release_date"].apply(normalize_date)

文本规范化

import re

# 去除标题中的特殊符号和多余空格
def clean_title(title):
    title = re.sub(r"[^\w\s]", "", title)  # 移除特殊符号
    title = re.sub(r"\s+", " ", title).strip()  # 合并连续空格
    return title

tmdb_data["title"] = tmdb_data["title"].apply(clean_title)

数值单位统一

# 将票房从字符串转换为数值（处理"$100万"、"100,000"等格式）
def parse_revenue(revenue_str):
    if not revenue_str:
        return 0
    revenue_str = revenue_str.replace("$", "").replace(",", "")
    if "万" in revenue_str:
        return float(revenue_str.replace("万", "")) * 10000
    return float(revenue_str)

tmdb_data["revenue"] = tmdb_data["revenue"].apply(parse_revenue)

5. 一致性处理

操作示例

实体名称统一

# 演员名称标准化（处理大小写、中间名缩写等）
def normalize_name(name):
    if not name:
        return None
    name_parts = name.strip().split()
    normalized_parts = []
    for part in name_parts:
        if len(part) > 1:
            normalized_parts.append(part.capitalize())
        else:
            normalized_parts.append(part.upper())  # 处理中间名缩写（如"J."）
    return " ".join(normalized_parts)

# 应用于演员列表
tmdb_data["cast"] = tmdb_data["cast"].apply(
    lambda cast: [{**actor, "name": normalize_name(actor["name"])} for actor in cast]
)

跨源数据对齐

# 建立导演名称映射表（处理别名）
director_aliases = {
    "Christopher Nolan": ["克里斯托弗·诺兰", "诺兰"],
    "Quentin Tarantino": ["昆汀·塔伦蒂诺", "昆汀"]
}

# 反向构建映射字典
alias_to_canonical = {
    alias: canonical
    for canonical, aliases in director_aliases.items()
    for alias in aliases
}

# 统一导演名称
def unify_director_name(name):
    if not name:
        return None
    return alias_to_canonical.get(name, name)

tmdb_data["director"] = tmdb_data["director"].apply(unify_director_name)
douban_data["director"] = douban_data["director"].apply(unify_director_name)

6. 重复数据处理

操作示例

完全重复记录

# 删除完全重复的电影记录
tmdb_data = tmdb_data.drop_duplicates()

相似记录合并

from difflib import SequenceMatcher

# 定义电影相似度函数
def movie_similarity(movie1, movie2):
    # 标题相似度（权重0.6）
    title_sim = SequenceMatcher(None, movie1["title"], movie2["title"]).ratio()
    # 年份相似度（权重0.3）
    year_sim = 1.0 if movie1["year"] == movie2["year"] else 0.0
    # 导演相似度（权重0.1）
    director_sim = 1.0 if movie1["director"] == movie2["director"] else 0.0
    
    return 0.6 * title_sim + 0.3 * year_sim + 0.1 * director_sim

# 合并相似度>0.8的电影记录
def merge_similar_movies(movies):
    merged = []
    processed_indices = set()
    
    for i in range(len(movies)):
        if i in processed_indices:
            continue
        
        # 查找相似电影
        similar_indices = [j for j in range(i+1, len(movies)) 
                          if movie_similarity(movies[i], movies[j]) > 0.8]
        
        # 合并相似电影的属性
        merged_movie = movies[i].copy()
        for j in similar_indices:
            processed_indices.add(j)
            # 合并评分（取平均值）
            if "rating" in movies[j] and pd.notna(movies[j]["rating"]):
                if "rating" in merged_movie and pd.notna(merged_movie["rating"]):
                    merged_movie["rating"] = (merged_movie["rating"] + movies[j]["rating"]) / 2
                else:
                    merged_movie["rating"] = movies[j]["rating"]
            # 合并类型（去重）
            if "genres" in movies[j]:
                merged_movie["genres"] = list(set(merged_movie.get("genres", []) + movies[j]["genres"]))
        
        merged.append(merged_movie)
    
    return merged

# 应用于电影列表
tmdb_data = pd.DataFrame(merge_similar_movies(tmdb_data.to_dict("records")))

（二）、数据清洗注意事项

1. 数据追溯与版本控制

操作建议：

# 使用Git记录清洗过程
git add data/cleaned_tmdb_movies.csv
git commit -m "Clean TMDB data: handle missing values and normalize titles"
git tag v1.1  # 标记数据版本

2. 清洗规则可配置化

示例配置文件（YAML格式）：

missing_values:
  rating: median  # 用中位数填充
  genres: most_frequent  # 用最频繁值填充
outliers:
  revenue:
    method: z_score
    threshold: 3
normalization:
  title:
    remove_special_chars: true
    capitalize: true

3. 异常处理与日志记录

示例代码：

import logging

# 配置日志
logging.basicConfig(
    filename='data_cleaning.log',
    level=logging.ERROR,
    format='%(asctime)s - %(levelname)s - %(message)s'
)

# 在清洗函数中记录异常
def clean_revenue(revenue_str):
    try:
        return parse_revenue(revenue_str)
    except Exception as e:
        logging.error(f"Failed to parse revenue: {revenue_str}, error: {e}")
        return 0

tmdb_data["revenue"] = tmdb_data["revenue"].apply(clean_revenue)

（三）、常见挑战与解决方案

挑战	解决方案
数据量过大	1. 分批次处理（如每次处理10万条记录） 2. 使用分布式计算框架（如Spark）
复杂依赖关系	1. 先处理独立字段，再处理关联字段 2. 使用图数据库检测数据依赖环路
清洗规则冲突	1. 定义规则优先级（如完整性规则>一致性规则） 2. 人工审核冲突案例
数据质量波动	1. 建立质量监控指标（如每日缺失率阈值） 2. 异常时自动触发重新清洗

（四）、数据清洗效果评估

1. 质量指标对比

指标	清洗前	清洗后	提升效果
缺失率	评分字段：23%	评分字段：0%	+23%
异常值比例	票房字段：15%	票房字段：2%	+13%
重复记录数	1,200条	0条	+100%
字段一致性	导演名称：58种	导演名称：42种	减少16种变体

2. 可视化评估

import matplotlib.pyplot as plt
import seaborn as sns

# 对比清洗前后的评分分布
plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
sns.histplot(tmdb_data_before_cleaning["rating"], kde=True)
plt.title("Before Cleaning")
plt.subplot(1, 2, 2)
sns.histplot(tmdb_data_after_cleaning["rating"], kde=True)
plt.title("After Cleaning")
plt.tight_layout()
plt.show()

（五）、数据清洗自动化框架

1. 使用Python构建简易框架

class DataCleaner:
    def __init__(self, data):
        self.data = data
        self.report = {"initial_size": len(data)}
    
    def handle_missing_values(self, config):
        for field, method in config.items():
            if method == "drop":
                self.data = self.data.dropna(subset=[field])
            elif method == "mean":
                self.data[field] = self.data[field].fillna(self.data[field].mean())
            # 其他填充策略...
        self.report["missing_values"] = self.data.isnull().sum().to_dict()
        return self
    
    def remove_outliers(self, config):
        for field, params in config.items():
            if params["method"] == "z_score":
                mean = self.data[field].mean()
                std = self.data[field].std()
                self.data = self.data[(self.data[field] - mean).abs() / std <= params["threshold"]]
        self.report["outlier_count"] = self.report["initial_size"] - len(self.data)
        return self
    
    def export(self, path):
        self.data.to_csv(path, index=False)
        return self.report

# 使用示例
cleaner = DataCleaner(tmdb_data)
report = cleaner.handle_missing_values({
    "title": "drop",
    "rating": "mean"
}).remove_outliers({
    "revenue": {"method": "z_score", "threshold": 3}
}).export("cleaned_tmdb_data.csv")

print(report)  # 输出清洗报告

(六)、数据清洗最佳实践

最小化假设：避免基于不完整信息做决策（如假设所有电影都有评分）。
渐进式清洗：先处理关键字段（如实体ID、名称），再处理次要字段。
可逆操作：所有清洗步骤可追溯、可回滚（如通过版本控制）。
人机协作：复杂清洗规则（如实体对齐）结合人工审核。
自动化监控：定期运行数据质量检查，异常时自动告警。

通过系统化的数据清洗流程，可显著提升知识图谱的质量，为后续的知识抽取和应用提供可靠基础。

九、常见数据获取的工具

在知识图谱构建中，数据获取涉及多源异构数据的采集、处理与整合。以下是按功能分类的常用工具推荐，附适用场景、操作示例及工具对比：

(一)、API调用工具

用于结构化数据获取，支持REST/SOAP等接口协议。

1. Postman

定位：可视化API测试与调用工具，支持自动化请求序列。
核心功能：
- 图形界面配置请求参数（URL、Headers、Body），支持OAuth认证。
- 保存请求集合（如TMDB电影查询系列请求），批量执行。
- 导出请求为Python/JavaScript代码，无缝集成到自动化流程。
操作示例：
1. 新建请求，URL设为https://api.themoviedb.org/3/movie/550?api_key={YOUR_KEY}。
2. 设置Headers（如Content-Type: application/json）。
3. 点击“Send”，查看JSON响应并保存结果。

2. Python Requests库

定位：轻量级HTTP库，适合代码化API调用与数据处理。

核心功能：

支持GET/POST等请求方法，处理JSON/XML响应。

示例代码（获取TMDB电影详情）：

import requests

API_KEY = "your_api_key"
url = f"https://api.themoviedb.org/3/movie/550?api_key={API_KEY}"
response = requests.get(url)
data = response.json()
print(data["title"])  # 输出：Fight Club

扩展工具：
- requests-cache：自动缓存API响应，避免重复请求。
- ratelimit：限制请求频率，遵守API使用条款。

(二)、网页爬取工具

用于半结构化数据（HTML/XML）采集，支持动态页面渲染与反爬处理。

1. Scrapy

定位：Python开源爬虫框架，适合大规模数据爬取与处理。
核心功能：
- 基于XPath/CSS选择器提取网页内容，支持异步请求。
- 内置数据管道（Pipeline），可实现清洗、存储一体化。
- 反爬机制：随机User-Agent、代理IP管理、请求延时。

操作示例（豆瓣电影爬虫）：

import scrapy

class DoubanSpider(scrapy.Spider):
    name = "douban"
    start_urls = ["https://movie.douban.com/top250"]

    def parse(self, response):
        for item in response.css(".item"):
            yield {
                "title": item.css(".title::text").get(),
                "rating": item.css(".rating_num::text").get(),
                "quote": item.css(".inq::text").get(),
            }
        
        # 跟进下一页
        next_page = response.css("span.next a::attr(href)").get()
        if next_page is not None:
            yield response.follow(next_page, self.parse)

2. BeautifulSoup

定位：轻量级HTML/XML解析库，适合小规模数据提取。
核心功能：
- 简单API（如find()、find_all()）定位DOM元素。
- 与Requests结合使用，快速获取网页数据。

示例代码（提取IMDb电影标题）：

from bs4 import BeautifulSoup
import requests

url = "https://www.imdb.com/chart/top"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")

for movie in soup.select(".titleColumn a"):
    print(movie.text)

3. Selenium

定位：自动化浏览器工具，用于处理JavaScript动态渲染页面。
核心功能：
- 模拟用户操作（点击、滚动、表单填写），获取完整渲染后内容。

示例代码（爬取动态加载的电影评论）：

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service

service = Service("path/to/chromedriver")
driver = webdriver.Chrome(service=service)

driver.get("https://movie.douban.com/subject/1292052/comments")

# 点击“加载更多”按钮
more_button = driver.find_element(By.CSS_SELECTOR, ".more-btn")
more_button.click()

# 提取评论
comments = driver.find_elements(By.CSS_SELECTOR, ".comment-content")
for comment in comments:
    print(comment.text)

(三)、数据清洗与转换工具

处理多源数据的格式统一、缺失值填充与质量校验。

1. Pandas

定位：Python数据处理库，适合结构化数据清洗与分析。
核心功能：
- 数据读取（CSV/JSON/Excel）与写入。
- 缺失值处理（dropna()、fillna()）。
- 数据转换（类型转换、格式规范化）。

示例代码（清洗电影数据）：

import pandas as pd

# 读取数据
df = pd.read_csv("movies.csv")

# 处理缺失值
df["rating"] = df["rating"].fillna(df["rating"].mean())

# 类型转换
df["year"] = pd.to_datetime(df["year"], format="%Y")

# 导出清洗后数据
df.to_csv("cleaned_movies.csv", index=False)

2. OpenRefine

定位：开源交互式数据清洗工具，适合非编程人员使用。
核心功能：
- 数据导入（支持CSV、JSON、XML等）与可视化预览。
- 批量操作（如字符串替换、列拆分）。
- 数据聚类（自动识别相似值进行合并）。
操作示例：
1. 导入电影数据CSV文件。
2. 使用“ facet”功能筛选异常值（如年份＞2023）。
3. 通过“Transform”批量修改日期格式。

(四)、实体对齐与链接工具

解决多源数据中实体指代不一致问题（如同一个人在不同数据源中的不同名称）。

1. LIMES

定位：开源实体对齐框架，支持基于规则和机器学习的对齐。
核心功能：
- 定义相似度度量（如编辑距离、余弦相似度）。
- 配置对齐规则（如“当两部电影名称相似度＞80%且年份相差≤1年时视为同一实体”）。

示例配置（电影数据对齐）：

<LIMES>
  <sourceEndpoint>file:tmdb_movies.csvsourceEndpoint>
  <targetEndpoint>file:imdb_movies.csvtargetEndpoint>
  <sourceVar>?tmdbsourceVar>
  <targetVar>?imdbtargetVar>
  <metric>levenshtein(?tmdb:title, ?imdb:title) < 0.2metric>
  <threshold>0.8threshold>
LIMES>

2. DeepMatcher

定位：基于深度学习的实体匹配工具，适合复杂场景。
核心功能：
- 自动学习实体特征（如电影名称、导演、主演组合特征）。
- 支持文本、数值、分类等多类型特征。

示例代码：

import deepmatcher as dm

# 加载训练数据
train, validation, test = dm.data.process(
    path='data/movies',
    train='train.csv',
    validation='validation.csv',
    test='test.csv'
)

# 创建模型
model = dm.MatchingModel(attr_summarizer='hybrid')
model.run_train(train)

# 预测对齐结果
predictions = model.run_prediction(test)

(五)、数据存储与版本控制工具

管理获取的原始数据与处理后的中间结果。

1. Git

定位：分布式版本控制系统，适合代码与小数据文件管理。
核心功能：
- 跟踪数据变更历史，支持分支与合并。
- 结合.gitignore排除大文件（如GB级数据集）。

操作建议：

# 初始化仓库
git init data_repo
cd data_repo

# 添加数据文件
git add movies_sample.csv

# 提交变更
git commit -m "Add initial movie data sample"

# 创建分支开发新数据源
git branch imdb_data
git checkout imdb_data

2. DVC（Data Version Control）

定位：Git的扩展工具，专门处理大文件与数据集版本控制。
核心功能：
- 数据文件哈希管理，只存储元数据到Git，实际数据存放在远程存储（如S3、GCS）。
- 数据管道（Pipeline）定义与重现，记录数据处理流程。

操作示例：

# 初始化DVC
dvc init

# 添加大数据文件
dvc add data/movies_full.csv

# 推送到远程存储
dvc push

# 拉取特定版本数据
git checkout v1.0
dvc pull

(六)、工具选择决策树

数据获取类型

结构化数据

半结构化数据

非结构化数据

API调用

Postman/Requests

数据库导出

SQL客户端/Pandas

网页爬取

Scrapy/BeautifulSoup

动态页面

Selenium

文本提取

NLP工具

spaCy/NLTK

多源整合

实体对齐

LIMES/DeepMatcher

数据清洗

Pandas/OpenRefine

(七)、企业级工具链推荐

针对大规模数据获取与处理场景，推荐组合工具方案：

数据采集层：
- Apache NiFi：可视化数据流编排，支持数百种数据源接入。
- Kafka Connect：实时数据流采集，与Kafka生态无缝集成。
数据处理层：
- Spark：分布式数据处理，适合TB级数据清洗与转换。
- Flink：实时流处理，支持复杂事件处理与窗口计算。
数据存储层：
- MongoDB：灵活的文档型数据库，适合半结构化数据存储。
- Neo4j：图数据库，天然支持知识图谱关系存储与查询。
监控与调度层：
- Airflow：工作流调度，可视化DAG（有向无环图）编排。
- Prometheus + Grafana：数据质量监控与可视化。

(八)、工具使用注意事项

API调用：
- 遵守服务条款（如TMDB要求每4秒最多40个请求）。
- 使用缓存减少重复请求（如设置30天缓存期）。
网页爬取：
- 避免高频请求（建议间隔≥1秒）。
- 尊重网站robots.txt规则。
- 优先使用官方API替代爬取（如IMDb提供公开数据集）。
数据安全：
- 敏感数据（如API密钥）使用环境变量或配置中心管理。
- 定期备份数据，防止丢失。

通过合理选择和组合工具，可高效完成多源异构数据的获取、清洗与整合，为知识图谱构建奠定坚实基础。

十、常见挑战与解决方案

挑战	解决方案
API速率限制	1. 使用API密钥轮换 2. 实现请求队列与限流（如100请求/分钟） 3. 缓存已请求数据
网页反爬机制	1. 随机User-Agent池 2. 代理IP轮换（如Luminati、ScrapingBee） 3. 模拟人类浏览行为
数据缺失与噪声	1. 多源数据互补（如用IMDb补充TMDB缺失的电影） 2. 数据清洗规则（如过滤异常值）
实体对齐歧义	1. 多特征匹配（名称+出生日期+国籍） 2. 人工审核关键实体（如知名导演） 3. 使用知识图谱嵌入（如Graph Embedding）计算相似度

总结：数据获取流程优化建议

先粗后精：优先获取核心数据（如电影-导演-演员三元组），再逐步补充边缘数据（如票房、评论）。
增量更新：实现增量爬取机制，仅获取新数据或更新变化的数据（如每日更新新上映电影）。
可追溯性：记录每个数据项的来源（如source: "TMDB API v3"）和获取时间，便于问题定位。
自动化监控：设置数据质量监控任务，定期检查完整性和一致性，异常时自动告警。

通过系统化的数据获取流程，可构建高质量的知识图谱基础，为后续的知识抽取和应用提供可靠支撑。

你可能感兴趣的:(知识图谱,知识图谱,人工智能)

为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
人工智能应用研究快讯 2021-11-30 峰谷皆平
[HTML]ArtificialIntelligenceforSkinCancerDetection:ScopingReviewATakiddin,JSchneider,YYang,AAbd-Alrazaq...JournalofMedicalInternet...,2021ABSTACT:Background:Skincanceristhemostcommoncancertypeaffectin
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容 AI大模型应用工坊 AI大模型开发实战 AIGC chatgpt ai
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容关键词：AIGC、ChatGPT、DALL·E、内容生成、高转化营销、多模态协同、提示词工程摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，ChatGPT（文本生成）与DALL·E（图像生成）的组合已成为内容创作领域的“黄金搭档”。本文将深度解析二者的协同原理，结合实战案例演示从需求分析到内容落地的全流程，并揭示提升内容
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
【三桥君】MCP中台，究竟如何实现多模型、多渠道、多环境的统一管控？如何以MCP为核心设计AI应用架构？三桥君《三桥君 MCP落地方法论》《三桥君 AI大模型落地方法论》#《三桥君 AI产品方法论》人工智能 AI产品经理 MCP API 三桥君系统架构 llama
你好，我是✨三桥君✨本文介绍>>一、引言随着人工智能技术的快速发展，越来越多的企业开始引入大语言模型（LLM）以提升用户体验和运营效率。然而，如何高效、稳定地将这些AI能力落地到生产环境呢？传统的系统架构往往难以应对AI应用的高并发、低延迟和灵活扩展需求，因此，从整体架构角度设计AI应用架构显得尤为重要。本文三桥君将深入探讨以MCP为核心的AI应用架构，并分析多种部署方式的优劣势，为企业在AI落地
深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
如何运用深度学习打造高效AI人工智能系统 AI智能探索者 AI Agent 智能体开发实战人工智能深度学习 ai
如何运用深度学习打造高效AI人工智能系统关键词：深度学习、AI系统、神经网络、模型优化、实战开发摘要：本文将从深度学习的核心概念出发，结合生活实例和代码实战，系统讲解如何构建高效AI系统。我们会拆解数据准备、模型设计、训练优化、部署落地的全流程，揭秘“数据-模型-训练-推理”的协同机制，并通过具体案例演示从0到1开发AI系统的关键技巧，帮助开发者掌握打造高效AI系统的底层逻辑。背景介绍目的和范围在
非欧空间计算加速：图神经网络与微分几何计算的GPU优化（流形数据的内存布局优化策略）九章云极AladdinEdu 空间计算神经网络人工智能 gpu算力算法 java 开发语言
一、非欧空间计算的革命性意义与核心挑战在三维形状分析、社交网络建模、分子动力学模拟等领域，非欧几里得空间数据（流形数据）的处理正推动人工智能技术向更复杂的几何结构迈进。传统欧式空间优化方法在处理流形数据时面临根本性局限：黎曼度量导致距离计算失效、局部坐标系动态变化引发内存访问模式混乱、曲率变化影响并行计算效率。本文提出基于分块流形存储（BlockedManifoldStorage,BMS）与层次化
响应式编程实践：Spring Boot WebFlux构建高性能非阻塞服务 fanxbl957 Web spring boot 后端 java
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人响应式编程实践：SpringBootWebFlux构建高性能非阻塞服务一、引言在当今数字化时代，互
企业级RAG的数据方案选择 - 向量数据库、图数据库和知识图谱南七小僧 AI技术产品经理网站开发人工智能数据库知识图谱人工智能
如何为企业RAG选择合适的数据存储方式摘要:本文讨论了矢量数据库、图数据库和知识图谱在解决信息检索挑战方面的重要性，特别是针对企业规模的检索增强生成（RAG）。看看海外人工智能企业Writer是如何利用知识图谱增强企业级RAG。要点概要：矢量数据库高效存储数据，但缺乏上下文和关联信息。图数据库优先考虑数据点之间的关系，受益于关系结构。知识图谱在语义存储方面表现出色，由于其能够编码丰富的上下文信息，
【人工智能入门必看的最全Python编程实战（1）】 DFCED 人工智能 python 开发语言深度学习找工作就业
--------------------------------------------------------------------------------------------------------------------1.AIGC未来发展前景未完持续…1.1人工智能相关科研重要性拥有一篇人工智能科研论文及专利软著竞赛是保研考研留学深造以及找工作的关键门票！！！拥有一篇人工智能科研论文
2025毫米波雷达技术白皮书：智能汽车与物联网的感知核心
随着人工智能、物联网（IoT）和智能汽车产业的迅猛发展，毫米波雷达技术正成为感知领域的核心驱动力。毫米波雷达凭借其高精度、全天候和强抗干扰能力，广泛应用于智能汽车的自动驾驶、物联网的环境感知以及工业自动化。2025年，毫米波雷达技术在性能、应用场景和市场规模上都达到了一个全新的高度。本白皮书将深入探讨毫米波雷达技术的核心优势、发展趋势及其在智能汽车与物联网中的应用前景，同时推荐各大品牌的领先产品方
从零开始构建深度学习环境：基于Pytorch、CUDA与cuDNN的虚拟环境搭建与实践（适合初学者）荣华富贵8 程序员的知识储备2 程序员的知识储备3 深度学习 pytorch 人工智能
摘要：深度学习正在引领人工智能技术的革新，而对于初学者来说，正确搭建深度学习环境是迈向AI研究与应用的第一步。本文将为读者提供一套详尽的教程，指导如何在本地环境中搭建Pytorch、CUDA与cuDNN，以及如何利用Anaconda和PyCharm进行高效开发。内容涵盖从环境配置、常见错误修正，到基础的深度学习模型构建及训练。我们旨在为深度学习零基础的入门者提供一个全面且易于理解的“保姆级”教程，
人工智能概念之九：深度学习概述
文章目录相关文章一、深度学习的定位：AI时代的基石技术1.1技术生态全景图1.2技术革命的催化剂二、深度学习的双面性：性能优势与技术挑战2.1技术优势全景扫描2.2技术挑战深度剖析三、技术演进时间轴：70年的厚积薄发四、主流框架生态对比五、未来演进方向相关文章人工智能概念之二：人工智能核心概念：网页链接一、深度学习的定位：AI时代的基石技术1.1技术生态全景图深度学习处于人工智能（AI）技术金字塔
H800核心技术突破与行业应用实战智能计算研究中心其他
内容概要在人工智能技术持续迭代的背景下，H800芯片凭借自主架构优化与算力跃升，成为推动行业场景化落地的关键驱动力。本文将从技术路径、性能突破与行业应用三个维度，系统解析H800如何在高并发计算与低延时响应领域实现底层架构创新。首先聚焦其自主架构优化的核心技术路径，包括动态资源调度算法与异构计算单元的深度协同设计，揭示其在能效比与计算密度上的突破逻辑；进一步结合算力跃升的具体表现，探讨该芯片如何通
智慧建筑：科技引领房地产与建筑业的未来 RedPhoenix45
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE智慧建筑：科技引领房地产与建筑业的未来随着科技的飞速发展，人工智能（AI）和智能化工具正以前所未有的速度改变着各行各业。在房地产与建筑领域，这种变革尤为显著。从建筑设计到施工管理，再到物业管理，智能化技术正在重塑行业的每一个环节。本文将探讨如何利用先进的智能化工具提升房地产与建筑行业的效率，并介绍一款革命性的开发工具——它
智慧施工：AI技术赋能建筑安全监测新纪元
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！智慧施工：AI技术赋能建筑安全监测新纪元在现代建筑行业中，施工安全始终是核心关注点之一。随着科技的飞速发展，人工智能（AI）和大数据分析逐渐成为提升施工安全的重要工具。本文将探讨如何利用智能化软件和大模型API来构建高效的施工安全监测系统，并介绍一款强大的开发工具——InsCodeAIIDE的应用场景及其
智慧工地系统：建筑行业数字化变革的引领者青云智慧园区 java
在建筑行业积极迈向数字化转型的浪潮中，智慧工地系统凭借“数据驱动、智能管控、协同增效”的核心优势，深度融合物联网、大数据、人工智能等前沿技术，构建起覆盖工程项目全生命周期的精细化管理体系。以下将从系统架构、核心功能模块、应用价值以及未来展望等方面，全方位剖析智慧工地系统如何实现施工全过程的智能化、高效化管理。一、系统架构：打造一体化协同管理平台智慧工地系统采用先进的分层架构设计，以底层的数据采集层
AGI和AIGC傻傻分不清楚，一篇文章告诉你如何分辨！
Look！我们的大模型商业化落地产品更多AI资讯请关注Free三天集训营助教在线为您火热答疑‍什么是AGI(人工通用智能)?AGI是ArtificialGeneralIntelligence的缩写，中文翻译为“通用人工智能”，该术语指的是机器能够完成人类能够完成的任何智力任务的能力。与狭义的人工智能(ANI)不同，狭义的人工智能是为特定领域或问题而设计的，而AGI旨在实现一般的认知能力，能够适应任
新一代数据库：融合多模智能，重塑数据价值
一、场景重塑产业格局：数据库“融合进化”AI浪潮奔涌而至，数字产业格局加速重构。云计算、移动互联、万物互联（IoT）、人工智能（AI）等技术的深度融合与快速落地，正以前所未有的速度重塑着企业的应用形态。新业务场景层出不穷——从高并发的在线交易、实时精准的分析决策，到海量物联网设备监控、基于图关系的风控反欺诈，再到AI驱动的智能推荐与内容生成，应用场景的多样性与复杂性已突破传统数据库的能力边界。这对
基于知识图谱技术增强大模型RAG知识库应用效果罗伯特之技术屋知识图谱人工智能
【摘要】本文是AI落地实践的优秀案例，利用RAG技术（Retrieval-AugmentedGeneration，检索增强生成）的知识库实践为背景，介绍了RAG技术的发展及存在的不足，以及知识图谱相关的知识，利用RAG技术去完善和智能化知识图谱。在AI技术大量涌现，但应用不足的情况下，指明了现有应用场景、技术与AI结合的具体做法。1.引言随着人工智能技术的加速演进，AI大模型如雨后春笋般纷纷涌现，
音视频面试题集锦第 1 期关键帧-Keyframe 音视频面试题集锦音视频面试
想要学习和提升音视频技术的朋友，快来加入我们的【音视频技术社群】，加入后你就能：1）下载30+个开箱即用的「音视频及渲染Demo源代码」2）下载包含500+知识条目的完整版「音视频知识图谱」3）下载包含200+题目的完整版「音视频面试题集锦」4）技术和职业发展咨询100%得到回答5）获得简历优化建议和大厂内推现在加入，送你一张20元优惠券：点击领取优惠券前些时间，我在知识星球上创建了一个音视频技术
BGE-M3模型结合Milvus向量数据库强强联合实现混合检索
在基于生成式人工智能的应用开发中，通过关键词或语义匹配的方式对用户提问意图进行识别是一个很重要的步骤，因为识别的精准与否会影响后续大语言模型能否检索出合适的内容作为推理的上下文信息（或选择合适的工具）以给出用户最符合预期的回答。在本篇文章中，我将尽可能详细地介绍想达成准确识别用户提问意图的解决方案之一，即基于功能强大的BGE-M3模型和Milvus向量数据库实现混合检索（稠密向量densevect
朋友圈发的原力元宇宙项目到底能不能挣钱口碑信息传播者
原力元宇宙项目正如其名，是一场前所未有的数字化革命，融合了虚拟现实（VR）、人工智能（AI）、区块链（Blockchain）等前沿技术，开辟了全新的商业模式和赚钱机会。在朋友圈中频繁看到对该项目的推广宣传，确实反映了其在赚钱方面的潜力。本文将从多个角度解析原力元宇宙项目的盈利机制，揭示其中的商机所在。13分钟视频内容讲明白原力元宇宙创富项目，中国区运营服务对接微信：ForceZen激发兴趣的独特魅
构建高效 RAG 流程的七个关键点及其落地实践 charles666666 搜索引擎大数据需求分析交互笔记数据库
人工智能应用浪潮中，检索增强生成（RAG）技术凭借着结合大型语言模型（LLMs）的生成能力和信息检索系统的独特优势，成为了各企业挖掘数据价值、提升业务智能化水平的关键手段之一。然而，构建一个高效且精准的RAG流程并非易事，其中存在着诸多关键点和挑战。作为一名非资深IT技术顾问，我将基于丰富的实战经验，为大家深入剖析构建高效RAG流程的七个关键点及其落地实践。一、文档解析：混合格式的“第一道坎”在企
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin