只有左边一个小酒窝

知识图谱构建方法

知识图谱的构建是一个复杂的系统性工程，涉及知识建模、数据获取、知识抽取、知识融合、知识存储、知识推理、知识应用及维护等多个环节。以下是知识图谱构建的详细方法和流程：

一、知识建模：定义知识图谱的模式（Schema）

知识建模是构建知识图谱的第一步，旨在确定知识图谱的结构和语义，定义实体、关系、属性及其层次体系。

1. 确定领域和目标

明确应用场景：例如医疗领域的疾病知识图谱、电商领域的商品知识图谱等。
确定关键问题：如“需要回答哪些类型的查询？”“需要哪些实体和关系？”

2. 定义实体类型

列举领域核心实体：
- 医疗领域：疾病、药品、症状、科室等。
- 电商领域：商品、品牌、类别、用户等。
构建实体层次结构（Taxonomy）：
- 例如：“疾病”是父类，“传染病”“慢性病”是子类。

3. 定义关系类型

常见关系类型：
- 上下位关系（IsA）：如“肺癌”→“癌症”。
- 关联关系：如“药品”→“治疗”→“疾病”。
- 属性关系：如“疾病”→“症状”→“咳嗽”。
关系的方向性和约束：
- 关系通常是有向的（如“患者”→“患有”→“疾病”）。
- 定义关系的基数（如“一个疾病可以有多个症状”）。

4. 定义属性和数据类型

实体属性：如“疾病”的属性包括“发病率”“潜伏期”（数值型）、“症状描述”（文本型）等。
关系属性：如“治疗”关系的属性包括“疗程”“有效率”等。

5. 工具选择

本体建模工具：
- Protege：可视化界面，支持OWL本体语言，适合学术和小型项目。
- WebProtégé：基于云端的协作建模工具。
- TopBraid Composer：企业级本体建模工具，支持复杂推理。
Schema表示语言：
- OWL（Web本体语言）：用于定义语义关系，支持推理。
- RDFS（资源描述框架模式）：轻量级语义模型，适合简单场景。
- JSON Schema/GraphQL Schema：适合动态数据建模和API驱动的应用。

二、数据获取：收集多源异构数据

知识图谱的数据来源多样，需根据实体和关系类型收集相关数据，并处理数据的异构性（如结构化、半结构化、非结构化数据）。

1. 数据类型

结构化数据：
- 关系型数据库（SQL）：如MySQL中的“商品表”“用户表”。
- 表格数据（Excel/CSV）：如药品说明书表格。
- 知识库（公开）：如Wikidata、DBpedia、CN-DBpedia。
半结构化数据：
- XML/JSON数据：如网页中的JSON接口返回数据。
- 百科页面（如维基百科）：通过模板提取结构化信息。
非结构化数据：
- 文本数据：新闻报道、医学文献、用户评论等。
- 图像/音频/视频：需结合多媒体分析技术（如OCR、语音识别）转换为文本。

2. 数据获取方法

公开数据爬取：
- 使用爬虫工具（如Python的Scrapy、BeautifulSoup）从网站提取数据。
- 注意合规性：遵守网站robots协议，避免侵犯隐私。
数据库对接：
- 通过ETL（Extract-Transform-Load）工具从企业内部数据库（如Oracle、SQL Server）抽取数据。
API接口获取：
- 调用公开API（如Google Knowledge Graph API、百度百科API）获取结构化数据。
人工录入/众包：
- 对缺失或高价值数据（如专家经验）进行人工标注，或通过众包平台（如Amazon Mechanical Turk）收集。

三、知识抽取：从数据中提取实体、关系和属性

知识抽取（Knowledge Extraction）是将多源数据转化为结构化知识的核心步骤，需针对不同数据类型采用不同技术。

1. 实体抽取（命名实体识别，NER）

目标：从文本中识别具有特定类别的实体（如人名、地名、机构名）。
方法：
- 规则-based方法：使用正则表达式、词典匹配（如通过疾病词典识别“糖尿病”）。
- 统计学习方法：
  - 模型：CRF（条件随机场）、BiLSTM-CRF、BERT-CRF。
  - 工具：spaCy、NLTK、HanLP（中文）。
- 深度学习方法：
  - 预训练模型：BERT、RoBERTa、ERNIE（中文），Fine-tune后用于NER。
  - 工具：Hugging Face Transformers库。
挑战：
- 歧义词（如“苹果”可能指水果或公司）。
- 新词识别（如新兴疾病名称）。

2. 关系抽取（RE）

目标：识别实体之间的语义关系（如“药物-治疗-疾病”）。
方法：
- 远程监督（Distant Supervision）：
  - 假设包含相同实体对的句子具有相同关系（如“阿司匹林治疗头痛”→“治疗”关系）。
  - 结合知识库（如Wikidata）自动生成训练数据。
- 监督学习方法：
  - 模型：CNN、RNN、GNN（图神经网络），或基于预训练模型的分类器（如BERT+分类层）。
- 规则与模式匹配：
  - 使用依存句法分析（如“主语-谓语-宾语”结构）提取关系，例如“患者[主语]患有[谓语]肺癌[宾语]”。
工具：Stanza（多语言NLP工具包）、DeepPavlov（关系抽取模型）。

3. 属性抽取

目标：提取实体的属性值（如“疾病”的“高发人群”）。
方法：
- 从结构化数据中直接映射（如数据库表字段）。
- 从文本中抽取：通过正则表达式（如“年龄：(\d+)岁”）或序列标注模型（将属性值视为实体）。

四、知识融合：消除数据冲突，统一知识表示

知识融合旨在整合多源数据，解决实体歧义、冗余和冲突问题，形成统一的知识图谱。

1. 实体对齐（Entity Alignment）

目标：识别不同数据源中表示同一现实实体的节点（如“阿司匹林”在不同数据库中的记录）。
方法：
- 基于规则的对齐：
  - 匹配实体名称、属性值（如“药品通用名”+“分子式”相同则视为同一实体）。
- 基于嵌入的对齐：
  - 将实体编码为低维向量（如TransE、RESCAL模型），计算向量相似度（如余弦距离）。
- 混合方法：结合规则和机器学习模型（如SVM、神经网络）进行对齐。
工具：
- Dedupe（Python库，用于重复数据检测）。
- Falcon-AO（实体对齐工具，支持大规模知识图谱）。

2. 冲突消解

解决数据不一致问题：
- 优先级策略：指定数据源优先级（如权威数据库＞百科＞用户生成内容）。
- 投票机制：多个数据源冲突时，取多数一致结果。
- 人工审核：对高风险冲突（如医疗数据）进行人工确认。

3. 知识归一化

统一实体命名和属性值格式：
- 实体名：如统一“慢阻肺”和“慢性阻塞性肺疾病”为标准名称。
- 属性值：如日期格式统一为“YYYY-MM-DD”，数值单位统一（如“千克”“kg”统一为“kg”）。

五、知识存储：选择合适的图数据库

知识图谱通常以图结构（节点-边-属性）存储，需根据数据规模和查询需求选择数据库。

1. 图数据库分类

属性图数据库：
- 适用场景：中小企业级应用，支持复杂查询和实时更新。
- 代表：Neo4j（最常用）、ArangoDB、OrientDB。
- 特点：使用Cypher查询语言，支持事务和索引。
RDF数据库：
- 适用场景：学术研究、语义网应用，需严格遵循RDF标准。
- 代表：Apache Jena、Stardog、GraphDB。
- 特点：支持OWL推理，查询语言为SPARQL。
分布式图数据库：
- 适用场景：超大规模数据（数十亿节点），如社交网络、推荐系统。
- 代表：Dgraph、JanusGraph、AWS Neptune（支持属性图和RDF）。
- 特点：支持水平扩展，基于Spark或Flink等分布式框架。

2. 存储方案选择

小规模场景：Neo4j单机版，易于部署和开发。
大规模场景：JanusGraph+Cassandra/Elasticsearch，支持分布式存储和查询。
语义推理需求：Stardog或GraphDB，支持OWL本体和SPARQL推理。

六、知识推理：挖掘隐含知识

知识推理通过已有的知识推断出新的关系或实体，解决知识图谱的不完整性问题。

1. 推理方法

基于规则的推理：
- 定义逻辑规则，自动推导新关系。
- 示例：若“X是Y的父母，Y是Z的父母”，则“X是Z的祖父母”。
- 工具：Jena的Rule Engine、Drools（业务规则引擎）。
基于表示学习的推理：
- 将实体和关系嵌入向量空间（如TransE、RotatE模型），通过向量计算预测缺失关系。
- 示例：通过“药物-治疗-疾病”关系向量，推断“药物A可能治疗疾病B”。
- 工具：PyTorch-BigGraph、OpenKE。
基于图神经网络（GNN）的推理：
- 利用图结构信息（如节点邻居特征）预测关系，如GraphSAGE、GAT模型。
- 适用于推荐系统、欺诈检测等场景。

2. 推理应用场景

缺失关系补全：预测“基因-疾病”关联关系。
不一致性检测：发现知识图谱中的逻辑矛盾（如“某人年龄为-5岁”）。
层级关系推导：自动构建实体的上下位关系（如通过“肺癌是一种恶性肿瘤”推断“肺癌IsA肿瘤”）。

七、知识应用：构建智能应用

知识图谱的价值体现在其应用场景中，常见应用包括：

1. 问答系统（QA）

流程：
1. 用户提问解析（如“糖尿病的症状有哪些？”）。
2. 实体识别（“糖尿病”）和关系识别（“症状”）。
3. 图查询（在知识图谱中查找“糖尿病”的“症状”属性）。
4. 结果整理与自然语言回答。
工具：DeepQA（IBM Watson技术栈）、Rasa（结合知识图谱的对话系统）。

2. 推荐系统

方法：
- 构建用户-商品-属性的知识图谱，分析用户偏好（如“用户A喜欢品牌B的红色运动鞋”）。
- 通过图算法（如PageRank、协同过滤）推荐相关商品。
案例：电商平台通过知识图谱分析商品关联（如“购买手机的用户常买充电器”）。

3. 决策支持

应用场景：
- 金融领域：构建企业知识图谱，分析股权结构、关联交易，识别风险。
- 医疗领域：辅助诊断，根据患者症状、病史和知识图谱中的疾病特征推荐诊断方向。

4. 语义搜索

与传统搜索的区别：
- 传统搜索：基于关键词匹配（如搜索“肺癌”返回包含该词的网页）。
- 语义搜索：理解查询意图，返回结构化知识（如“肺癌的治疗药物有哪些？”直接列出药物列表）。
实现方式：
- 使用SPARQL查询知识图谱，结合自然语言处理将用户查询转换为图数据库查询语句。

八、知识图谱维护与更新

知识图谱需持续维护以保证时效性和准确性，流程包括：

1. 数据监控与增量更新

实时/定时爬取：监控数据源变化（如新闻网站更新疾病信息），触发增量抽取。
版本控制：记录知识图谱的更新历史，支持回滚（如使用Git或图数据库自带的版本管理功能）。

2. 质量评估

指标：
- 完整性：实体覆盖率、关系覆盖率（如知识图谱中是否包含90%以上的已知疾病）。
- 准确性：实体对齐准确率、属性值正确率（通过人工抽样验证）。
- 一致性：无矛盾关系（如“药物A治疗疾病B”与“药物A禁忌疾病B”不能并存）。
工具：编写脚本自动检测数据质量（如重复实体、无效关系），生成质量报告。

3. 人工干预与反馈机制

建立用户反馈渠道（如APP内的“纠错”按钮），收集用户发现的错误知识。
对高优先级领域（如医疗、金融）定期进行专家审核，确保知识可靠性。

九、典型工具链与案例

1. 工具链示例（以医疗知识图谱为例）

数据获取：爬虫获取医学指南（非结构化文本）+医院数据库（结构化数据）。
知识抽取：
- NER：使用BERT-ERNIE模型识别“疾病”“药品”实体。
- 关系抽取：基于远程监督和依存句法提取“药物-治疗-疾病”关系。
知识融合：通过Dedupe对齐不同数据源中的“药品”实体，人工审核冲突数据。
存储与推理：Neo4j存储属性图，使用Cypher查询；结合规则引擎推导“并发症”关系。
应用：搭建医疗问答系统，支持自然语言查询疾病相关知识。

2. 开源项目与资源

通用知识图谱：
- Wikidata：多语言百科知识库，可直接用于构建领域图谱的基础框架。
- DBpedia：从维基百科提取的结构化数据，支持SPARQL查询。
工具库：
- PyTorch-BigGraph：Facebook开源的分布式图表示学习库，适合大规模知识图谱。
- Stardog：企业级RDF数据库，支持知识推理和SQL/SPARQL混合查询。
- AIGC辅助工具：如ChatGPT可辅助生成实体关系模板、标注数据等。

以下是结合知识图谱构建方法的实践案例，以**“电影知识图谱”**为例，详细展示从数据获取到应用的全流程，并附具体代码和工具操作示例，帮助理解理论与实践的结合。

十、实践案例：电影知识图谱构建

目标

构建一个包含电影、演员、导演、类型、奖项等信息的知识图谱，支持电影推荐、问答（如“诺兰导演的科幻片有哪些？”）和语义搜索。

（一）、知识建模：定义电影领域Schema

1. 实体类型

实体类型	说明
电影（Movie）	电影本体，如《星际穿越》
演员（Actor）	参演电影的演员
导演（Director）	执导电影的导演
类型（Genre）	电影类型，如科幻、悬疑
奖项（Award）	电影获得的奖项，如奥斯卡

2. 关系类型

关系类型	方向	说明
主演（starring）	Movie ← Actor	演员主演某部电影
导演（directed_by）	Movie ← Director	导演执导某部电影
属于类型（has_genre）	Movie → Genre	电影属于某类型
获得奖项（won_award）	Movie → Award	电影获得某个奖项
同剧演员（co_star）	Actor ↔ Actor	演员共同出演同一部电影

3. 属性定义

电影属性：上映年份（year）、评分（rating）、时长（duration）、剧情简介（description）。
演员属性：出生日期（birth_date）、国籍（nationality）。
导演属性：代表作（representative_works）。
奖项属性：颁奖机构（organizer）、年份（year）、奖项名称（award_name）。

（二）、数据获取：爬取电影数据

1. 数据源选择

公开API：TMDB（The Movie Database，提供电影元数据）。
网页爬取：豆瓣电影榜（获取用户评分和评论）。

2. 使用Python爬取TMDB数据

import requests
import json

# TMDB API密钥（需在TMDB官网申请）
API_KEY = "your_api_key"
BASE_URL = "https://api.themoviedb.org/3"

def fetch_movies(page=1):
    url = f"{BASE_URL}/discover/movie?api_key={API_KEY}&page={page}"
    response = requests.get(url)
    data = json.loads(response.text)
    return data["results"]

# 爬取前10页数据（约200部电影）
movies = []
for page in range(1, 11):
    movies += fetch_movies(page)

# 保存为JSON文件
with open("movies.json", "w", encoding="utf-8") as f:
    json.dump(movies, f, ensure_ascii=False, indent=2)

3. 数据字段映射

TMDB返回字段：title（电影名）、release_date（上映日期）、vote_average（评分）、genres（类型列表）、cast（演员列表）、crew（导演等剧组人员）。

清洗后提取关键信息：

def process_movie(movie):
    processed = {
        "movie_id": movie["id"],
        "title": movie["title"],
        "year": int(movie["release_date"].split("-")[0]) if movie["release_date"] else None,
        "rating": movie["vote_average"],
        "genres": [g["name"] for g in movie["genres"]],
        "actors": [],  # 从cast中提取演员
        "director": None  # 从crew中提取导演
    }
    # 处理演员
    for cast_member in movie.get("cast", []):
        if cast_member["known_for_department"] == "Acting":
            processed["actors"].append({
                "actor_id": cast_member["id"],
                "name": cast_member["name"],
                "character": cast_member["character"]
            })
    # 处理导演
    for crew_member in movie.get("crew", []):
        if crew_member["job"] == "Director":
            processed["director"] = {
                "director_id": crew_member["id"],
                "name": crew_member["name"]
            }
    return processed

processed_movies = [process_movie(m) for m in movies]

（三）、知识抽取：从非结构化数据中补充信息

1. 需求：从豆瓣评论中提取电影剧情关键词（属性扩展）

工具：使用Hugging Face的pipeline进行文本摘要。

from transformers import pipeline

summarizer = pipeline("summarization", model="facebook/bart-large-cnn")

def extract_plot_keywords(reviews):
    # 合并多条评论为一段文本
    combined_text = " ".join(reviews)
    # 生成摘要（提取关键剧情信息）
    summary = summarizer(combined_text, max_length=100, min_length=30, do_sample=False)[0]["summary_text"]
    return summary.split(", ")  # 按逗号分割关键词

# 模拟豆瓣评论数据（实际需爬取）
sample_reviews = [
    "《星际穿越》探讨了时空穿越和亲情，视觉效果震撼",
    "剧情烧脑，演员演技在线，尤其是马修·麦康纳的表演"
]
plot_keywords = extract_plot_keywords(sample_reviews)
print(plot_keywords)  # 输出：['时空穿越', '亲情', '视觉效果震撼', '剧情烧脑', '演员演技在线']

（四）、知识融合：对齐实体与消歧

1. 问题：不同数据源中演员名称不一致（如“克里斯蒂安·贝尔” vs “Christian Bale”）

2. 解决方法：基于名称相似度对齐

工具：使用fuzzywuzzy库计算字符串相似度。

from fuzzywuzzy import fuzz

def is_same_actor(actor1, actor2):
    # 忽略大小写，计算模糊匹配分数
    score = fuzz.ratio(actor1.lower(), actor2.lower())
    return score > 85  # 相似度阈值设为85%

# 示例：对齐TMDB中的“Christian Bale”和豆瓣中的“克里斯蒂安·贝尔”
score = fuzz.ratio("Christian Bale", "克里斯蒂安·贝尔")
print(score)  # 输出：89（超过阈值，视为同一实体）

3. 冲突消解：优先采用权威数据源（如TMDB）的ID作为唯一标识

为每个实体分配全局唯一ID（如movie:123、actor:456），通过ID关联不同数据源。

（五）、知识存储：使用Neo4j构建图数据库

1. 安装与配置Neo4j

下载地址：Neo4j官网，选择社区版（免费）。
启动后访问http://localhost:7474，默认用户名/密码：neo4j/neo4j（首次登录需修改密码）。

2. 导入数据到Neo4j

方法1：使用Cypher语句批量插入

from neo4j import GraphDatabase

uri = "bolt://localhost:7687"
driver = GraphDatabase.driver(uri, auth=("neo4j", "your_password"))

def create_movie_node(tx, movie):
    tx.run(
        "CREATE (m:Movie {movie_id: $movie_id, title: $title, year: $year, rating: $rating})",
        movie_id=movie["movie_id"],
        title=movie["title"],
        year=movie["year"],
        rating=movie["rating"]
    )

with driver.session() as session:
    for m in processed_movies:
        session.write_transaction(create_movie_node, m)

方法2：使用Neo4j的LOAD CSV功能

将数据转换为CSV格式（如movies.csv、actors.csv）。

在Neo4j浏览器中执行：

LOAD CSV WITH HEADERS FROM "file:///movies.csv" AS row
CREATE (m:Movie {movie_id: toInteger(row.movie_id), title: row.title, year: toInteger(row.year), rating: toFloat(row.rating)})

3. 创建关系

// 创建“主演”关系
MATCH (a:Actor {actor_id: 123}), (m:Movie {movie_id: 456})
CREATE (a)-[:starring]->(m)

// 创建“导演”关系
MATCH (d:Director {director_id: 789}), (m:Movie {movie_id: 456})
CREATE (d)-[:directed_by]->(m)

（六）、知识推理：推导“同剧演员”关系

1. 规则定义

若两名演员共同出演同一部电影，则他们之间存在co_star关系。

2. 使用Cypher执行推理

// 批量创建同剧演员关系
MATCH (a1:Actor)-[:starring]->(m:Movie)<-[:starring]-(a2:Actor)
WHERE a1.actor_id < a2.actor_id  // 避免重复创建双向关系
CREATE (a1)-[:co_star]-(a2)
SET a1.co_star_count = coalesce(a1.co_star_count, 0) + 1,
    a2.co_star_count = coalesce(a2.co_star_count, 0) + 1

（七）、知识应用：搭建电影问答系统

1. 需求：回答“诺兰导演的科幻片有哪些？”

2. 实现步骤

步骤1：解析用户问题

使用spaCy识别实体和关系：

import spacy
nlp = spacy.load("en_core_web_sm")

def parse_question(question):
    doc = nlp(question)
    entities = [ent.text for ent in doc.ents if ent.label_ in ["PERSON", "WORK_OF_ART"]]
    relations = []
    for token in doc:
        if token.dep_ == "dobj" and token.head.text == "导演":
            relations.append("directed_by")
        elif token.text == "科幻片":
            relations.append("has_genre")
    return {"entities": entities, "relations": relations}

question = "诺兰导演的科幻片有哪些？"
parsed = parse_question(question)
print(parsed)  # 输出：{"entities": ["诺兰", "科幻片"], "relations": ["directed_by", "has_genre"]}

步骤2：生成Cypher查询

def generate_cypher(entities, relations):
    director_name = entities[0]
    genre = entities[1]
    return f"""
    MATCH (d:Director {{name: "{director_name}"}})-[:directed_by]->(m:Movie)-[:has_genre]->(g:Genre {{name: "{genre}"}})
    RETURN m.title, m.year, m.rating
    """

cypher_query = generate_cypher(parsed["entities"], parsed["relations"])
print(cypher_query)

步骤3：执行查询并返回结果

with driver.session() as session:
    result = session.run(cypher_query)
    movies = [record["m.title"] for record in result]
print(f"诺兰导演的科幻片有：{', '.join(movies)}")

（八）、实践工具与资源总结

阶段	工具/库	作用
数据获取	requests	爬取TMDB API数据
数据清洗	pandas	处理JSON数据，提取关键字段
知识抽取	Hugging Face Transformers	文本摘要、命名实体识别
知识融合	fuzzywuzzy	实体名称相似度匹配
知识存储	Neo4j + Cypher	图数据库存储与查询
应用开发	Flask + spaCy	搭建问答系统API

（九）、实践中常见问题与解决方案

数据缺失：
- 处理方法：通过多个数据源互补（如同时使用TMDB和豆瓣数据），或使用生成模型（如GPT-3）补全简介等文本信息。
性能瓶颈：
- 处理方法：对Neo4j进行索引优化（如为movie.title、actor.name创建索引），或迁移至分布式图数据库（如Dgraph）。
实体歧义：
- 处理方法：结合实体属性（如出生日期、国籍）辅助消歧，或引入外部知识库（如Wikidata）验证实体唯一性。

（十）、扩展实践建议

多模态数据集成：
- 爬取电影海报图片，存储为实体属性，或使用计算机视觉技术提取海报中的文本和视觉特征（如颜色、人物）。
推荐系统集成：
- 在知识图谱中添加用户观影记录，通过图算法（如Personalized PageRank）生成个性化推荐。
实时更新：
- 使用消息队列（如Kafka）监听数据源变化，触发增量更新流程，保持知识图谱实时性。

十一、挑战与未来趋势

1. 主要挑战

数据稀疏性：小众领域（如罕见病）数据不足，难以构建完整图谱。
多模态数据处理：图像、视频等非结构化数据的语义理解仍需突破。
可解释性：深度学习模型在知识推理中的决策过程难以解释，影响医疗、金融等领域的可信度。
实时性要求：部分场景（如实时推荐）需要知识图谱秒级更新，对存储和计算性能要求高。

2. 未来趋势

AIGC与知识图谱结合：利用大语言模型（LLM）自动生成缺失知识，如通过GPT-4补全罕见病的症状描述。
联邦学习在知识融合中的应用：在不共享原始数据的前提下，跨机构联合构建知识图谱（如医疗数据隐私保护）。
时空知识图谱：引入时间和空间维度（如“事件-时间-地点”关系），支持动态场景分析（如疫情传播建模）。
轻量化知识图谱：针对边缘计算设备（如智能终端），优化存储和推理算法，降低计算资源消耗。

十二、一个完整的知识图谱构建案例

完整的电影知识图谱构建解决方案，包括：

数据获取：从TMDB API获取电影、演员、导演和类型数据
数据处理：提取实体和关系，进行数据清洗
知识抽取：使用transformers从电影概述中提取关键词
知识存储：将数据导入Neo4j图数据库，创建节点和关系
知识查询：实现简单的问答系统和电影推荐功能

使用前需要：

在TMDB官网注册账号并获取API密钥
安装Neo4j数据库并启动服务
安装必要的Python库：requests, neo4j, transformers, fuzzywuzzy, spacy, tqdm
下载spaCy英文模型：python -m spacy download en_core_web_sm

代码设计考虑了扩展性，可以根据需要添加更多的实体类型、关系和功能，如情感分析、多模态处理等。

完整代码：

import requests
import json
import os
import pandas as pd
from fuzzywuzzy import fuzz
from transformers import pipeline
from neo4j import GraphDatabase
from tqdm import tqdm
import spacy

class MovieKnowledgeGraphBuilder:
  def __init__(self, tmdb_api_key, neo4j_uri, neo4j_user, neo4j_password):
      """初始化电影知识图谱构建器"""
      self.tmdb_api_key = tmdb_api_key
      self.neo4j_driver = GraphDatabase.driver(neo4j_uri, auth=(neo4j_user, neo4j_password))
      self.nlp = spacy.load("en_core_web_sm")  # 用于问题解析
      self.summarizer = pipeline("summarization", model="facebook/bart-large-cnn")
      
  def fetch_movies_from_tmdb(self, num_pages=10, save_path="movies.json"):
      """从TMDB API获取电影数据"""
      if os.path.exists(save_path):
          print(f"数据已存在，从文件加载: {save_path}")
          with open(save_path, "r", encoding="utf-8") as f:
              return json.load(f)
              
      movies = []
      for page in tqdm(range(1, num_pages + 1), desc="爬取电影数据"):
          url = f"https://api.themoviedb.org/3/discover/movie?api_key={self.tmdb_api_key}&page={page}"
          response = requests.get(url)
          if response.status_code == 200:
              page_data = response.json()
              movies.extend(page_data.get("results", []))
          else:
              print(f"请求失败，状态码: {response.status_code}")
      
      with open(save_path, "w", encoding="utf-8") as f:
          json.dump(movies, f, ensure_ascii=False, indent=2)
          
      return movies
  
  def process_movie_data(self, movies):
      """处理电影数据，提取实体和关系"""
      processed_movies = []
      actors_dict = {}
      directors_dict = {}
      genres_dict = {}
      
      for movie in tqdm(movies, desc="处理电影数据"):
          # 提取电影基本信息
          processed = {
              "movie_id": movie["id"],
              "title": movie["title"],
              "year": int(movie["release_date"].split("-")[0]) if movie.get("release_date") else None,
              "rating": movie["vote_average"],
              "overview": movie.get("overview", ""),
              "genres": []
          }
          
          # 处理电影类型
          for genre in movie.get("genres", []):
              genre_id = genre["id"]
              genre_name = genre["name"]
              genres_dict[genre_id] = genre_name
              processed["genres"].append(genre_id)
          
          # 获取电影详细信息（包含演员和导演）
          movie_details = self._get_movie_details(movie["id"])
          
          # 处理演员
          processed["actors"] = []
          for cast_member in movie_details.get("cast", [])[:10]:  # 取前10位主演
              actor_id = cast_member["id"]
              actor_name = cast_member["name"]
              character = cast_member["character"]
              
              actors_dict[actor_id] = {
                  "name": actor_name,
                  "popularity": cast_member.get("popularity", 0),
                  "gender": cast_member.get("gender", 0)
              }
              
              processed["actors"].append({
                  "actor_id": actor_id,
                  "character": character
              })
          
          # 处理导演
          for crew_member in movie_details.get("crew", []):
              if crew_member["job"] == "Director":
                  director_id = crew_member["id"]
                  director_name = crew_member["name"]
                  
                  directors_dict[director_id] = {
                      "name": director_name,
                      "popularity": crew_member.get("popularity", 0)
                  }
                  
                  processed["director"] = director_id
                  break  # 一部电影通常只有一个导演
          
          processed_movies.append(processed)
      
      return {
          "movies": processed_movies,
          "actors": actors_dict,
          "directors": directors_dict,
          "genres": genres_dict
      }
  
  def _get_movie_details(self, movie_id):
      """获取电影详细信息（包括演员和导演）"""
      url = f"https://api.themoviedb.org/3/movie/{movie_id}?api_key={self.tmdb_api_key}&append_to_response=credits"
      response = requests.get(url)
      if response.status_code == 200:
          return response.json()
      return {}
  
  def extract_plot_keywords(self, overview):
      """从电影概述中提取关键词"""
      if not overview:
          return []
      
      # 使用BART模型生成摘要
      try:
          summary = self.summarizer(overview, max_length=30, min_length=10, do_sample=False)[0]["summary_text"]
          # 简单分词作为关键词
          return [word.strip() for word in summary.split(",") if word.strip()]
      except:
          return []
  
  def build_knowledge_graph(self, data):
      """将处理后的数据导入Neo4j图数据库"""
      with self.neo4j_driver.session() as session:
          # 创建约束，确保唯一性
          session.run("CREATE CONSTRAINT IF NOT EXISTS FOR (m:Movie) REQUIRE m.movie_id IS UNIQUE")
          session.run("CREATE CONSTRAINT IF NOT EXISTS FOR (a:Actor) REQUIRE a.actor_id IS UNIQUE")
          session.run("CREATE CONSTRAINT IF NOT EXISTS FOR (d:Director) REQUIRE d.director_id IS UNIQUE")
          session.run("CREATE CONSTRAINT IF NOT EXISTS FOR (g:Genre) REQUIRE g.genre_id IS UNIQUE")
          
          # 导入电影节点
          for movie in tqdm(data["movies"], desc="导入电影节点"):
              keywords = self.extract_plot_keywords(movie["overview"])
              session.run(
                  """
                  MERGE (m:Movie {movie_id: $movie_id})
                  SET m.title = $title, m.year = $year, m.rating = $rating,
                      m.overview = $overview, m.keywords = $keywords
                  """,
                  movie_id=movie["movie_id"],
                  title=movie["title"],
                  year=movie["year"],
                  rating=movie["rating"],
                  overview=movie["overview"],
                  keywords=keywords
              )
          
          # 导入演员节点
          for actor_id, actor in tqdm(data["actors"].items(), desc="导入演员节点"):
              session.run(
                  """
                  MERGE (a:Actor {actor_id: $actor_id})
                  SET a.name = $name, a.popularity = $popularity, a.gender = $gender
                  """,
                  actor_id=actor_id,
                  name=actor["name"],
                  popularity=actor["popularity"],
                  gender=actor["gender"]
              )
          
          # 导入导演节点
          for director_id, director in tqdm(data["directors"].items(), desc="导入导演节点"):
              session.run(
                  """
                  MERGE (d:Director {director_id: $director_id})
                  SET d.name = $name, d.popularity = $popularity
                  """,
                  director_id=director_id,
                  name=director["name"],
                  popularity=director["popularity"]
              )
          
          # 导入类型节点
          for genre_id, genre_name in tqdm(data["genres"].items(), desc="导入类型节点"):
              session.run(
                  """
                  MERGE (g:Genre {genre_id: $genre_id})
                  SET g.name = $name
                  """,
                  genre_id=genre_id,
                  name=genre_name
              )
          
          # 创建电影-演员关系
          for movie in tqdm(data["movies"], desc="创建电影-演员关系"):
              for actor_info in movie["actors"]:
                  session.run(
                      """
                      MATCH (m:Movie {movie_id: $movie_id})
                      MATCH (a:Actor {actor_id: $actor_id})
                      MERGE (a)-[r:ACTED_IN {character: $character}]->(m)
                      """,
                      movie_id=movie["movie_id"],
                      actor_id=actor_info["actor_id"],
                      character=actor_info["character"]
                  )
          
          # 创建电影-导演关系
          for movie in tqdm(data["movies"], desc="创建电影-导演关系"):
              if "director" in movie and movie["director"]:
                  session.run(
                      """
                      MATCH (m:Movie {movie_id: $movie_id})
                      MATCH (d:Director {director_id: $director_id})
                      MERGE (d)-[r:DIRECTED]->(m)
                      """,
                      movie_id=movie["movie_id"],
                      director_id=movie["director"]
                  )
          
          # 创建电影-类型关系
          for movie in tqdm(data["movies"], desc="创建电影-类型关系"):
              for genre_id in movie["genres"]:
                  session.run(
                      """
                      MATCH (m:Movie {movie_id: $movie_id})
                      MATCH (g:Genre {genre_id: $genre_id})
                      MERGE (m)-[r:BELONGS_TO]->(g)
                      """,
                      movie_id=movie["movie_id"],
                      genre_id=genre_id
                  )
          
          # 创建演员-演员合作关系
          print("创建演员合作关系...")
          session.run(
              """
              MATCH (a1:Actor)-[:ACTED_IN]->(m:Movie)<-[:ACTED_IN]-(a2:Actor)
              WHERE a1.actor_id < a2.actor_id
              MERGE (a1)-[r:CO_STARRED_WITH]-(a2)
              ON CREATE SET r.movie_count = 1
              ON MATCH SET r.movie_count = r.movie_count + 1
              """
          )
  
  def answer_question(self, question):
      """基于知识图谱回答问题"""
      doc = self.nlp(question)
      
      # 提取实体和关系
      entities = []
      relations = []
      
      for ent in doc.ents:
          entities.append(ent.text)
      
      # 简单规则匹配关系类型
      if "导演" in question or "directed" in question.lower():
          relations.append("DIRECTED")
      if "主演" in question or "acted" in question.lower():
          relations.append("ACTED_IN")
      if "类型" in question or "genre" in question.lower():
          relations.append("BELONGS_TO")
      if "合作" in question or "co-starred" in question.lower():
          relations.append("CO_STARRED_WITH")
      
      # 基于提取的信息生成Cypher查询
      if not entities or not relations:
          return "抱歉，我无法理解您的问题。"
      
      # 简单问答模板匹配
      if "导演" in question and "电影" in question:
          # 问题示例："诺兰导演的电影有哪些？"
          director_name = entities[0]
          query = f"""
          MATCH (d:Director {{name: $director_name}})-[:DIRECTED]->(m:Movie)
          RETURN m.title AS title, m.year AS year, m.rating AS rating
          ORDER BY m.rating DESC
          """
          params = {"director_name": director_name}
          
          with self.neo4j_driver.session() as session:
              result = session.run(query, **params)
              movies = [f"{record['title']} ({record['year']}, 评分: {record['rating']})" for record in result]
              
              if movies:
                  return f"{director_name}导演的电影有：\n" + "\n".join(movies)
              else:
                  return f"抱歉，我没有找到{director_name}导演的电影。"
      
      elif "演员" in question and "电影" in question:
          # 问题示例："莱昂纳多主演的电影有哪些？"
          actor_name = entities[0]
          query = f"""
          MATCH (a:Actor {{name: $actor_name}})-[:ACTED_IN]->(m:Movie)
          RETURN m.title AS title, m.year AS year, m.rating AS rating
          ORDER BY m.rating DESC
          """
          params = {"actor_name": actor_name}
          
          with self.neo4j_driver.session() as session:
              result = session.run(query, **params)
              movies = [f"{record['title']} ({record['year']}, 评分: {record['rating']})" for record in result]
              
              if movies:
                  return f"{actor_name}主演的电影有：\n" + "\n".join(movies)
              else:
                  return f"抱歉，我没有找到{actor_name}主演的电影。"
      
      elif "类型" in question and "电影" in question:
          # 问题示例："有哪些科幻电影？"
          genre_name = entities[0]
          query = f"""
          MATCH (m:Movie)-[:BELONGS_TO]->(g:Genre {{name: $genre_name}})
          RETURN m.title AS title, m.year AS year, m.rating AS rating
          ORDER BY m.rating DESC
          LIMIT 10
          """
          params = {"genre_name": genre_name}
          
          with self.neo4j_driver.session() as session:
              result = session.run(query, **params)
              movies = [f"{record['title']} ({record['year']}, 评分: {record['rating']})" for record in result]
              
              if movies:
                  return f"以下是一些{genre_name}类型的电影：\n" + "\n".join(movies)
              else:
                  return f"抱歉，我没有找到{genre_name}类型的电影。"
      
      elif "合作" in question and len(entities) == 2:
          # 问题示例："莱昂纳多和凯特温斯莱特合作过哪些电影？"
          actor1_name = entities[0]
          actor2_name = entities[1]
          query = f"""
          MATCH (a1:Actor {{name: $actor1_name}})-[:ACTED_IN]->(m:Movie)<-[:ACTED_IN]-(a2:Actor {{name: $actor2_name}})
          RETURN m.title AS title, m.year AS year
          ORDER BY m.year DESC
          """
          params = {"actor1_name": actor1_name, "actor2_name": actor2_name}
          
          with self.neo4j_driver.session() as session:
              result = session.run(query, **params)
              movies = [f"{record['title']} ({record['year']})" for record in result]
              
              if movies:
                  return f"{actor1_name}和{actor2_name}合作过的电影有：\n" + "\n".join(movies)
              else:
                  return f"抱歉，我没有找到{actor1_name}和{actor2_name}合作过的电影。"
      
      return "抱歉，我还无法回答这类问题。"
  
  def recommend_movies(self, movie_title, limit=5):
      """基于知识图谱推荐相似电影"""
      query = """
      MATCH (m:Movie {title: $movie_title})-[:BELONGS_TO]->(g:Genre)<-[:BELONGS_TO]-(rec:Movie)
      WHERE rec.title <> $movie_title
      WITH rec, COUNT(g) AS genre_overlap, COLLECT(g.name) AS genres
      ORDER BY genre_overlap DESC, rec.rating DESC
      LIMIT $limit
      RETURN rec.title AS title, rec.year AS year, rec.rating AS rating, genres
      """
      
      with self.neo4j_driver.session() as session:
          result = session.run(query, movie_title=movie_title, limit=limit)
          recommendations = []
          
          for record in result:
              recommendation = {
                  "title": record["title"],
                  "year": record["year"],
                  "rating": record["rating"],
                  "genres": record["genres"]
              }
              recommendations.append(recommendation)
          
          if recommendations:
              print(f"基于《{movie_title}》的推荐电影：")
              for i, rec in enumerate(recommendations, 1):
                  print(f"{i}. {rec['title']} ({rec['year']}) - 评分: {rec['rating']}")
                  print(f"   类型: {', '.join(rec['genres'])}")
              return recommendations
          else:
              print(f"抱歉，没有找到与《{movie_title}》相似的电影。")
              return []
  
  def close(self):
      """关闭Neo4j驱动连接"""
      self.neo4j_driver.close()

# 使用示例
if __name__ == "__main__":
  # 配置信息（请替换为您自己的信息）
  TMDB_API_KEY = "your_tmdb_api_key"
  NEO4J_URI = "bolt://localhost:7687"
  NEO4J_USER = "neo4j"
  NEO4J_PASSWORD = "your_neo4j_password"
  
  # 初始化构建器
  builder = MovieKnowledgeGraphBuilder(TMDB_API_KEY, NEO4J_URI, NEO4J_USER, NEO4J_PASSWORD)
  
  # 1. 获取数据
  movies = builder.fetch_movies_from_tmdb(num_pages=5)
  
  # 2. 处理数据
  processed_data = builder.process_movie_data(movies)
  
  # 3. 构建知识图谱
  builder.build_knowledge_graph(processed_data)
  
  # 4. 问答示例
  questions = [
      "克里斯托弗·诺兰导演的电影有哪些？",
      "莱昂纳多·迪卡普里奥主演的电影有哪些？",
      "有哪些科幻电影？",
      "莱昂纳多·迪卡普里奥和凯特·温斯莱特合作过哪些电影？"
  ]
  
  for question in questions:
      answer = builder.answer_question(question)
      print(f"\n问题：{question}")
      print(f"回答：{answer}")
  
  # 5. 推荐示例
  builder.recommend_movies("Inception", limit=3)
  
  # 关闭连接
  builder.close()

总结

知识图谱的构建是一个“迭代优化”的过程，需结合领域特点选择合适的技术方案，并在实践中不断调整建模逻辑、优化抽取算法、提升数据质量。随着AI技术的发展，知识图谱将更深度融合机器学习、多模态处理和边缘计算，成为支撑智能应用的核心基础设施。

你可能感兴趣的:(知识图谱,知识图谱,人工智能)

为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
人工智能应用研究快讯 2021-11-30 峰谷皆平
[HTML]ArtificialIntelligenceforSkinCancerDetection:ScopingReviewATakiddin,JSchneider,YYang,AAbd-Alrazaq...JournalofMedicalInternet...,2021ABSTACT:Background:Skincanceristhemostcommoncancertypeaffectin
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容 AI大模型应用工坊 AI大模型开发实战 AIGC chatgpt ai
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容关键词：AIGC、ChatGPT、DALL·E、内容生成、高转化营销、多模态协同、提示词工程摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，ChatGPT（文本生成）与DALL·E（图像生成）的组合已成为内容创作领域的“黄金搭档”。本文将深度解析二者的协同原理，结合实战案例演示从需求分析到内容落地的全流程，并揭示提升内容
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
【三桥君】MCP中台，究竟如何实现多模型、多渠道、多环境的统一管控？如何以MCP为核心设计AI应用架构？三桥君《三桥君 MCP落地方法论》《三桥君 AI大模型落地方法论》#《三桥君 AI产品方法论》人工智能 AI产品经理 MCP API 三桥君系统架构 llama
你好，我是✨三桥君✨本文介绍>>一、引言随着人工智能技术的快速发展，越来越多的企业开始引入大语言模型（LLM）以提升用户体验和运营效率。然而，如何高效、稳定地将这些AI能力落地到生产环境呢？传统的系统架构往往难以应对AI应用的高并发、低延迟和灵活扩展需求，因此，从整体架构角度设计AI应用架构显得尤为重要。本文三桥君将深入探讨以MCP为核心的AI应用架构，并分析多种部署方式的优劣势，为企业在AI落地
深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
如何运用深度学习打造高效AI人工智能系统 AI智能探索者 AI Agent 智能体开发实战人工智能深度学习 ai
如何运用深度学习打造高效AI人工智能系统关键词：深度学习、AI系统、神经网络、模型优化、实战开发摘要：本文将从深度学习的核心概念出发，结合生活实例和代码实战，系统讲解如何构建高效AI系统。我们会拆解数据准备、模型设计、训练优化、部署落地的全流程，揭秘“数据-模型-训练-推理”的协同机制，并通过具体案例演示从0到1开发AI系统的关键技巧，帮助开发者掌握打造高效AI系统的底层逻辑。背景介绍目的和范围在
非欧空间计算加速：图神经网络与微分几何计算的GPU优化（流形数据的内存布局优化策略）九章云极AladdinEdu 空间计算神经网络人工智能 gpu算力算法 java 开发语言
一、非欧空间计算的革命性意义与核心挑战在三维形状分析、社交网络建模、分子动力学模拟等领域，非欧几里得空间数据（流形数据）的处理正推动人工智能技术向更复杂的几何结构迈进。传统欧式空间优化方法在处理流形数据时面临根本性局限：黎曼度量导致距离计算失效、局部坐标系动态变化引发内存访问模式混乱、曲率变化影响并行计算效率。本文提出基于分块流形存储（BlockedManifoldStorage,BMS）与层次化
响应式编程实践：Spring Boot WebFlux构建高性能非阻塞服务 fanxbl957 Web spring boot 后端 java
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人响应式编程实践：SpringBootWebFlux构建高性能非阻塞服务一、引言在当今数字化时代，互
企业级RAG的数据方案选择 - 向量数据库、图数据库和知识图谱南七小僧 AI技术产品经理网站开发人工智能数据库知识图谱人工智能
如何为企业RAG选择合适的数据存储方式摘要:本文讨论了矢量数据库、图数据库和知识图谱在解决信息检索挑战方面的重要性，特别是针对企业规模的检索增强生成（RAG）。看看海外人工智能企业Writer是如何利用知识图谱增强企业级RAG。要点概要：矢量数据库高效存储数据，但缺乏上下文和关联信息。图数据库优先考虑数据点之间的关系，受益于关系结构。知识图谱在语义存储方面表现出色，由于其能够编码丰富的上下文信息，
【人工智能入门必看的最全Python编程实战（1）】 DFCED 人工智能 python 开发语言深度学习找工作就业
--------------------------------------------------------------------------------------------------------------------1.AIGC未来发展前景未完持续…1.1人工智能相关科研重要性拥有一篇人工智能科研论文及专利软著竞赛是保研考研留学深造以及找工作的关键门票！！！拥有一篇人工智能科研论文
2025毫米波雷达技术白皮书：智能汽车与物联网的感知核心
随着人工智能、物联网（IoT）和智能汽车产业的迅猛发展，毫米波雷达技术正成为感知领域的核心驱动力。毫米波雷达凭借其高精度、全天候和强抗干扰能力，广泛应用于智能汽车的自动驾驶、物联网的环境感知以及工业自动化。2025年，毫米波雷达技术在性能、应用场景和市场规模上都达到了一个全新的高度。本白皮书将深入探讨毫米波雷达技术的核心优势、发展趋势及其在智能汽车与物联网中的应用前景，同时推荐各大品牌的领先产品方
从零开始构建深度学习环境：基于Pytorch、CUDA与cuDNN的虚拟环境搭建与实践（适合初学者）荣华富贵8 程序员的知识储备2 程序员的知识储备3 深度学习 pytorch 人工智能
摘要：深度学习正在引领人工智能技术的革新，而对于初学者来说，正确搭建深度学习环境是迈向AI研究与应用的第一步。本文将为读者提供一套详尽的教程，指导如何在本地环境中搭建Pytorch、CUDA与cuDNN，以及如何利用Anaconda和PyCharm进行高效开发。内容涵盖从环境配置、常见错误修正，到基础的深度学习模型构建及训练。我们旨在为深度学习零基础的入门者提供一个全面且易于理解的“保姆级”教程，
人工智能概念之九：深度学习概述
文章目录相关文章一、深度学习的定位：AI时代的基石技术1.1技术生态全景图1.2技术革命的催化剂二、深度学习的双面性：性能优势与技术挑战2.1技术优势全景扫描2.2技术挑战深度剖析三、技术演进时间轴：70年的厚积薄发四、主流框架生态对比五、未来演进方向相关文章人工智能概念之二：人工智能核心概念：网页链接一、深度学习的定位：AI时代的基石技术1.1技术生态全景图深度学习处于人工智能（AI）技术金字塔
H800核心技术突破与行业应用实战智能计算研究中心其他
内容概要在人工智能技术持续迭代的背景下，H800芯片凭借自主架构优化与算力跃升，成为推动行业场景化落地的关键驱动力。本文将从技术路径、性能突破与行业应用三个维度，系统解析H800如何在高并发计算与低延时响应领域实现底层架构创新。首先聚焦其自主架构优化的核心技术路径，包括动态资源调度算法与异构计算单元的深度协同设计，揭示其在能效比与计算密度上的突破逻辑；进一步结合算力跃升的具体表现，探讨该芯片如何通
智慧建筑：科技引领房地产与建筑业的未来 RedPhoenix45
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE智慧建筑：科技引领房地产与建筑业的未来随着科技的飞速发展，人工智能（AI）和智能化工具正以前所未有的速度改变着各行各业。在房地产与建筑领域，这种变革尤为显著。从建筑设计到施工管理，再到物业管理，智能化技术正在重塑行业的每一个环节。本文将探讨如何利用先进的智能化工具提升房地产与建筑行业的效率，并介绍一款革命性的开发工具——它
智慧施工：AI技术赋能建筑安全监测新纪元
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！智慧施工：AI技术赋能建筑安全监测新纪元在现代建筑行业中，施工安全始终是核心关注点之一。随着科技的飞速发展，人工智能（AI）和大数据分析逐渐成为提升施工安全的重要工具。本文将探讨如何利用智能化软件和大模型API来构建高效的施工安全监测系统，并介绍一款强大的开发工具——InsCodeAIIDE的应用场景及其
智慧工地系统：建筑行业数字化变革的引领者青云智慧园区 java
在建筑行业积极迈向数字化转型的浪潮中，智慧工地系统凭借“数据驱动、智能管控、协同增效”的核心优势，深度融合物联网、大数据、人工智能等前沿技术，构建起覆盖工程项目全生命周期的精细化管理体系。以下将从系统架构、核心功能模块、应用价值以及未来展望等方面，全方位剖析智慧工地系统如何实现施工全过程的智能化、高效化管理。一、系统架构：打造一体化协同管理平台智慧工地系统采用先进的分层架构设计，以底层的数据采集层
AGI和AIGC傻傻分不清楚，一篇文章告诉你如何分辨！
Look！我们的大模型商业化落地产品更多AI资讯请关注Free三天集训营助教在线为您火热答疑‍什么是AGI(人工通用智能)?AGI是ArtificialGeneralIntelligence的缩写，中文翻译为“通用人工智能”，该术语指的是机器能够完成人类能够完成的任何智力任务的能力。与狭义的人工智能(ANI)不同，狭义的人工智能是为特定领域或问题而设计的，而AGI旨在实现一般的认知能力，能够适应任
新一代数据库：融合多模智能，重塑数据价值
一、场景重塑产业格局：数据库“融合进化”AI浪潮奔涌而至，数字产业格局加速重构。云计算、移动互联、万物互联（IoT）、人工智能（AI）等技术的深度融合与快速落地，正以前所未有的速度重塑着企业的应用形态。新业务场景层出不穷——从高并发的在线交易、实时精准的分析决策，到海量物联网设备监控、基于图关系的风控反欺诈，再到AI驱动的智能推荐与内容生成，应用场景的多样性与复杂性已突破传统数据库的能力边界。这对
基于知识图谱技术增强大模型RAG知识库应用效果罗伯特之技术屋知识图谱人工智能
【摘要】本文是AI落地实践的优秀案例，利用RAG技术（Retrieval-AugmentedGeneration，检索增强生成）的知识库实践为背景，介绍了RAG技术的发展及存在的不足，以及知识图谱相关的知识，利用RAG技术去完善和智能化知识图谱。在AI技术大量涌现，但应用不足的情况下，指明了现有应用场景、技术与AI结合的具体做法。1.引言随着人工智能技术的加速演进，AI大模型如雨后春笋般纷纷涌现，
音视频面试题集锦第 1 期关键帧-Keyframe 音视频面试题集锦音视频面试
想要学习和提升音视频技术的朋友，快来加入我们的【音视频技术社群】，加入后你就能：1）下载30+个开箱即用的「音视频及渲染Demo源代码」2）下载包含500+知识条目的完整版「音视频知识图谱」3）下载包含200+题目的完整版「音视频面试题集锦」4）技术和职业发展咨询100%得到回答5）获得简历优化建议和大厂内推现在加入，送你一张20元优惠券：点击领取优惠券前些时间，我在知识星球上创建了一个音视频技术
BGE-M3模型结合Milvus向量数据库强强联合实现混合检索
在基于生成式人工智能的应用开发中，通过关键词或语义匹配的方式对用户提问意图进行识别是一个很重要的步骤，因为识别的精准与否会影响后续大语言模型能否检索出合适的内容作为推理的上下文信息（或选择合适的工具）以给出用户最符合预期的回答。在本篇文章中，我将尽可能详细地介绍想达成准确识别用户提问意图的解决方案之一，即基于功能强大的BGE-M3模型和Milvus向量数据库实现混合检索（稠密向量densevect
朋友圈发的原力元宇宙项目到底能不能挣钱口碑信息传播者
原力元宇宙项目正如其名，是一场前所未有的数字化革命，融合了虚拟现实（VR）、人工智能（AI）、区块链（Blockchain）等前沿技术，开辟了全新的商业模式和赚钱机会。在朋友圈中频繁看到对该项目的推广宣传，确实反映了其在赚钱方面的潜力。本文将从多个角度解析原力元宇宙项目的盈利机制，揭示其中的商机所在。13分钟视频内容讲明白原力元宇宙创富项目，中国区运营服务对接微信：ForceZen激发兴趣的独特魅
构建高效 RAG 流程的七个关键点及其落地实践 charles666666 搜索引擎大数据需求分析交互笔记数据库
人工智能应用浪潮中，检索增强生成（RAG）技术凭借着结合大型语言模型（LLMs）的生成能力和信息检索系统的独特优势，成为了各企业挖掘数据价值、提升业务智能化水平的关键手段之一。然而，构建一个高效且精准的RAG流程并非易事，其中存在着诸多关键点和挑战。作为一名非资深IT技术顾问，我将基于丰富的实战经验，为大家深入剖析构建高效RAG流程的七个关键点及其落地实践。一、文档解析：混合格式的“第一道坎”在企
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb