Python爬虫项目

Python爬虫实战：使用Selenium与异步技术高效采集Google Images关键词数据

摘要

本文将详细介绍如何使用Python构建一个高效的Google Images爬虫，通过Selenium自动化浏览器操作，结合异步请求技术实现大规模关键词图片数据的采集。文章包含完整的代码实现、反反爬策略、性能优化技巧以及数据处理方法，帮助开发者快速构建自己的图片数据集。

关键词：Python爬虫、Google Images、Selenium、异步爬虫、图片采集、反反爬策略

1. 引言

在当今大数据时代，图像数据已成为人工智能训练、市场分析和内容创作的重要资源。Google Images作为全球最大的图片搜索引擎，包含了海量的高质量图片资源。然而，Google并没有提供公开的API来获取这些图片数据，这就需要我们使用爬虫技术来自动化采集。

传统爬虫技术在面对Google这样的现代网站时面临诸多挑战：

动态加载内容（AJAX）
复杂的反爬机制
请求频率限制
验证码拦截

本文将介绍如何使用Python最新技术栈构建一个高效、稳定的Google Images爬虫系统，能够：

自动搜索指定关键词
滚动加载并采集图片元数据
下载高清原图
绕过常见反爬措施
实现分布式采集

2. 技术选型与环境配置

2.1 技术栈选择

我们选择以下技术组合：

Selenium：自动化浏览器操作，解决动态内容加载问题
aiohttp：异步HTTP请求，提高下载效率
Playwright（备选）：新一代浏览器自动化工具
BeautifulSoup：HTML解析
Redis：分布式任务队列
MongoDB：非结构化数据存储

2.2 环境准备

python

# 推荐使用Python 3.8+
# 创建虚拟环境
python -m venv google_images_env
source google_images_env/bin/activate  # Linux/Mac
google_images_env\Scripts\activate  # Windows

# 安装依赖
pip install selenium aiohttp beautifulsoup4 redis pymongo pillow
pip install webdriver-manager  # 自动管理浏览器驱动

2.3 浏览器驱动配置

python

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.chrome.options import Options

def init_driver(headless=True):
    chrome_options = Options()
    if headless:
        chrome_options.add_argument("--headless")
    chrome_options.add_argument("--disable-gpu")
    chrome_options.add_argument("--no-sandbox")
    chrome_options.add_argument("--disable-dev-shm-usage")
    chrome_options.add_argument("--window-size=1920,1080")
    chrome_options.add_argument("user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36")
    
    # 自动下载并配置Chrome驱动
    driver = webdriver.Chrome(
        service=Service(ChromeDriverManager().install()),
        options=chrome_options
    )
    return driver

3. 爬虫核心架构设计

3.1 系统架构图

text

Google Images Crawler Architecture
┌───────────────────────────────────────────────────────────────┐
│                        Main Controller                        │
└───────────────────────┬───────────────────┬───────────────────┘
                        │                   │
        ┌──────────────▼───────┐ ┌─────────▼───────────────┐
        │   Search Keyword     │ │    Image Downloader     │
        │   Handler            │ │    (Async)              │
        └──────────────┬───────┘ └─────────┬───────────────┘
                       │                   │
        ┌──────────────▼───────┐ ┌─────────▼───────────────┐
        │   Scroll & Parse     │ │    Proxy & Anti-Anti    │
        │   Page              │ │    Crawl Manager        │
        └──────────────┬───────┘ └─────────┬───────────────┘
                       │                   │
        ┌──────────────▼───────┐ ┌─────────▼───────────────┐
        │   Data Storage       │ │    Logging & Monitoring │
        │   (MongoDB/File)     │ │                         │
        └─────────────────────┘ └─────────────────────────┘

3.2 工作流程

初始化爬虫配置（关键词、代理、存储等）
使用Selenium打开Google Images搜索页面
输入关键词并执行搜索
滚动页面加载更多图片
解析图片元数据（URL、尺寸、来源等）
使用异步请求下载图片
存储元数据和图片文件
处理异常和反爬措施

4. 完整代码实现

4.1 基础爬虫实现

python

import os
import time
import logging
from urllib.parse import urlparse, unquote
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

class GoogleImagesCrawler:
    def __init__(self, keywords, output_dir='images', max_images=100, headless=True):
        self.keywords = keywords
        self.output_dir = output_dir
        self.max_images = max_images
        self.driver = init_driver(headless)
        self.logger = self._setup_logger()
        
        # 创建输出目录
        os.makedirs(self.output_dir, exist_ok=True)
    
    def _setup_logger(self):
        logger = logging.getLogger('google_images_crawler')
        logger.setLevel(logging.INFO)
        formatter = logging.Formatter('%(asctime)s - %(levelname)s - %(message)s')
        
        # 控制台输出
        ch = logging.StreamHandler()
        ch.setFormatter(formatter)
        logger.addHandler(ch)
        
        # 文件输出
        fh = logging.FileHandler('google_images_crawler.log')
        fh.setFormatter(formatter)
        logger.addHandler(fh)
        
        return logger
    
    def search_keyword(self, keyword):
        """执行关键词搜索"""
        self.logger.info(f"Searching for keyword: {keyword}")
        search_url = f"https://www.google.com/search?q={keyword}&tbm=isch"
        self.driver.get(search_url)
        
        # 等待页面加载
        WebDriverWait(self.driver, 10).until(
            EC.presence_of_element_located((By.CSS_SELECTOR, "div[data-ri]"))
    
    def scroll_to_bottom(self):
        """滚动页面加载更多图片"""
        self.logger.info("Scrolling to load more images...")
        last_height = self.driver.execute_script("return document.body.scrollHeight")
        
        while True:
            # 滚动到底部
            self.driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
            time.sleep(2)  # 等待加载
            
            # 计算新的滚动高度并比较
            new_height = self.driver.execute_script("return document.body.scrollHeight")
            if new_height == last_height:
                # 尝试点击"Show more results"按钮
                try:
                    more_btn = self.driver.find_element(By.CSS_SELECTOR, ".mye4qd")
                    if more_btn.is_displayed():
                        more_btn.click()
                        time.sleep(2)
                        continue
                except:
                    break
            last_height = new_height
    
    def extract_image_data(self):
        """提取图片元数据"""
        self.logger.info("Extracting image metadata...")
        image_elements = self.driver.find_elements(By.CSS_SELECTOR, "div[data-ri]")
        image_data = []
        
        for idx, img_div in enumerate(image_elements[:self.max_images]):
            try:
                # 点击缩略图打开预览
                img_div.click()
                time.sleep(0.5)
                
                # 等待大图加载
                WebDriverWait(self.driver, 5).until(
                    EC.presence_of_element_located((By.CSS_SELECTOR, "img.n3VNCb")))
                
                # 获取大图URL
                big_img = self.driver.find_element(By.CSS_SELECTOR, "img.n3VNCb")
                src = big_img.get_attribute("src")
                
                # 过滤base64数据
                if src.startswith("data:"):
                    continue
                
                # 获取图片信息
                alt = big_img.get_attribute("alt") or f"image_{idx}"
                image_data.append({
                    "url": src,
                    "alt": alt,
                    "source_page": self.driver.current_url,
                    "keyword": self.keywords[0] if self.keywords else "",
                    "timestamp": time.time()
                })
                
            except Exception as e:
                self.logger.warning(f"Error extracting image {idx}: {str(e)}")
                continue
        
        return image_data
    
    def download_image(self, img_url, img_name, save_dir=None):
        """下载单张图片"""
        save_dir = save_dir or self.output_dir
        os.makedirs(save_dir, exist_ok=True)
        
        try:
            # 解析URL获取文件扩展名
            parsed = urlparse(img_url)
            filename = unquote(parsed.path.split("/")[-1])
            ext = os.path.splitext(filename)[1]
            
            # 如果没有扩展名，尝试从Content-Type获取
            if not ext:
                # 这里需要实际请求获取Content-Type
                ext = ".jpg"  # 默认假设
            
            # 构建保存路径
            save_path = os.path.join(save_dir, f"{img_name}{ext}")
            
            # 使用requests下载图片
            import requests
            from PIL import Image
            from io import BytesIO
            
            headers = {
                "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
            }
            
            response = requests.get(img_url, headers=headers, stream=True)
            if response.status_code == 200:
                # 使用PIL验证图片完整性
                img = Image.open(BytesIO(response.content))
                img.save(save_path)
                self.logger.info(f"Downloaded: {save_path}")
                return save_path
            else:
                self.logger.warning(f"Failed to download {img_url}: HTTP {response.status_code}")
                return None
                
        except Exception as e:
            self.logger.error(f"Error downloading {img_url}: {str(e)}")
            return None
    
    def crawl(self):
        """执行爬取流程"""
        all_image_data = []
        
        for keyword in self.keywords:
            try:
                self.search_keyword(keyword)
                self.scroll_to_bottom()
                image_data = self.extract_image_data()
                
                # 下载图片
                for idx, img_info in enumerate(image_data):
                    img_name = f"{keyword.replace(' ', '_')}_{idx}"
                    img_path = self.download_image(img_info["url"], img_name)
                    if img_path:
                        img_info["local_path"] = img_path
                        all_image_data.append(img_info)
                
            except Exception as e:
                self.logger.error(f"Error crawling keyword {keyword}: {str(e)}")
                continue
        
        return all_image_data
    
    def __del__(self):
        """析构函数，关闭浏览器"""
        if hasattr(self, 'driver'):
            self.driver.quit()

# 使用示例
if __name__ == "__main__":
    keywords = ["mountain landscape", "beach sunset"]
    crawler = GoogleImagesCrawler(keywords, max_images=50, headless=False)
    image_data = crawler.crawl()
    print(f"Total images downloaded: {len(image_data)}")

4.2 异步增强版爬虫

python

import asyncio
import aiohttp
from concurrent.futures import ThreadPoolExecutor

class AsyncGoogleImagesCrawler(GoogleImagesCrawler):
    def __init__(self, *args, max_workers=5, **kwargs):
        super().__init__(*args, **kwargs)
        self.max_workers = max_workers
        self.session = None
    
    async def init_session(self):
        """初始化aiohttp会话"""
        timeout = aiohttp.ClientTimeout(total=30)
        connector = aiohttp.TCPConnector(limit_per_host=10)
        self.session = aiohttp.ClientSession(
            timeout=timeout,
            connector=connector,
            headers={
                "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
            }
        )
    
    async def download_image_async(self, img_url, img_name, save_dir=None):
        """异步下载图片"""
        save_dir = save_dir or self.output_dir
        os.makedirs(save_dir, exist_ok=True)
        
        try:
            # 解析URL获取文件扩展名
            parsed = urlparse(img_url)
            filename = unquote(parsed.path.split("/")[-1])
            ext = os.path.splitext(filename)[1]
            
            # 如果没有扩展名，尝试从Content-Type获取
            if not ext:
                ext = ".jpg"  # 默认假设
            
            # 构建保存路径
            save_path = os.path.join(save_dir, f"{img_name}{ext}")
            
            # 如果文件已存在，跳过下载
            if os.path.exists(save_path):
                self.logger.info(f"File exists, skipped: {save_path}")
                return save_path
            
            async with self.session.get(img_url) as response:
                if response.status == 200:
                    content = await response.read()
                    
                    # 使用线程池执行阻塞的IO操作
                    with ThreadPoolExecutor(max_workers=1) as executor:
                        loop = asyncio.get_event_loop()
                        await loop.run_in_executor(
                            executor,
                            self._save_image,
                            content,
                            save_path
                        )
                    
                    self.logger.info(f"Downloaded: {save_path}")
                    return save_path
                else:
                    self.logger.warning(f"Failed to download {img_url}: HTTP {response.status}")
                    return None
                    
        except Exception as e:
            self.logger.error(f"Error downloading {img_url}: {str(e)}")
            return None
    
    def _save_image(self, content, save_path):
        """保存图片（在同步上下文中执行）"""
        from PIL import Image
        from io import BytesIO
        
        try:
            img = Image.open(BytesIO(content))
            img.save(save_path)
        except Exception as e:
            self.logger.error(f"Error saving image {save_path}: {str(e)}")
            if os.path.exists(save_path):
                os.remove(save_path)
    
    async def crawl_async(self):
        """异步执行爬取流程"""
        await self.init_session()
        all_image_data = []
        
        try:
            for keyword in self.keywords:
                try:
                    # 同步操作使用线程池执行
                    with ThreadPoolExecutor(max_workers=1) as executor:
                        loop = asyncio.get_event_loop()
                        await loop.run_in_executor(
                            executor,
                            self.search_keyword,
                            keyword
                        )
                        await loop.run_in_executor(
                            executor,
                            self.scroll_to_bottom
                        )
                        image_data = await loop.run_in_executor(
                            executor,
                            self.extract_image_data
                        )
                    
                    # 异步下载图片
                    download_tasks = []
                    for idx, img_info in enumerate(image_data):
                        img_name = f"{keyword.replace(' ', '_')}_{idx}"
                        task = asyncio.create_task(
                            self.download_image_async(img_info["url"], img_name)
                        )
                        download_tasks.append((img_info, task))
                    
                    # 等待所有下载任务完成
                    for img_info, task in download_tasks:
                        img_path = await task
                        if img_path:
                            img_info["local_path"] = img_path
                            all_image_data.append(img_info)
                
                except Exception as e:
                    self.logger.error(f"Error crawling keyword {keyword}: {str(e)}")
                    continue
        finally:
            await self.session.close()
        
        return all_image_data
    
    async def __aenter__(self):
        await self.init_session()
        return self
    
    async def __aexit__(self, exc_type, exc_val, exc_tb):
        if self.session:
            await self.session.close()
        self.driver.quit()

# 使用示例
async def main():
    keywords = ["mountain landscape", "beach sunset"]
    async with AsyncGoogleImagesCrawler(keywords, max_images=50, headless=False) as crawler:
        image_data = await crawler.crawl_async()
        print(f"Total images downloaded: {len(image_data)}")

if __name__ == "__main__":
    asyncio.run(main())

5. 反反爬策略与突破

5.1 Google的反爬机制

请求频率检测：短时间内大量请求会触发验证码
用户行为分析：非人类操作模式检测
IP封锁：异常IP会被暂时或永久封锁
Cookie验证：验证用户会话合法性
JavaScript挑战：执行复杂的JS验证

5.2 突破策略实现

python

from fake_useragent import UserAgent
import random
import time

class AntiAntiCrawlMixin:
    def __init__(self):
        self.ua = UserAgent()
        self.last_request_time = 0
        self.request_interval = random.uniform(2, 5)
    
    def random_sleep(self):
        """随机延迟模拟人类操作"""
        sleep_time = random.uniform(0.5, 3)
        time.sleep(sleep_time)
    
    def rotate_user_agent(self):
        """随机更换User-Agent"""
        new_ua = self.ua.random
        if hasattr(self, 'driver'):
            self.driver.execute_cdp_cmd(
                "Network.setUserAgentOverride",
                {"userAgent": new_ua}
            )
        return new_ua
    
    def simulate_human_behavior(self):
        """模拟人类浏览行为"""
        # 随机鼠标移动
        if hasattr(self, 'driver'):
            width = self.driver.execute_script("return window.innerWidth")
            height = self.driver.execute_script("return window.innerHeight")
            
            for _ in range(random.randint(2, 5)):
                x = random.randint(0, width)
                y = random.randint(0, height)
                self.driver.execute_script(
                    f"document.elementFromPoint({x}, {y}).dispatchEvent("
                    "new MouseEvent('mousemove', { bubbles: true }))"
                )
                time.sleep(random.uniform(0.1, 0.5))
        
        # 随机滚动
        scroll_steps = random.randint(3, 10)
        for _ in range(scroll_steps):
            scroll_px = random.randint(200, 800)
            self.driver.execute_script(
                f"window.scrollBy(0, {scroll_px})")
            time.sleep(random.uniform(0.2, 1))
        
        self.random_sleep()
    
    def handle_captcha(self):
        """处理验证码"""
        try:
            # 检测验证码是否存在
            captcha_frame = self.driver.find_elements(
                By.XPATH, "//iframe[contains(@src, 'captcha')]")
            
            if captcha_frame:
                self.logger.warning("Captcha detected! Please solve it manually.")
                input("Press Enter after solving the captcha...")
                return True
        except:
            pass
        return False
    
    def use_proxy(self, proxy_url):
        """配置代理"""
        if hasattr(self, 'driver'):
            self.driver.quit()
            
        chrome_options = Options()
        chrome_options.add_argument("--headless")
        chrome_options.add_argument(f"--proxy-server={proxy_url}")
        
        self.driver = webdriver.Chrome(
            service=Service(ChromeDriverManager().install()),
            options=chrome_options
        )
        self.logger.info(f"Using proxy: {proxy_url}")

5.3 代理池集成

python

import redis

class ProxyManager:
    def __init__(self, redis_host='localhost', redis_port=6379):
        self.redis = redis.StrictRedis(
            host=redis_host, port=redis_port, decode_responses=True)
        self.proxy_key = "google_images:proxies"
    
    def add_proxy(self, proxy):
        """添加代理到池"""
        self.redis.sadd(self.proxy_key, proxy)
    
    def get_random_proxy(self):
        """随机获取一个代理"""
        return self.redis.srandmember(self.proxy_key)
    
    def remove_proxy(self, proxy):
        """移除失效代理"""
        self.redis.srem(self.proxy_key, proxy)
    
    def get_all_proxies(self):
        """获取所有代理"""
        return self.redis.smembers(self.proxy_key)
    
    def check_proxy_health(self, proxy, test_url="https://www.google.com"):
        """检查代理可用性"""
        import requests
        proxies = {
            "http": proxy,
            "https": proxy
        }
        try:
            response = requests.get(
                test_url,
                proxies=proxies,
                timeout=10
            )
            return response.status_code == 200
        except:
            return False
    
    def health_check_all(self):
        """健康检查所有代理"""
        all_proxies = self.get_all_proxies()
        for proxy in all_proxies:
            if not self.check_proxy_health(proxy):
                self.remove_proxy(proxy)
                self.logger.warning(f"Removed bad proxy: {proxy}")

6. 性能优化技巧

6.1 并发控制

python

from ratelimit import limits, sleep_and_retry

class OptimizedCrawler(AsyncGoogleImagesCrawler):
    def __init__(self, *args, max_concurrent=10, **kwargs):
        super().__init__(*args, **kwargs)
        self.semaphore = asyncio.Semaphore(max_concurrent)
    
    @sleep_and_retry
    @limits(calls=20, period=60)  # 每分钟最多20次请求
    async def limited_download(self, img_url, img_name, save_dir=None):
        """带速率限制的下载"""
        async with self.semaphore:
            return await self.download_image_async(img_url, img_name, save_dir)
    
    async def crawl_optimized(self):
        """优化后的爬取流程"""
        await self.init_session()
        all_image_data = []
        
        try:
            for keyword in self.keywords:
                try:
                    # 同步操作使用线程池执行
                    with ThreadPoolExecutor(max_workers=1) as executor:
                        loop = asyncio.get_event_loop()
                        await loop.run_in_executor(
                            executor,
                            self.search_keyword,
                            keyword
                        )
                        await loop.run_in_executor(
                            executor,
                            self.scroll_to_bottom
                        )
                        image_data = await loop.run_in_executor(
                            executor,
                            self.extract_image_data
                        )
                    
                    # 分批处理图片下载
                    batch_size = 10
                    for i in range(0, len(image_data), batch_size):
                        batch = image_data[i:i+batch_size]
                        
                        # 异步下载当前批次的图片
                        download_tasks = []
                        for idx, img_info in enumerate(batch, start=i):
                            img_name = f"{keyword.replace(' ', '_')}_{idx}"
                            task = asyncio.create_task(
                                self.limited_download(img_info["url"], img_name)
                            )
                            download_tasks.append((img_info, task))
                        
                        # 等待当前批次完成
                        for img_info, task in download_tasks:
                            try:
                                img_path = await task
                                if img_path:
                                    img_info["local_path"] = img_path
                                    all_image_data.append(img_info)
                            except Exception as e:
                                self.logger.error(f"Download failed: {str(e)}")
                        
                        # 批次间延迟
                        await asyncio.sleep(random.uniform(5, 10))
                
                except Exception as e:
                    self.logger.error(f"Error crawling keyword {keyword}: {str(e)}")
                    continue
        finally:
            await self.session.close()
        
        return all_image_data

6.2 缓存机制

python

from diskcache import Cache

class CachedCrawler(OptimizedCrawler):
    def __init__(self, *args, cache_dir=".cache", **kwargs):
        super().__init__(*args, **kwargs)
        self.cache = Cache(cache_dir)
    
    async def cached_search(self, keyword):
        """带缓存的搜索"""
        cache_key = f"search:{keyword}"
        
        if cache_key in self.cache:
            self.logger.info(f"Using cached result for: {keyword}")
            return self.cache[cache_key]
        
        # 执行实际搜索
        with ThreadPoolExecutor(max_workers=1) as executor:
            loop = asyncio.get_event_loop()
            await loop.run_in_executor(
                executor,
                self.search_keyword,
                keyword
            )
            await loop.run_in_executor(
                executor,
                self.scroll_to_bottom
            )
            image_data = await loop.run_in_executor(
                executor,
                self.extract_image_data
            )
        
        # 缓存结果（1小时过期）
        self.cache.set(cache_key, image_data, expire=3600)
        return image_data
    
    async def crawl_cached(self):
        """使用缓存的爬取流程"""
        await self.init_session()
        all_image_data = []
        
        try:
            for keyword in self.keywords:
                try:
                    image_data = await self.cached_search(keyword)
                    
                    # 下载图片（带缓存检查）
                    download_tasks = []
                    for idx, img_info in enumerate(image_data):
                        img_name = f"{keyword.replace(' ', '_')}_{idx}"
                        save_path = os.path.join(self.output_dir, f"{img_name}.jpg")
                        
                        # 如果本地已存在，跳过下载
                        if os.path.exists(save_path):
                            img_info["local_path"] = save_path
                            all_image_data.append(img_info)
                            continue
                        
                        # 否则创建下载任务
                        task = asyncio.create_task(
                            self.limited_download(img_info["url"], img_name)
                        )
                        download_tasks.append((img_info, task))
                    
                    # 等待下载完成
                    for img_info, task in download_tasks:
                        try:
                            img_path = await task
                            if img_path:
                                img_info["local_path"] = img_path
                                all_image_data.append(img_info)
                        except Exception as e:
                            self.logger.error(f"Download failed: {str(e)}")
                
                except Exception as e:
                    self.logger.error(f"Error crawling keyword {keyword}: {str(e)}")
                    continue
        finally:
            await self.session.close()
            self.cache.close()
        
        return all_image_data

7. 数据处理与存储

7.1 MongoDB存储

python

from pymongo import MongoClient
from datetime import datetime

class MongoStorage:
    def __init__(self, mongo_uri="mongodb://localhost:27017", db_name="google_images"):
        self.client = MongoClient(mongo_uri)
        self.db = self.client[db_name]
        self.collection = self.db["images"]
    
    def save_image_metadata(self, metadata):
        """保存图片元数据"""
        # 添加时间戳
        metadata["created_at"] = datetime.utcnow()
        metadata["updated_at"] = datetime.utcnow()
        
        # 检查是否已存在
        existing = self.collection.find_one({"url": metadata["url"]})
        if existing:
            # 更新现有记录
            self.collection.update_one(
                {"_id": existing["_id"]},
                {"$set": metadata}
            )
            return existing["_id"]
        else:
            # 插入新记录
            result = self.collection.insert_one(metadata)
            return result.inserted_id
    
    def get_images_by_keyword(self, keyword, limit=100):
        """按关键词查询图片"""
        return list(self.collection.find(
            {"keyword": keyword},
            limit=limit
        ).sort("created_at", -1))
    
    def count_images(self, keyword=None):
        """统计图片数量"""
        query = {}
        if keyword:
            query["keyword"] = keyword
        return self.collection.count_documents(query)
    
    def close(self):
        """关闭连接"""
        self.client.close()

# 集成到爬虫中
class StorageEnabledCrawler(CachedCrawler):
    def __init__(self, *args, mongo_uri=None, **kwargs):
        super().__init__(*args, **kwargs)
        self.storage = MongoStorage(mongo_uri) if mongo_uri else None
    
    async def crawl_with_storage(self):
        """带存储的爬取流程"""
        image_data = await self.crawl_cached()
        
        if self.storage:
            saved_ids = []
            for img_info in image_data:
                try:
                    doc_id = self.storage.save_image_metadata(img_info)
                    saved_ids.append(doc_id)
                except Exception as e:
                    self.logger.error(f"Failed to save metadata: {str(e)}")
            
            self.logger.info(f"Saved {len(saved_ids)} records to MongoDB")
        
        return image_data
    
    def __del__(self):
        """析构函数"""
        super().__del__()
        if hasattr(self, 'storage') and self.storage:
            self.storage.close()

7.2 图片处理与去重

python

import hashlib
from PIL import Image

class ImageProcessor:
    @staticmethod
    def calculate_image_hash(image_path, hash_size=16):
        """计算图片感知哈希"""
        try:
            img = Image.open(image_path)
            
            # 转换为灰度并缩小尺寸
            img = img.convert("L").resize(
                (hash_size, hash_size), 
                Image.Resampling.LANCZOS
            )
            
            # 计算平均像素值
            pixels = list(img.getdata())
            avg = sum(pixels) / len(pixels)
            
            # 生成哈希
            bits = "".join(['1' if pixel > avg else '0' for pixel in pixels])
            hex_hash = "{0:0{1}x}".format(int(bits, 2), len(bits) // 4)
            
            return hex_hash
        except Exception as e:
            print(f"Error calculating hash: {str(e)}")
            return None
    
    @staticmethod
    def find_duplicates(image_dir, threshold=5):
        """查找重复图片"""
        hashes = {}
        duplicates = []
        
        for root, _, files in os.walk(image_dir):
            for filename in files:
                if filename.lower().endswith(('.png', '.jpg', '.jpeg')):
                    path = os.path.join(root, filename)
                    img_hash = ImageProcessor.calculate_image_hash(path)
                    
                    if img_hash:
                        # 检查是否有相似哈希
                        found_duplicate = False
                        for existing_hash, existing_files in hashes.items():
                            # 计算汉明距离
                            distance = bin(int(img_hash, 16) ^ int(existing_hash, 16)).count('1')
                            
                            if distance <= threshold:
                                existing_files.append(path)
                                duplicates.append(existing_files)
                                found_duplicate = True
                                break
                        
                        if not found_duplicate:
                            hashes[img_hash] = [path]
        
        return duplicates
    
    @staticmethod
    def optimize_image(image_path, quality=85, max_size=(1920, 1080)):
        """优化图片大小和质量"""
        try:
            img = Image.open(image_path)
            
            # 调整尺寸
            img.thumbnail(max_size, Image.Resampling.LANCZOS)
            
            # 保存优化后的图片
            if image_path.lower().endswith('.jpg') or image_path.lower().endswith('.jpeg'):
                img.save(image_path, "JPEG", quality=quality, optimize=True)
            elif image_path.lower().endswith('.png'):
                img.save(image_path, "PNG", optimize=True)
            
            return True
        except Exception as e:
            print(f"Error optimizing image: {str(e)}")
            return False

8. 部署与调度

8.1 分布式爬虫架构

python

import json
from rq import Queue
from redis import Redis

class DistributedCrawler:
    def __init__(self, redis_host='localhost', redis_port=6379):
        self.redis = Redis(host=redis_host, port=redis_port)
        self.task_queue = Queue('google_images', connection=self.redis)
    
    def enqueue_crawl_task(self, keywords, max_images=100):
        """将爬取任务加入队列"""
        task_data = {
            "keywords": keywords,
            "max_images": max_images,
            "created_at": time.time()
        }
        self.task_queue.enqueue(
            self._execute_crawl_task,
            json.dumps(task_data),
            result_ttl=86400  # 结果保留24小时
        )
    
    @staticmethod
    def _execute_crawl_task(task_json):
        """实际执行爬取任务"""
        task_data = json.loads(task_json)
        
        # 初始化爬虫
        crawler = AsyncGoogleImagesCrawler(
            keywords=task_data["keywords"],
            max_images=task_data["max_images"],
            headless=True
        )
        
        # 执行爬取
        loop = asyncio.get_event_loop()
        image_data = loop.run_until_complete(crawler.crawl_async())
        
        return {
            "status": "completed",
            "image_count": len(image_data),
            "keywords": task_data["keywords"],
            "completed_at": time.time()
        }
    
    def monitor_queue(self):
        """监控任务队列状态"""
        while True:
            print(f"Queue status: {len(self.task_queue)} jobs pending")
            time.sleep(10)

# Worker实现
def run_worker():
    """启动RQ worker"""
    from rq import Worker
    redis_conn = Redis()
    worker = Worker(['google_images'], connection=redis_conn)
    worker.work()

8.2 定时调度

python

from apscheduler.schedulers.background import BackgroundScheduler

class ScheduledCrawler:
    def __init__(self):
        self.scheduler = BackgroundScheduler()
        self.distributed_crawler = DistributedCrawler()
    
    def add_daily_job(self, keywords, hour=3, minute=0):
        """添加每日任务"""
        self.scheduler.add_job(
            self.distributed_crawler.enqueue_crawl_task,
            'cron',
            hour=hour,
            minute=minute,
            args=[keywords]
        )
    
    def start(self):
        """启动调度器"""
        self.scheduler.start()
        try:
            while True:
                time.sleep(1)
        except (KeyboardInterrupt, SystemExit):
            self.scheduler.shutdown()

# 使用示例
if __name__ == "__main__":
    keywords_groups = [
        ["mountain landscape", "forest"],
        ["beach sunset", "ocean waves"],
        ["city skyline", "urban architecture"]
    ]
    
    scheduler = ScheduledCrawler()
    
    # 为每组关键词设置不同的执行时间
    for idx, keywords in enumerate(keywords_groups):
        hour = 3 + (idx * 2)  # 3am, 5am, 7am
        scheduler.add_daily_job(keywords, hour=hour)
    
    scheduler.start()

你可能感兴趣的:(python,分布式,架构,开发语言,爬虫,fastapi)

python 读excel每行替换_Python脚本操作Excel实现批量替换功能 weixin_39646695 python 读excel每行替换
Python脚本操作Excel实现批量替换功能大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理excel，其实针对的就是WorkBook，Sheet，Cell这三个最根本的元素~明确需求原始excel如下我们的目标是把下面excel工作表的sheet1表页A列的内容“替换我吧”批量替换为B列的“我用来替换的
x86-64汇编语言训练程序与实战十除以十等于一
本文还有配套的精品资源，点击获取简介：汇编语言是一种低级语言，与机器代码紧密相关，特别适用于编写系统级代码及性能要求高的应用。nasm编译器是针对x86和x86-64架构的汇编语言编译器，支持多种语法风格和指令集。项目Euler提供数学和计算机科学问题，鼓励编程技巧应用，前100个问题的答案可共享。x86-64架构扩展了寄存器数量并引入新指令，提升了数据处理效率。学习汇编语言能够深入理解计算机底层
（二）SAP Group Reporting (GR) 核心子模块功能及数据流向架构解析
数据如何从子公司流转到合并报表的全过程，即数据采集→合并引擎→报表输出，特别是HANA内存计算如何优化传统ETL瓶颈。SAPGroupReporting(GR)核心模块功能及数据流向的架构解析，涵盖核心组件、数据处理流程和关键集成点，适用于S/4HANA1809+版本：一、核心功能模块概览模块功能关键事务码/FioriApp数据采集(DataCollection)整合子公司财务数据（SAP/非SA
Git 与 GitHub 的对比与使用指南一念& 其它 git github
Git与GitHub的对比与使用指南在软件开发中，Git和GitHub是两个密切相关但本质不同的工具。下面我将逐步解释它们的定义、区别、核心概念以及如何协同使用，确保内容真实可靠，基于广泛的技术实践。1.什么是Git？Git是一个分布式版本控制系统，由LinusTorvalds于2005年创建。它的核心功能是跟踪代码文件的变化，帮助开发者管理项目历史记录、协作和回滚错误。Git是开源的，可以在本地
深入解析JVM工作原理：从字节码到机器指令的全过程
一、JVM概述Java虚拟机(JVM)是Java平台的核心组件，它实现了Java"一次编写，到处运行"的理念。JVM是一个抽象的计算机器，它有自己的指令集和运行时内存管理机制。JVM的主要职责：加载：读取.class文件并验证其正确性存储：管理内存分配和垃圾回收执行：解释或编译字节码为机器指令安全：提供沙箱环境限制恶意代码二、JVM架构详解JVM由三个主要子系统组成：1.类加载子系统类加载过程分为
ARM 和 AMD 架构的区别 m0_69576880 arm开发 windows 架构
ARM架构和AMD架构是两种不同的计算机处理器架构，它们有以下几个主要区别：设计出发点、兼容性、性能特点、市场定价。设计出发点：①ARM构架：ARM架构最初是为嵌入式系统设计的，旨在提供低功耗和高效能的解决方案。它主要应用于移动设备、嵌入式系统和物联网设备②AMD架构：AMD架构是基于x86架构的扩展，旨在提供与Intel架构兼容的处理器。它主要用于台式机、服务器和工作站等计算机系统。兼容性：AR
JVM 内存模型深度解析：原子性、可见性与有序性的实现练习时长两年半的程序员小胡 JVM 深度剖析：从面试考点到生产实践 jvm java 内存模型
在了解了JVM的基础架构和类加载机制后，我们需要进一步探索Java程序在多线程环境下的内存交互规则。JVM内存模型（JavaMemoryModel，JMM）定义了线程和主内存之间的抽象关系，它通过规范共享变量的访问方式，解决了多线程并发时的数据一致性问题。本文将从内存模型的核心目标出发，详解原子性、可见性、有序性的实现机制，以及volatile、synchronized等关键字在其中的作用。一、J
企业级区块链平台Hyperchain核心原理剖析 boyedu 区块链区块链企业级区块链平台 Hyperchain
Hyperchain作为国产自主可控的企业级联盟区块链平台，其核心原理围绕高性能共识、隐私保护、智能合约引擎及可扩展架构展开，通过多模块协同实现企业级区块链网络的高效部署与安全运行。以下从核心架构、关键技术、性能优化、安全机制、应用场景五个维度展开剖析：一、核心架构：分层解耦与模块化设计Hyperchain采用分层架构，将区块链功能解耦为独立模块，支持灵活组合与扩展：P2P网络层由验证节点（VP）
车载刷写架构 --- 整车刷写中为何增加了ECU 队列刷写策略？汽车电子实验室电子电器架构——刷写方案车载电子电气架构架构开发语言车载诊断进阶篇汽车中央控制单元HPC软件架构关于网关转发性能引起的思考
我是穿拖鞋的汉子，魔都中坚持长期主义的汽车电子工程师。老规矩，分享一段喜欢的文字，避免自己成为高知识低文化的工程师：周末洗了一个澡，换了一身衣服，出了门却不知道去哪儿，不知道去找谁，漫无目的走着，大概这就是成年人最深的孤独吧!旧人不知我近况，新人不知我过往，近况不该旧人知，过往不与新人讲。纵你阅人何其多，再无一人恰似我。时间不知不觉中，来到新的一年。2025开始新的忙碌。成年人的我也不知道去哪里渡
车载诊断架构 ---面向售后的DTC应该怎么样填写？汽车电子实验室车载电子电气架构漫谈UDS诊断协议系列 EV（电动汽车）常规知识必备架构面向售后的DTC 车载诊断架构 OEM怎么掌握软件开发能力车载通信网络槪述 android ZEVonUDS-J1979
我是穿拖鞋的汉子，魔都中坚持长期主义的汽车电子工程师。老规矩，分享一段喜欢的文字，避免自己成为高知识低文化的工程师：简单，单纯，喜欢独处，独来独往，不易合同频过着接地气的生活，除了生存温饱问题之外，没有什么过多的欲望，表面看起来很高冷，内心热情，如果你身边有这样灵性的人，一定要好好珍惜他们眼中有神有光，干净，给人感觉很舒服，有超强的感知能力有形的无形的感知力很强，能感知人的内心变化喜欢独处，好静，
车载诊断架构 --- 关于诊断时间参数P4的浅析汽车电子实验室车载电子电气架构漫谈UDS诊断协议系列架构开发语言关于网关转发性能引起的思考汽车中央控制单元HPC软件架构车载诊断进阶篇
关于诊断时间参数P4的浅析我是穿拖鞋的汉子，魔都中坚持长期主义的汽车电子工程师。老规矩，分享一段喜欢的文字，避免自己成为高知识低文化的工程师：所谓鸡汤，要么蛊惑你认命，要么怂恿你拼命，但都是回避问题的根源，以现象替代逻辑，以情绪代替思考，把消极接受现实的懦弱，伪装成乐观面对不幸的豁达，往不幸上面喷“香水”来掩盖问题。无人问津也好,技不如人也罢,你都要试着安静下来,去做自己该做的事.而不是让内心的烦
车载刷写架构 --- 刷写思考扩展汽车电子实验室电子电器架构——刷写方案架构开发语言关于网关转发性能引起的思考汽车中央控制单元HPC软件架构车载诊断进阶篇
我是穿拖鞋的汉子，魔都中坚持长期主义的汽车电子工程师。老规矩，分享一段喜欢的文字，避免自己成为高知识低文化的工程师：做到欲望极简，了解自己的真实欲望，不受外在潮流的影响，不盲从，不跟风。把自己的精力全部用在自己。一是去掉多余，凡事找规律，基础是诚信；二是系统思考、大胆设计、小心求证；三是“一张纸制度”，也就是无论多么复杂的工作内容，要在一张纸上描述清楚；四是要坚决反对虎头蛇尾，反对繁文缛节，反对老
通义万相2.2：开启高清视频生成新纪元 Liudef06小白特殊专栏 AIGC 人工智能人工智能通义万相2.2 图生视频
通义万相2.2：开启高清视频生成新纪元2025年7月28日，中国AI领域迎来里程碑时刻——通义万相团队正式开源其革命性视频生成模型Wan2.2的核心权重，这标志着开源社区首次获得支持720P高清视频生成的先进模型架构。一、架构革新：混合专家系统1.1MoE视频扩散架构通义万相2.2首次将混合专家（MoE）架构引入视频扩散模型，通过双专家系统实现计算效率与模型容量的平衡：classMoEVideoD
最新阿里四面面试真题46道：面试技巧+核心问题+面试心得风平浪静如码
前言做技术的有一种资历，叫做通过了阿里的面试。这些阿里Java相关问题，都是之前通过不断优秀人才的铺垫总结的，先自己弄懂了再去阿里面试，不然就是去丢脸，被虐。希望对大家帮助，祝面试成功，有个更好的职业规划。一，阿里常见技术面1、微信红包怎么实现。2、海量数据分析。3、测试职位问的线程安全和非线程安全。4、HTTP2.0、thrift。5、面试电话沟通可能先让自我介绍。6、分布式事务一致性。7、ni
编程算法：技术创新的引擎与业务增长的核心驱动力
在数字经济时代，算法已成为推动技术创新与业务增长的隐形引擎。从存内计算突破冯·诺依曼瓶颈，到动态规划优化万亿级金融交易，编程算法正在重塑产业竞争格局。一、存内计算：突破冯·诺依曼瓶颈的算法革命1.1存内计算的基本原理传统计算架构中90%的能耗消耗在数据搬运上。存内计算（Processing-in-Memory）通过直接在存储单元执行计算，实现能效10-100倍提升：#传统计算vs存内计算能耗模型i
基于redis的Zset实现作者的轻量级排名周童學 Java redis 数据库缓存
基于redis的Zset实现轻量级作者排名系统在今天的技术架构中，Redis是一种广泛使用的内存数据存储系统，尤其在需要高效检索和排序的场景中表现优异。在本篇博客中，我们将深入探讨如何使用Redis的有序集合（ZSet）构建一个高效的笔记排行榜系统，并提供相关代码示例和详细的解析。1.功能背景与需求假设我们有一个笔记分享平台，用户可以发布各种笔记，系统需要根据用户发布的笔记数量来生成一个实时更新的
【项目实战】容错机制与故障恢复：保障系统连续性的核心体系本本本添哥 004 -研效与DevOps运维工具链 002 -进阶开发能力分布式
在分布式系统中，硬件故障、网络波动、软件异常等问题难以避免。容错机制与故障恢复的核心目标是：通过主动检测故障、自动隔离风险、快速转移负载、重建数据一致性，最大限度减少故障对业务的影响，保障系统“持续可用”与“数据不丢失”。以下从核心机制、实现方式、典型案例等维度展开说明。一、故障检测：及时发现异常节点故障检测是容错的第一步，需通过多维度手段实时感知系统组件状态，确保故障被快速识别。1.健康检查与心
Redis + Caffeine 实现高效的两级缓存架构周童學 Java 缓存 redis 架构
Redis+Caffeine实现高效的两级缓存架构引言在现代高并发系统中，缓存是提升系统性能的关键组件之一。传统的单一缓存方案往往难以同时满足高性能和高可用性的需求。本文将介绍如何结合Redis和Caffeine构建一个高效的两级缓存系统，并通过三个版本的演进展示如何逐步优化代码结构。项目源代码：github地址、gitee地址两级缓存架构概述两级缓存通常由本地缓存（如Caffeine）和分布式缓
严重的DDoS 攻击澳大利亚主要宽带提供商 Fancy1816575412
本周早些时候，澳大利亚最大的固定无线宽带运营商CirrusCommunications遭受了一次重大的DDoS攻击，导致其一半以上的网络瘫痪。该公司在其网站上声称：“强大的架构、数百个传输站点以及光纤和微波回程的使用使其能够以非常高的正常运行时间提供高速”。CirrusCommunications表示，它覆盖了澳大利亚十大人口中心以及几个主要的区域中心，主要为企业和政府客户提供服务。然而，据The
python笔记14介绍几个魔法方法抢公主的大魔王 python python
python笔记14介绍几个魔法方法先声明一下各位大佬，这是我的笔记。如有错误，恳请指正。另外，感谢您的观看，谢谢啦！(1).__doc__输出对应的函数，类的说明文档print(print.__doc__)print(value,...,sep='',end='\n',file=sys.stdout,flush=False)Printsthevaluestoastream,ortosys.std
深入理解 Tomcat Wrapper 原理北漂老男人 Tomcat tomcat java
深入理解TomcatWrapper原理一、引言在Tomcat的分层容器架构中，Wrapper作为最底层的容器，专门负责管理单个Servlet的生命周期及请求分发。每一个Servlet（包括JSP、Filter等）都对应一个Wrapper。Wrapper是Servlet规范与Tomcat容器实现之间的桥梁，直接关系到请求的分发效率、Servlet的加载与重用、安全隔离等。本文将系统剖析Wrapper
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
环境搭建 | Python + Anaconda / Miniconda + PyCharm 的安装、配置与使用
本文将分别介绍Python、Anaconda/Miniconda、PyCharm的安装、配置与使用，详细介绍Python环境搭建的全过程，涵盖Python、Pip、PythonLauncher、Anaconda、Miniconda、Pycharm等内容，以官方文档为参照，使用经验为补充，内容全面而详实。由于图片太多，就先贴一个无图简化版吧，详情请查看Python+Anaconda/Minicond
你竟然还在用克隆删除？Conda最新版rename命令全攻略！曦紫沐 Python基础知识 conda 虚拟环境管理
文章摘要Conda虚拟环境管理终于迎来革命性升级！本文揭秘Conda4.9+版本新增的rename黑科技，彻底告别传统“克隆+删除”的繁琐操作。从命令解析到实战案例，手把手教你如何安全高效地重命名Python虚拟环境，附带版本检测、环境迁移、故障排查等进阶技巧，助你提升开发效率10倍！一、颠覆认知：Conda居然自带重命名功能？很多开发者仍停留在“Conda无法直接重命名环境”的认知阶段，实际上自
centos7安装配置 Anaconda3
Anaconda是一个用于科学计算的Python发行版,Anaconda于Python，相当于centos于linux。下载[root@testsrc]#mwgethttps://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.2.0-Linux-x86_64.shBegintodownload:Anaconda3-5.2.0-L
Pandas：数据科学的超级瑞士军刀科技林总 DeepSeek学AI 人工智能
**——从零基础到高效分析的进化指南**###**一、Pandas诞生：数据革命的救世主****2010年前的数据分析噩梦**：```python#传统Python处理表格数据data=[]forrowincsv_file:ifrow[3]>100androw[2]=="China":data.append(float(row[5])#代码冗长易错！```**核心痛点**：-Excel处理百万行崩
分布式链路追踪系统架构设计：从理论到企业级实践 ma451152002 java 分布式系统架构
分布式链路追踪系统架构设计：从理论到企业级实践本文深入探讨分布式链路追踪系统的架构设计原理、关键技术实现和企业级应用实践，为P7架构师提供完整的技术方案参考。目录引言：分布式链路追踪的重要性核心概念与技术原理系统架构设计数据模型与协议标准核心组件架构设计性能优化与扩展性设计企业级实施策略技术选型与对比分析监控与运维体系未来发展趋势P7架构师面试要点引言：分布式链路追踪的重要性微服务架构下的挑战在现
面试必考题：Android Binder 机制详解大模型大数据攻城狮 android binder 面试 react native kotlin dalvik retrofit
目录第一章：Binder的基本概念什么是Binder？多角度解读Binder第二章：Binder的工作机制Binder的整体流程服务注册：从零到有的第一步服务查询：找到目标的“地图”服务调用：请求与响应的旅程Binder驱动的幕后功劳为什么Binder这么快？第三章：Binder在系统架构中的角色Activity：界面背后的通信枢纽Binder的角色实例分析Service：后台任务的跨进程支柱Bi
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践 Liudef06小白特殊专栏人工智能 AIGC 架构人工智能 deepseek
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践DeepSeek大模型正重塑游戏开发范式，本文将深入解析如何利用这一革命性技术构建下一代大型游戏，涵盖从架构设计到项目管理的全流程实践。目录DeepSeek游戏引擎核心架构1.1神经符号系统融合架构1.2动态世界生成引擎智能NPC与剧情系统2.1角色人格建模技术2.2动态叙事生成算法大型项目管理体系3.1敏捷-AI混合开发流
魔搭平台实战：手把手教你训练SDXL模型，解锁AI绘画新纪元 Liudef06小白特殊专栏 AIGC 人工智能 AI作画人工智能 AIGC
魔搭平台实战：手把手教你训练SDXL模型，解锁AI绘画新纪元随着多模态AI技术的爆发式发展，StableDiffusionXL（SDXL）等文生图模型正在彻底重塑创意产业工作流。本文将深入解析如何在魔搭平台高效训练SDXL模型，并探讨AI绘画技术对设计行业的革命性影响。一、SDXL模型架构解析1.1双文本编码器设计SDXL采用双文本编码器架构，显著提升提示词理解能力：#SDXL文本编码器结构示意c
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts