firecrawl本地docker部署(WSL虚拟机Ubuntu24)

firecrawl本地docker部署

下载源码

github下载地址

部署

按照firecrawl目录下SELF_HOST.md文档进行操作即可。
本次生成的镜像在后面提供了百度网盘下载。

  1. 创建.env文件
    将firecrawl\apps\api.env.example文件拷贝到firecrawl目录下(和docker-compose.yaml同一目录下),修改文件名为.env
# ===== Required ENVS ======
NUM_WORKERS_PER_QUEUE=8
PORT=3002
HOST=0.0.0.0
REDIS_URL=redis://redis:6379 # redis服务,可以自行调整
REDIS_RATE_LIMIT_URL=redis://redis:6379 # redis服务
PLAYWRIGHT_MICROSERVICE_URL=http://playwright-service:3000/html

## To turn on DB authentication, you need to set up supabase.
USE_DB_AUTHENTICATION=false # 这里修改为false

2.docker-compose.yaml调整
这里的redis我用了本地的valkey8,用默认的就不用调整docker-compose文件了
firecrawl本地docker部署(WSL虚拟机Ubuntu24)_第1张图片
3.构建镜像及运行

# 拿现成镜像就不需要构建这一步了,构建的时间有点久
# 这一步最好是科学上网
#dokcer-compose build
# 启动服务
docker-compose up -d

4.构建报错记录:下载超时,增加代理配置
firecrawl\apps\api\Dockerfile文件
firecrawl本地docker部署(WSL虚拟机Ubuntu24)_第2张图片
5.全部正常启动并正常访问

  • 测试是否正常启动:http://localhost:3002/test
    firecrawl本地docker部署(WSL虚拟机Ubuntu24)_第3张图片
  • 查看任务队列: http://localhost:3002/admin/@/queues

api使用

api使用可以参考firecrawl目录下的README.md文档

  • localhost:3002/v1/crawl
    抓取网页的所有URL并以适合大语言模型的格式返回内容。用于爬取一个 URL 及其所有可访问的子页面。

    {
       	"url": "https://blog.csdn.net/u010734213"
    }
    

    firecrawl本地docker部署(WSL虚拟机Ubuntu24)_第4张图片
    id是上一步返回的任务idfirecrawl本地docker部署(WSL虚拟机Ubuntu24)_第5张图片

  • localhost:3002/v1/scrape
    用于抓取一个 URL 并以指定格式获取其内容,支持提取HTML、Markdown 等格式。 (markdown、html、rawHtml、links、screenshot、screenshot@fullPage、extract、json、changeTracking) firecrawl本地docker部署(WSL虚拟机Ubuntu24)_第6张图片
    firecrawl本地docker部署(WSL虚拟机Ubuntu24)_第7张图片

  • localhost:3002/v1/map
    站点地图,获取该网站的所有URL,速度极快。
    firecrawl本地docker部署(WSL虚拟机Ubuntu24)_第8张图片
    具体的就看文档研究吧。哈哈~~~

本次部署生成的镜像

本地部署所下载的源码及生成的镜像

你可能感兴趣的:(firecrawl本地docker部署(WSL虚拟机Ubuntu24))