638 từ
3 phút đọc
Firecrawl MCP Server: Web Scraping & Search Cho AI Coding Agent

AI agent có thể code hoàn hảo nhưng không đọc được trang web — như đầu bếp nấu giỏi nhưng không order được nguyên liệu. Firecrawl MCP Server giải quyết vấn đề này: nó cho AI agent khả năng scrape, search, và xử lý bất kỳ website nào thành dữ liệu có cấu trúc.

Với 110K+ GitHub stars, Firecrawl là một trong những MCP server được triển khai rộng rãi nhất trong production. Nó chạy cho mọi thứ từ documentation scraper tự động đến competitive research agent.


Firecrawl MCP Là Gì?#

Firecrawl là nền tảng web scraping mã nguồn mở dành riêng cho AI/LLM consumption. MCP server của nó expose 13+ tools cho phép bất kỳ MCP-compatible AI client nào:

  • Scrape URL thành markdown sạch (bỏ quảng cáo, nav, clutter)
  • Search web với full page content
  • Crawl toàn bộ website theo link structure
  • Map architecture của website (khám phá tất cả paths)
  • Deep research với autonomous agent tổng hợp nhiều nguồn
  • Tương tác trang — click buttons, điền form, điều hướng

Cài Đặt#

Bước 1: Lấy API Key#

  1. Đăng ký tại firecrawl.dev
  2. Lấy API key từ dashboard: https://www.firecrawl.dev/app/api-keys

Firecrawl có free tier (500 pages/tháng) — đủ cho personal use.

Bước 2: Cài đặt#

Claude Code (npx):

Terminal window
claude mcp add firecrawl \
--env FIRECRAWL_API_KEY=fc-YOUR_API_KEY \
-- npx -y firecrawl-mcp

Remote URL (đơn giản nhất — không cần local process):

Terminal window
claude mcp add firecrawl \
--transport http \
firecrawl https://mcp.firecrawl.dev/YOUR_API_KEY/v2/mcp

Cursor (.cursor/mcp.json):

{
"mcpServers": {
"firecrawl-mcp": {
"command": "npx",
"args": ["-y", "firecrawl-mcp"],
"env": {
"FIRECRAWL_API_KEY": "fc-YOUR_API_KEY"
}
}
}
}

Bước 3: Verify#

Terminal window
# Trong Claude Code
claude "Scrape https://example.com và tóm tắt"
# Hoặc search
claude "Search thông tin về Flutter 4.0 mới nhất"

13+ Tools#

ToolChức năngUse Case
firecrawl_scrapeScrape URL thành markdownTra cứu docs nhanh
firecrawl_batch_scrapeScrape nhiều URL cùng lúcResearch nhiều trang
firecrawl_crawlCrawl toàn bộ websiteDocumentation sites
firecrawl_searchWeb search với full contentTìm thông tin mới
firecrawl_mapKhám phá tất cả URLs trên siteSite architecture
firecrawl_deep_researchResearch đa nguồn tự độngCompetitive analysis
firecrawl_extractTrích xuất dữ liệu có cấu trúcBảng giá, thông số
firecrawl_clickClick elementsLogin flows
firecrawl_screenshotChụp screenshotXác minh trực quan
firecrawl_sessionQuản lý browser sessionsPersistent auth

Workflows Thực Tế#

Workflow 1: Documentation Scraper#

Terminal window
$ claude "Tôi cần dùng Stripe Checkout API.
Scrape docs và tạo usage example."
Agent:
1. Scrape docs.stripe.com/api/checkout/sessions
2. Scrape docs.stripe.com/payments/checkout
3. Tổng hợp: "Cách dùng Stripe Checkout:
- Tạo session qua /v1/checkout/sessions
- Required params: line_items, mode, success_url, cancel_url
- Ví dụ code Node.js: ..."

Workflow 2: Competitive Research#

Terminal window
$ claude "Research 3 alternatives cho Vercel để host Next.js."
Agent:
1. Search "Next.js hosting alternatives 2026"
2. Extract bảng giá từ top 5 kết quả
3. Deep research "So sánh Vercel vs Netlify vs Railway"
4. Build bảng so sánh:
| Platform | Price | Next.js | Edge | Speed |
| Vercel | $20/mo | Native | Yes | 5s |
| Netlify | $19/mo | Plugin | Yes | 8s |

Workflow 4: Build RAG Knowledge Base#

Terminal window
$ claude "Xây knowledge base từ docs Tailwind CSS."
Agent:
1. Map tailwindcss.com/docs phát hiện 200+ doc pages
2. Crawl scrape 200 pages thành markdown
3. Ghi mỗi page thành file riêng
4. Sẵn sàng cho vector embedding

Firecrawl vs. Các Cách Khác#

Phương phápProsCons
Firecrawl MCPLLM-ready, tương tác browser, deep researchCần API key, rate limits
Paste URL thủ côngFree, không setupChậm, ngắt flow
curl/wgetFree, scriptableRaw HTML, không LLM-optimized

Self-Hosting#

Firecrawl mã nguồn mở, có thể self-host qua Docker:

Terminal window
git clone https://github.com/firecrawl/firecrawl
cd firecrawl && docker compose up

Config MCP server trỏ tới self-hosted instance:

{
"mcpServers": {
"firecrawl-selfhosted": {
"command": "npx",
"args": ["-y", "firecrawl-mcp"],
"env": {
"FIRECRAWL_API_KEY": "fc-selfhosted-key",
"FIRECRAWL_BASE_URL": "http://localhost:3002"
}
}
}
}

Tổng Kết#

Firecrawl MCP là web-reader thiết yếu cho AI agents. Nó biến web từ “bạn phải copy-paste” thành “để tôi fetch và analyze cho bạn.”

Cài nó thứ hai — ngay sau GitHub MCP. Với cả hai, agent có thể đọc codebase (GitHub MCP) và cả internet (Firecrawl MCP). Mọi thứ khác là additive.

Bài tiếp theo: Context7 MCP — fix stale LLM training data bằng cách inject docs mới nhất.


Series: Practical MCP Servers for Developers — 2026 Edition. Day 2 of 6.

Advertisement

Firecrawl MCP Server: Web Scraping & Search Cho AI Coding Agent
https://minixium.com/vi/posts/firecrawl-mcp-web-scraping-search-ai-agents-guide-2026-vi/
Tác giả
Minixium
Đăng vào lúc
2026-05-04
Giấy phép bản quyền
CC BY-NC-SA 4.0

Advertisement