自主 AI 研究代理系统 - 架构与功能文档
v0.14.5GPT Researcher 是一个开源的自主 AI 研究代理,能够对任何给定主题进行全面的在线研究。 它通过并行搜索、智能抓取和多智能体协作,生成专业级的研究报告。
基于 LangGraph 框架的多智能体协调系统,通过专业分工和流水线协作生成高质量研究报告
Browser → Planner → [Human Feedback] → Researcher → Writer → Reviewer → Reviser → Publisher
│ │ │ │ │ │ │ │
│ │ │ │ │ │ │ └─ 格式化输出
│ │ │ │ │ │ └─ 修订改进
│ │ │ │ │ └─ 质量检查
│ │ │ │ └─ 内容撰写
│ │ │ └─ 深度研究
│ │ └─ 用户确认 (可选)
│ └─ 研究规划
└─ 初始搜索
免费搜索引擎,无需 API 密钥,隐私保护
免费AI 优化搜索 API,专为研究任务设计
付费完整网络索引,最全面的搜索覆盖
付费学术论文预印本,科研文献检索
免费医学生命科学文献数据库
免费AI 驱动的学术搜索引擎
免费| 抓取器 | 适用场景 | 特点 |
|---|---|---|
| BeautifulSoup | 静态 HTML 页面 | 轻量、快速、稳定 |
| Firecrawl | JavaScript 动态网站 | 云端渲染、高成功率 |
| Browser | 复杂交互页面 | Playwright/Selenium 自动化 |
| PyMuPDF | PDF 文档 | 精确文本提取 |
| arXiv | 学术论文 | 专用论文解析 |
deepseek-chat, deepseek-reasoner
当前配置GPT-4o, GPT-4-turbo, GPT-3.5
Claude 3.5 Sonnet, Claude 3 Opus
Gemini Pro, Gemini Ultra
本地部署开源模型
超快推理加速
用户输入想要研究的主题,例如:"2024年人工智能在医疗领域的最新应用"
选择报告类型(基础/详细/深度)、输出格式(MD/PDF/DOCX)、报告字数等
点击"开始研究",系统自动开始执行多轮搜索和信息收集
通过 WebSocket 实时接收研究进度更新,查看正在访问的网站和提取的信息
研究完成后,获得结构化的报告,包含摘要、详细分析、参考来源
基于研究结果进行追问,获取更详细的解释或探索相关子主题
| 方法 | 端点 | 描述 |
|---|---|---|
| GET | / |
提供 Web UI 前端页面 |
| GET | /health |
健康检查接口 |
| POST | /api/research |
启动新的研究任务 |
| GET | /api/status/{task_id} |
查询研究任务状态 |
| WS | /ws |
WebSocket 实时消息流 |
| POST | /api/chat |
基于研究结果的对话 |
| POST | /api/upload |
上传本地文档作为研究源 |
| POST | /api/export/{format} |
导出报告为指定格式 |
POST /api/research
Content-Type: application/json
{
"query": "人工智能在医疗诊断中的应用",
"report_type": "detailed_report",
"report_format": "markdown",
"tone": "objective",
"max_iterations": 5,
"source_urls": [] // 可选:指定特定来源
}
# LLM 配置 (当前使用 DeepSeek)
DEEPSEEK_API_KEY=sk-***
FAST_LLM=deepseek:deepseek-chat # 快速任务
SMART_LLM=deepseek:deepseek-chat # 智能任务
STRATEGIC_LLM=deepseek:deepseek-reasoner # 战略推理
# 检索配置
RETRIEVER=duckduckgo # 搜索引擎
MAX_SEARCH_RESULTS_PER_QUERY=5 # 每次搜索结果数
# 报告配置
TOTAL_WORDS=2000 # 报告字数
REPORT_FORMAT=markdown # 输出格式
| 文件 | 路径 | 说明 |
|---|---|---|
| 主 Agent | gpt_researcher/agent.py |
GPTResearcher 类定义 |
| 研究引擎 | gpt_researcher/skills/researcher.py |
核心研究逻辑 |
| 后端服务 | backend/server/app.py |
FastAPI 应用 |
| 多智能体编排 | multi_agents/agents/orchestrator.py |
LangGraph 协调 |
| 提示模板 | gpt_researcher/prompts.py |
所有提示词定义 |
| 项目入口 | main.py |
服务启动脚本 |
# 启动后端服务
cd /home/ccp/gpt-researcher
python main.py
# 服务运行在 http://0.0.0.0:8000
# 使用 PM2 管理
pm2 start "python main.py" --name gpt-researcher
# CLI 命令行使用
python cli.py "你的研究主题" --report_type detailed_report
# 多智能体模式
cd multi_agents && python main.py