BigSet – TinyFish 开源的多智能体实时网络抓取工具
BigSet:自然语言驱动的数据集自动化生成利器
在信息的时代,高效地获取和整理结构化数据成为一项关键挑战。美国初创公司 TinyFish 推出的 BigSet,一款遵循 AGPL-3.0 协议的开源多智能体系统,正以其创新的方式革新这一领域。它允许用户仅凭自然语言描述,便能自动生成可供导出的结构化数据集。
BigSet 究竟是什么?
BigSet 是由 TinyFish 公司精心打造的开源多智能体平台。其核心理念是将复杂的数据采集和处理过程简化到极致。用户只需用日常语言阐述想要的数据内容,BigSet 就能智能地推断出所需的表结构,并调度智能体们从互联网实时抓取信息。在这个过程中,系统会进行严格的去重和验证,最终输出为用户可直接使用的 CSV 或 XLSX 格式的结构化数据集。更令人惊喜的是,BigSet 支持 30 分钟至每周的定时刷新,确保数据集始终保持最新状态。
BigSet 的核心能力概览
- 直观的自然语言建表:告别繁琐的数据库设计,只需用一句话描述你的数据需求,AI 就能自动识别并生成列名、数据类型以及主键,省去人工设计的麻烦。
- 智能多智能体协同采集:系统内的编排器智能体负责精准定位目标实体,随后多个子智能体并行工作,每次最多调用 6 次工具,高效完成从数据发现到填充的整个流程。
- 精准去重与溯源机制:基于定义的主键进行自动去重,保证数据的唯一性。每一行数据都附带其原始来源的 URL,确保所有信息都可追溯和验证。
- 灵活的定时数据更新:提供 30 分钟、6 小时、12 小时、每日和每周五种频率的自动更新选项,让你的数据集紧跟实时变化。
- 便捷的数据格式导出:生成的结构化数据集支持 CSV 和 XLSX 两种流行格式,方便用户直接导入 Excel 或其他数据分析工具。
- 即时可用的预置数据集:内置 9 个精选的公开数据集,用户可以立即上手体验 BigSet 的强大功能。
BigSet 的技术基石
- 多智能体编排架构:BigSet 构建在 Mastra 框架之上,采用编排器与子智能体(Worker Agent)协同工作的模式。编排器负责任务分配和实体发现,子智能体则并行执行数据抓取,通过 Vercel AI SDK 和 OpenRouter 统一调度 Claude Sonnet 和 Qwen 等先进模型。
- 表结构自动推断引擎:当接收到用户输入的自然语言描述时,Claude Sonnet 模型会深入分析其语义意图,自动推断出列名、数据类型和主键等信息,无需用户预先定义 Schema。
- 高效数据采集与去重:编排器将复杂任务分解为的抓取任务,分派给子智能体并行处理。每个子智能体利用 TinyFish 提供的 Search、Fetch 和 Browser API 从网络实时抓取数据。系统在数据返回后,会根据主键进行自动去重,并为每条记录附加来源 URL,实现数据的可追溯性。
- 严密的安全防护:为有效抵御提示词注入攻击,数据集 ID 并非直接传递给 LLM,而是通过 JS 闭包在运行时动态注入。这种机制确保 LLM 无法直接访问或泄露数据集标识,实现了采集逻辑与数据权限的严格隔离。
如何快速上手 BigSet
- 环境准备:请确保您的系统已安装 Docker 和 Make。随后,前往 TinyFish、OpenRouter 和 Clerk 的官方网站注册账户并获取相应的 API 密钥。
- 克隆项目代码:在终端执行
git clone https://github.com/tinyfish-io/bigset.git命令下载项目。接着,将.env.example文件复制并重命名为.env。 - 配置 API 密钥:打开
.env文件,填入您获取的 TinyFish、OpenRouter 和 Clerk API 密钥,以赋予系统必要的数据采集、模型调用和身份认证权限。 - 启动服务部署:运行
make dev命令。该命令将自动完成依赖安装,并启动 Postgres 和 Convex 数据库,完成服务的部署。 - 访问与使用平台:在浏览器中访问
localhost:3500。注册并登录后,您可以在输入框中用自然语言描述您所需的数据,系统将随即为您生成结构化的数据集。 - 加载预置数据(可选):如果您想快速体验 BigSet 的核心功能,可以执行
make seed-public-datasets命令,一键加载内置的 9 个精选公开数据集。
BigSet 的突出优势
- 零配置数据采集:无需编写任何代码或指定选择器,仅需自然语言描述,即可自动生成结构化数据集。
- 安全隔离设计:通过 JS 闭包注入数据集 ID,LLM 无法直接访问,有效防止了提示词注入攻击。
- 开源与自托管能力:遵循 AGPL-3.0 协议,支持 Docker 一键部署,用户可以完全掌控自己的数据。
- 企业级基础设施支撑:基于 TinyFish 已经处理超过 4000 万次智能体操作的企业级搜索与抓取 API,性能稳定可靠。
BigSet 的项目地址
- GitHub 仓库:https://github.com/tinyfish-io/bigset
BigSet 与同类竞品深度对比
| 对比维度 | BigSet | Firecrawl |
|---|---|---|
| 产品定位 | 以多智能体为核心的数据集生成平台,实现自然语言到结构化数据集的转化 | API 优先的网页抓取平台,将网站内容转化为 LLM 友好的 Markdown 或结构化数据 |
| 输入方式 | 直接用自然语言描述所需数据主题(例如:“AI 招聘公司信息”) | 指定 URL 进行爬取,或使用 /agent 端点通过自然语言描述需求(无需 URL) |
| 数据源发现能力 | AI 自动推断表结构并自主发现实体来源,无需用户提供任何链接信息 | /agent 模式支持自主搜索导航,但常规模式需要用户指定起始 URL 或站点地图 |
| 表结构定义方式 | LLM 自动推断 Schema(包括列名、数据类型、主键),生成关系型数据集 | 支持 JSON Schema 或自然语言提示定义提取结构,输出为 JSON 对象 |
| 采集范围界定 | 能够跨站点聚合多源数据,并自动去重生成统一的数据集 | 主要基于给定的 URL 进行递归爬取或单页提取,聚焦于已知站点的内容 |
| 自动化程度分析 | 编排器与子智能体的闭环协作:数据发现、抓取、去重、验证、建表到导出,实现全流程自主化 | 单链路或 Agent 模式执行抓取转换,数据集管理仍需依赖外部工具的协同 |
| 定时刷新支持 | 原生集成(支持 30 分钟 / 6 小时 / 12 小时 / 每日 / 每周) | 支持 Scheduled Jobs 定期执行,但需通过 API 或外部调度进行配置 |
| 输出格式多样性 | CSV、XLSX(包含来源 URL,可以直接用于 Excel/BI 工具) | Markdown、JSON、HTML、截图、链接(侧重于 LLM/RAG 管道的优化) |
| 数据去重功能 | 基于主键自动完成去重,确保数据集的唯一性 | 用户需要在下游自行处理数据的去重逻辑 |
BigSet 的实际应用场景
- 竞品情报监控:自动化追踪竞争对手的产品价格变动、功能更新以及招聘信息等,生成可定时刷新的结构化情报报告。
- 市场趋势洞察:高效收集特定行业内的公司信息、融资动态和市场份额数据,快速构建全面的行业数据库。
- 投资决策支持:实时追踪股票、加密货币、初创公司融资轮次及估值变化,为投资决策提供有力的数据支持。
- 人才市场分析:监控目标公司或行业的职位发布、技能要求和薪资范围,深入分析人才市场的动态趋势。
- 电商比价分析:抓取多个电商平台上的商品价格、库存和用户评价数据,构建一个实时更新的比价数据集。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...


