BigSet

BigSet – TinyFish 开源的多智能体实时网络抓取工具

BigSet：自然语言驱动的数据集自动化生成利器

在信息的时代，高效地获取和整理结构化数据成为一项关键挑战。美国初创公司 TinyFish 推出的 BigSet，一款遵循 AGPL-3.0 协议的开源多智能体系统，正以其创新的方式革新这一领域。它允许用户仅凭自然语言描述，便能自动生成可供导出的结构化数据集。

BigSet 究竟是什么？

BigSet 是由 TinyFish 公司精心打造的开源多智能体平台。其核心理念是将复杂的数据采集和处理过程简化到极致。用户只需用日常语言阐述想要的数据内容，BigSet 就能智能地推断出所需的表结构，并调度智能体们从互联网实时抓取信息。在这个过程中，系统会进行严格的去重和验证，最终输出为用户可直接使用的 CSV 或 XLSX 格式的结构化数据集。更令人惊喜的是，BigSet 支持 30 分钟至每周的定时刷新，确保数据集始终保持最新状态。

BigSet 的核心能力概览

直观的自然语言建表：告别繁琐的数据库设计，只需用一句话描述你的数据需求，AI 就能自动识别并生成列名、数据类型以及主键，省去人工设计的麻烦。
智能多智能体协同采集：系统内的编排器智能体负责精准定位目标实体，随后多个子智能体并行工作，每次最多调用 6 次工具，高效完成从数据发现到填充的整个流程。
精准去重与溯源机制：基于定义的主键进行自动去重，保证数据的唯一性。每一行数据都附带其原始来源的 URL，确保所有信息都可追溯和验证。
灵活的定时数据更新：提供 30 分钟、6 小时、12 小时、每日和每周五种频率的自动更新选项，让你的数据集紧跟实时变化。
便捷的数据格式导出：生成的结构化数据集支持 CSV 和 XLSX 两种流行格式，方便用户直接导入 Excel 或其他数据分析工具。
即时可用的预置数据集：内置 9 个精选的公开数据集，用户可以立即上手体验 BigSet 的强大功能。

BigSet 的技术基石

多智能体编排架构：BigSet 构建在 Mastra 框架之上，采用编排器与子智能体（Worker Agent）协同工作的模式。编排器负责任务分配和实体发现，子智能体则并行执行数据抓取，通过 Vercel AI SDK 和 OpenRouter 统一调度 Claude Sonnet 和 Qwen 等先进模型。
表结构自动推断引擎：当接收到用户输入的自然语言描述时，Claude Sonnet 模型会深入分析其语义意图，自动推断出列名、数据类型和主键等信息，无需用户预先定义 Schema。
高效数据采集与去重：编排器将复杂任务分解为的抓取任务，分派给子智能体并行处理。每个子智能体利用 TinyFish 提供的 Search、Fetch 和 Browser API 从网络实时抓取数据。系统在数据返回后，会根据主键进行自动去重，并为每条记录附加来源 URL，实现数据的可追溯性。
严密的安全防护：为有效抵御提示词注入攻击，数据集 ID 并非直接传递给 LLM，而是通过 JS 闭包在运行时动态注入。这种机制确保 LLM 无法直接访问或泄露数据集标识，实现了采集逻辑与数据权限的严格隔离。

如何快速上手 BigSet

环境准备：请确保您的系统已安装 Docker 和 Make。随后，前往 TinyFish、OpenRouter 和 Clerk 的官方网站注册账户并获取相应的 API 密钥。
克隆项目代码：在终端执行 git clone https://github.com/tinyfish-io/bigset.git 命令下载项目。接着，将 .env.example 文件复制并重命名为 .env。
配置 API 密钥：打开 .env 文件，填入您获取的 TinyFish、OpenRouter 和 Clerk API 密钥，以赋予系统必要的数据采集、模型调用和身份认证权限。
启动服务部署：运行 make dev 命令。该命令将自动完成依赖安装，并启动 Postgres 和 Convex 数据库，完成服务的部署。
访问与使用平台：在浏览器中访问 localhost:3500。注册并登录后，您可以在输入框中用自然语言描述您所需的数据，系统将随即为您生成结构化的数据集。
加载预置数据（可选）：如果您想快速体验 BigSet 的核心功能，可以执行 make seed-public-datasets 命令，一键加载内置的 9 个精选公开数据集。

BigSet 的突出优势

零配置数据采集：无需编写任何代码或指定选择器，仅需自然语言描述，即可自动生成结构化数据集。
安全隔离设计：通过 JS 闭包注入数据集 ID，LLM 无法直接访问，有效防止了提示词注入攻击。
开源与自托管能力：遵循 AGPL-3.0 协议，支持 Docker 一键部署，用户可以完全掌控自己的数据。
企业级基础设施支撑：基于 TinyFish 已经处理超过 4000 万次智能体操作的企业级搜索与抓取 API，性能稳定可靠。

BigSet 的项目地址

GitHub 仓库：https://github.com/tinyfish-io/bigset

BigSet 与同类竞品深度对比

对比维度	BigSet	Firecrawl
产品定位	以多智能体为核心的数据集生成平台，实现自然语言到结构化数据集的转化	API 优先的网页抓取平台，将网站内容转化为 LLM 友好的 Markdown 或结构化数据
输入方式	直接用自然语言描述所需数据主题（例如：“AI 招聘公司信息”）	指定 URL 进行爬取，或使用 `/agent` 端点通过自然语言描述需求（无需 URL）
数据源发现能力	AI 自动推断表结构并自主发现实体来源，无需用户提供任何链接信息	`/agent` 模式支持自主搜索导航，但常规模式需要用户指定起始 URL 或站点地图
表结构定义方式	LLM 自动推断 Schema（包括列名、数据类型、主键），生成关系型数据集	支持 JSON Schema 或自然语言提示定义提取结构，输出为 JSON 对象
采集范围界定	能够跨站点聚合多源数据，并自动去重生成统一的数据集	主要基于给定的 URL 进行递归爬取或单页提取，聚焦于已知站点的内容
自动化程度分析	编排器与子智能体的闭环协作：数据发现、抓取、去重、验证、建表到导出，实现全流程自主化	单链路或 Agent 模式执行抓取转换，数据集管理仍需依赖外部工具的协同
定时刷新支持	原生集成（支持 30 分钟 / 6 小时 / 12 小时 / 每日 / 每周）	支持 Scheduled Jobs 定期执行，但需通过 API 或外部调度进行配置
输出格式多样性	CSV、XLSX（包含来源 URL，可以直接用于 Excel/BI 工具）	Markdown、JSON、HTML、截图、链接（侧重于 LLM/RAG 管道的优化）
数据去重功能	基于主键自动完成去重，确保数据集的唯一性	用户需要在下游自行处理数据的去重逻辑