预训练图书语料

面向大模型预训练的图书语料。

纸质图书经 OCR 与结构化处理,交付可直接用于大模型预训练的数据包。全新增量 token——从未进入任何数字语料的文本,而非各家模型早已训练过的数据。

为何选择图书语料

公开网络的语料已被反复抓取,去重至饱和。对模型仍有提升作用的边际 token,是它从未见过的。

经专业编辑的长篇叙述性文本是密度最高的此类来源——而仍被封存在纸质书中的那部分,是任何爬虫从未触及的。我们提供的正是如此:我们实体持有的图书,转化为整洁的文本与结构,可逐一与我们的库存核验。

交付内容

每本书都是一个独立的数据包——端到端可解析,各书格式统一。

book.json

元数据与解析后的结构:章、节、插图、脚注。

pages.jsonl

逐页文本,并附质量评分与逐页语言检测结果。

封面图像

封面、封底、书脊,以及(如有)勒口。

规模与格式

  1. 目标吞吐量每日 1,000+ 本
  2. JSON + JSONL,各书结构统一——可直接接入预训练流程,无需为每个来源单独定制解析
  3. 支持任意语言与文字系统;逐页质量评分随文本一同交付

有关数据溯源与授权的更多信息,请参见数据溯源与授权;有关非英语语料覆盖,请参见多语种语料

看看哪些是您语料中的全新增量

告知样本规模,我们将返回一份 EAN 清单,供您与自己的语料去重。

进行重叠核对