预训练图书语料

面向大模型预训练的图书语料。

纸质图书经 OCR 与结构化处理，交付可直接用于大模型预训练的数据包。全新增量 token——从未进入任何数字语料的文本，而非各家模型早已训练过的数据。

为何选择图书语料

公开网络的语料已被反复抓取，去重至饱和。对模型仍有提升作用的边际 token，是它从未见过的。

经专业编辑的长篇叙述性文本是密度最高的此类来源——而仍被封存在纸质书中的那部分，是任何爬虫从未触及的。我们提供的正是如此：我们实体持有的图书，转化为整洁的文本与结构，可逐一与我们的库存核验。

每本书都是一个独立的数据包——端到端可解析，各书格式统一。

元数据与解析后的结构：章、节、插图、脚注。

逐页文本，并附质量评分与逐页语言检测结果。

封面、封底、书脊，以及（如有）勒口。

有关数据溯源与授权的更多信息，请参见数据溯源与授权；有关非英语语料覆盖，请参见多语种语料。

告知样本规模，我们将返回一份 EAN 清单，供您与自己的语料去重。