book.json
元数据与解析后的结构:章、节、插图、脚注。
公开网络的语料已被反复抓取,去重至饱和。对模型仍有提升作用的边际 token,是它从未见过的。
经专业编辑的长篇叙述性文本是密度最高的此类来源——而仍被封存在纸质书中的那部分,是任何爬虫从未触及的。我们提供的正是如此:我们实体持有的图书,转化为整洁的文本与结构,可逐一与我们的库存核验。
每本书都是一个独立的数据包——端到端可解析,各书格式统一。
book.json元数据与解析后的结构:章、节、插图、脚注。
pages.jsonl逐页文本,并附质量评分与逐页语言检测结果。
封面、封底、书脊,以及(如有)勒口。