别处没有的 token
公开网络的语料已被反复抓取。对大模型而言,真正增量的价值在于从未被数字化的文本——我们库存中很大一部分正是纸质图书,未收录于任何数字语料,更不用说 Common Crawl、archive.org、Google Books 或 LibGen。对任何模型都是全新增量,且可逐一核验。
数据溯源与授权 →我们批量采购实体图书。
逐页与封面拍摄。
提取文本,支持任意语言与文字系统。
解析章节与脚注,逐页质量评分。
以单本数据包形式交付。
每本书都是一个独立的数据包——端到端可解析,各书格式统一。
book.json
元数据与解析后的结构:章、节、插图、脚注。
pages.jsonl
逐页文本,并附质量评分。
我们的 OCR 与结构化流程支持任意语言与文字系统——不限于英文。
{
"ean": "9782253096337",
"title": "Les Misérables",
"author": "Victor Hugo",
"language": "fr",
"pages": 1488,
"structure": { "volumes": 5, "chapters": 365, "footnotes": 211 },
"quality": { "mean_page_score": 0.98, "flagged": 3 }
}
{"page": 31, "kind": "body", "text": "En 1815, M. Myriel était évêque de Digne…", "score": 0.99}
{"page": 32, "kind": "body", "text": "Quoique ce détail ne touche au fond…", "score": 0.98}
公开网络的语料已被反复抓取。对大模型而言,真正增量的价值在于从未被数字化的文本——我们库存中很大一部分正是纸质图书,未收录于任何数字语料,更不用说 Common Crawl、archive.org、Google Books 或 LibGen。对任何模型都是全新增量,且可逐一核验。
数据溯源与授权 →多数图书数据源以英文为主,我们不同。库存为多语种,流程可处理您所需的任意语言——一家供应商即可,无需拼凑多方来源。
多语种语料 →您收到的是可解析的结构,而非纯文本堆叠——按章切分、逐页质量评分。各书格式统一,可直接接入预训练流程,无需为每个来源单独定制解析。
预训练图书语料 →重叠核对
请告知样本规模,我们将从库存中发送一份 EAN 清单。您在己方与自己的语料比对重叠——其中尚未收录的部分,正是我们可交付的内容。您的任何数据都不会离开您一侧。