Hyperion — Alexandria 的数据业务线

从未数字化的图书。

我们对自有的纸质图书进行 OCR 与结构化处理，交付可直接用于大模型预训练的数据包——这些文本从未进入任何数字语料。全新增量的 token，而非各家模型早已训练过的数据。

进行重叠核对查看交付内容 →

工作流程

采购

我们批量采购实体图书。
采集

逐页与封面拍摄。
OCR 识别

提取文本，支持任意语言与文字系统。
结构化与评分

解析章节与脚注，逐页质量评分。
交付

以单本数据包形式交付。

交付内容

每本书都是一个独立的数据包——端到端可解析，各书格式统一。

book.json 元数据与解析后的结构：章、节、插图、脚注。
pages.jsonl 逐页文本，并附质量评分。
封面图像封面、封底、书脊，以及（如有）勒口。

我们的 OCR 与结构化流程支持任意语言与文字系统——不限于英文。

book.json

{
  "ean": "9782253096337",
  "title": "Les Misérables",
  "author": "Victor Hugo",
  "language": "fr",
  "pages": 1488,
  "structure": { "volumes": 5, "chapters": 365, "footnotes": 211 },
  "quality": { "mean_page_score": 0.98, "flagged": 3 }
}

pages.jsonl

{"page": 31, "kind": "body", "text": "En 1815, M. Myriel était évêque de Digne…", "score": 0.99}
{"page": 32, "kind": "body", "text": "Quoique ce détail ne touche au fond…", "score": 0.98}

示例（仅供说明）——一本书的结构化结果。

我们的不同之处

别处没有的 token

公开网络的语料已被反复抓取。对大模型而言，真正增量的价值在于从未被数字化的文本——我们库存中很大一部分正是纸质图书，未收录于任何数字语料，更不用说 Common Crawl、archive.org、Google Books 或 LibGen。对任何模型都是全新增量，且可逐一核验。

数据溯源与授权 →

任意语言，而非以英文为先

多数图书数据源以英文为主，我们不同。库存为多语种，流程可处理您所需的任意语言——一家供应商即可，无需拼凑多方来源。

多语种语料 →

结构化，而非仅扫描

您收到的是可解析的结构，而非纯文本堆叠——按章切分、逐页质量评分。各书格式统一，可直接接入预训练流程，无需为每个来源单独定制解析。

预训练图书语料 →

重叠核对

在确定合作前，先核验全新增量

请告知样本规模，我们将从库存中发送一份 EAN 清单。您在己方与自己的语料比对重叠——其中尚未收录的部分，正是我们可交付的内容。您的任何数据都不会离开您一侧。

您告知样本规模
我们发送库存中的 EAN 清单
您在本地与自己的语料去重

看看哪些是您语料中的全新增量

告知样本规模，我们将返回一份 EAN 清单，供您与自己的语料去重。

进行重叠核对