Hyperion — Alexandria 的数据业务线

从未数字化的图书。

我们对自有的纸质图书进行 OCR 与结构化处理,交付可直接用于大模型预训练的数据包——这些文本从未进入任何数字语料。全新增量的 token,而非各家模型早已训练过的数据。

工作流程

  1. 采购

    我们批量采购实体图书。

  2. 采集

    逐页与封面拍摄。

  3. OCR 识别

    提取文本,支持任意语言与文字系统。

  4. 结构化与评分

    解析章节与脚注,逐页质量评分。

  5. 交付

    以单本数据包形式交付。

交付内容

每本书都是一个独立的数据包——端到端可解析,各书格式统一。

  • book.json 元数据与解析后的结构:章、节、插图、脚注。
  • pages.jsonl 逐页文本,并附质量评分。
  • 封面图像 封面、封底、书脊,以及(如有)勒口。

我们的 OCR 与结构化流程支持任意语言与文字系统——不限于英文。

book.json
{
  "ean": "9782253096337",
  "title": "Les Misérables",
  "author": "Victor Hugo",
  "language": "fr",
  "pages": 1488,
  "structure": { "volumes": 5, "chapters": 365, "footnotes": 211 },
  "quality": { "mean_page_score": 0.98, "flagged": 3 }
}
pages.jsonl
{"page": 31, "kind": "body", "text": "En 1815, M. Myriel était évêque de Digne…", "score": 0.99}
{"page": 32, "kind": "body", "text": "Quoique ce détail ne touche au fond…", "score": 0.98}
示例(仅供说明)——一本书的结构化结果。

我们的不同之处

别处没有的 token

公开网络的语料已被反复抓取。对大模型而言,真正增量的价值在于从未被数字化的文本——我们库存中很大一部分正是纸质图书,未收录于任何数字语料,更不用说 Common Crawl、archive.org、Google Books 或 LibGen。对任何模型都是全新增量,且可逐一核验。

数据溯源与授权 →

任意语言,而非以英文为先

多数图书数据源以英文为主,我们不同。库存为多语种,流程可处理您所需的任意语言——一家供应商即可,无需拼凑多方来源。

多语种语料 →

结构化,而非仅扫描

您收到的是可解析的结构,而非纯文本堆叠——按章切分、逐页质量评分。各书格式统一,可直接接入预训练流程,无需为每个来源单独定制解析。

预训练图书语料 →

重叠核对

在确定合作前,先核验全新增量

请告知样本规模,我们将从库存中发送一份 EAN 清单。您在己方与自己的语料比对重叠——其中尚未收录的部分,正是我们可交付的内容。您的任何数据都不会离开您一侧。

  1. 您告知样本规模
  2. 我们发送库存中的 EAN 清单
  3. 您在本地与自己的语料去重

看看哪些是您语料中的全新增量

告知样本规模,我们将返回一份 EAN 清单,供您与自己的语料去重。

进行重叠核对