多语种语料

非英语图书数据,直接来源。

多语种实体书目,加上可处理任意语言与文字系统的流程——一家供应商即可,无需拼凑多方来源。

为何非英语语料稀缺

网络爬取严重偏向英文。高质量的非英语文本——尤其是长篇图书——相对稀缺,且现有的质量往往参差不齐。

母语图书语料是最优质的非英语预训练来源,也是数字化程度最低的。在本地市场进行实体采购,是获取这类语料的可靠途径——这正是一家拥有多语种书目的欧盟书商的优势所在。

覆盖范围

法语及欧洲语言

直接来源于我们的欧盟库存——法语及其他欧洲语言,原生品质。

中文,经母语审校

中文书目通过我们中国子公司的内部母语审校流程处理。

任意语言

流程可对您所需的任意语言或文字系统进行 OCR 与结构化——不以英文为先。

逐语言质量保障

  1. 语言逐页检测,而非按整本书假定
  2. 每页均有质量评分,评分随文本一同交付
  3. 交付前对标记的非拉丁文字页面进行母语审校

另请参见预训练图书语料数据溯源与授权

别处没有的非英语 token

告知样本规模与目标语言,我们将返回 EAN 清单,供您与自己的语料去重。

进行重叠核对