Hyperion — l'activité datas d'Alexandria

Des livres jamais numérisés.

Nous extrayons et structurons le texte de nos propres livres papier et le livrons en bundles prêts pour le pré-entraînement de LLM — un texte qui n'est jamais entré dans un corpus numérique. Des tokens inédits, pas les données que tous les modèles ont déjà vues.

Comment ça marche

  1. Acquisition

    Nous achetons des livres physiques en volume.

  2. Capture

    Toutes les pages et couvertures, photographiées.

  3. OCR

    Texte extrait dans toute langue et tout système d'écriture.

  4. Structuration & notation

    Chapitres et notes analysés ; score de qualité par page.

  5. Livraison

    Livré sous forme de bundle par livre.

Ce que nous livrons

Chaque livre est un bundle autonome — exploitable de bout en bout, au format constant d'un titre à l'autre.

  • book.json Métadonnées et structure analysée : chapitres, sections, figures, notes de bas de page.
  • pages.jsonl Texte par page, avec score de qualité.
  • Images de couverture Première, quatrième, dos et rabats intérieurs, le cas échéant.

Notre chaîne d'OCR et de structuration traite toute langue et tout système d'écriture — pas seulement l'anglais.

book.json
{
  "ean": "9782253096337",
  "title": "Les Misérables",
  "author": "Victor Hugo",
  "language": "fr",
  "pages": 1488,
  "structure": { "volumes": 5, "chapters": 365, "footnotes": 211 },
  "quality": { "mean_page_score": 0.98, "flagged": 3 }
}
pages.jsonl
{"page": 31, "kind": "body", "text": "En 1815, M. Myriel était évêque de Digne…", "score": 0.99}
{"page": 32, "kind": "body", "text": "Quoique ce détail ne touche au fond…", "score": 0.98}
Exemple illustratif — un livre, structuré.

Ce qui nous distingue

Des tokens introuvables ailleurs

Le web ouvert est épuisé. Pour un LLM, la vraie valeur réside dans le texte qui n'a jamais été numérisé — et une grande partie de notre stock est constituée de livres papier, absents de tout corpus numérique, et encore moins de Common Crawl, archive.org, Google Books ou LibGen. Inédit pour tout modèle, et vérifiable titre par titre.

Provenance & licences →

Toute langue, pas seulement l'anglais

La plupart des sources de données livresques sont calibrées pour l'anglais ; pas la nôtre. Le stock est multilingue et le pipeline traite la langue dont vous avez besoin — un seul fournisseur au lieu d'en assembler plusieurs.

Corpus multilingue →

Structuré, pas seulement numérisé

Vous recevez une structure exploitable, pas un simple texte brut — découpage par chapitre, score de qualité par page. La forme est constante d'un livre à l'autre : elle s'intègre à un pipeline de pré-entraînement sans traitement spécifique pour chaque source.

Données livresques pour le pré-entraînement →

Vérification de chevauchement

Mesurez ce que nous ajoutons à votre corpus

Indiquez-nous une taille d'échantillon et nous vous envoyons une liste d'EAN tirés de notre stock. Vous mesurez le chevauchement avec votre corpus, de votre côté — ce qui n'y figure pas encore est exactement ce que nous livrerions. Aucune de vos données ne quitte votre environnement.

  1. Vous indiquez une taille d'échantillon
  2. Nous envoyons des EAN tirés de notre stock
  3. Vous faites le dédoublonnage avec votre corpus, en local

Découvrez ce qui est inédit pour votre corpus

Envoyez-nous une taille d'échantillon et nous vous retournons une liste d'EAN à dédoublonner avec votre propre corpus.

Vérifier le chevauchement