Données livresques pour le pré-entraînement

Des données livresques pour le pré-entraînement de LLM.

Des livres papier océrisés et structurés en bundles prêts pour le pré-entraînement. Des tokens inédits — un texte qui n'est jamais entré dans aucun corpus numérique, pas les données que tous les modèles ont déjà vues.

Vérifier le chevauchement Voir le format →

Pourquoi des données livresques

Le web ouvert est épuisé et dédupliqué jusqu'à saturation. Le token marginal qui fait encore progresser un modèle est celui qu'il n'a jamais vu.

La prose longue, éditée et rédigée par des professionnels est la source la plus dense qui soit — et la partie encore prisonnière du papier est celle qu'aucun crawler n'a jamais atteinte. C'est exactement ce que nous fournissons : des livres que nous possédons physiquement, convertis en texte propre et structuré, vérifiables titre par titre dans notre inventaire.

Ce que vous recevez

Chaque livre est un bundle autonome — exploitable de bout en bout, au format constant d'un titre à l'autre.

`book.json`

Métadonnées et structure analysée : chapitres, sections, figures, notes de bas de page.

`pages.jsonl`

Texte par page, avec score de qualité et langue détectée page par page.

Images de couverture

Première, quatrième, dos et rabats intérieurs, le cas échéant.

Volume & format

1 000+ livres par jour au débit cible
JSON + JSONL, la même structure pour chaque titre — s'intègre à un pipeline de pré-entraînement sans traitement spécifique
Toute langue ou système d'écriture ; les scores de qualité par page accompagnent le texte

Plus d'informations sur la traçabilité et les licences dans provenance & licences, et sur la couverture non-anglophone dans le corpus multilingue.

Découvrez ce qui est inédit pour votre corpus

Envoyez-nous une taille d'échantillon et nous vous retournons une liste d'EAN à dédoublonner avec votre propre corpus.

Vérifier le chevauchement