book.json
Métadonnées et structure analysée : chapitres, sections, figures, notes de bas de page.
Données livresques pour le pré-entraînement
Des livres papier océrisés et structurés en bundles prêts pour le pré-entraînement. Des tokens inédits — un texte qui n'est jamais entré dans aucun corpus numérique, pas les données que tous les modèles ont déjà vues.
Le web ouvert est épuisé et dédupliqué jusqu'à saturation. Le token marginal qui fait encore progresser un modèle est celui qu'il n'a jamais vu.
La prose longue, éditée et rédigée par des professionnels est la source la plus dense qui soit — et la partie encore prisonnière du papier est celle qu'aucun crawler n'a jamais atteinte. C'est exactement ce que nous fournissons : des livres que nous possédons physiquement, convertis en texte propre et structuré, vérifiables titre par titre dans notre inventaire.
Chaque livre est un bundle autonome — exploitable de bout en bout, au format constant d'un titre à l'autre.
book.jsonMétadonnées et structure analysée : chapitres, sections, figures, notes de bas de page.
pages.jsonlTexte par page, avec score de qualité et langue détectée page par page.
Première, quatrième, dos et rabats intérieurs, le cas échéant.
Plus d'informations sur la traçabilité et les licences dans provenance & licences, et sur la couverture non-anglophone dans le corpus multilingue.
Envoyez-nous une taille d'échantillon et nous vous retournons une liste d'EAN à dédoublonner avec votre propre corpus.
Vérifier le chevauchement