Français & européen
Issus directement de notre stock européen — français et autres langues européennes à qualité native.
Corpus multilingue
Un catalogue physique multilingue et un pipeline qui traite toute langue ou système d'écriture — un seul fournisseur au lieu d'en assembler plusieurs.
Les crawls web sont massivement anglophones. Les textes non-anglophones de qualité — surtout les livres longs — sont comparativement rares, et souvent de moindre qualité là où ils existent.
Les corpus de livres natifs sont la source de pré-entraînement non-anglophone la plus solide et la moins numérisée. Les sourcer physiquement, sur le marché local, est la méthode fiable pour les obtenir — c'est précisément ce que peut faire un libraire européen avec un catalogue multilingue.
Issus directement de notre stock européen — français et autres langues européennes à qualité native.
Titres chinois traités avec relecture native en interne, via notre filiale chinoise.
Le pipeline océrise et structure la langue ou le système d'écriture dont vous avez besoin — pas en priorité l'anglais.
Voir aussi les données livresques pour le pré-entraînement et provenance & licences.
Envoyez-nous une taille d'échantillon et la langue cible ; nous vous retournons des EAN à dédoublonner avec votre corpus.
Vérifier le chevauchement