Corpus multilingue

Des données livresques non-anglophones, à la source.

Un catalogue physique multilingue et un pipeline qui traite toute langue ou système d'écriture — un seul fournisseur au lieu d'en assembler plusieurs.

Pourquoi les langues non-anglophones sont rares

Les crawls web sont massivement anglophones. Les textes non-anglophones de qualité — surtout les livres longs — sont comparativement rares, et souvent de moindre qualité là où ils existent.

Les corpus de livres natifs sont la source de pré-entraînement non-anglophone la plus solide et la moins numérisée. Les sourcer physiquement, sur le marché local, est la méthode fiable pour les obtenir — c'est précisément ce que peut faire un libraire européen avec un catalogue multilingue.

Couverture

Français & européen

Issus directement de notre stock européen — français et autres langues européennes à qualité native.

Chinois, avec relecture native

Titres chinois traités avec relecture native en interne, via notre filiale chinoise.

Toute langue

Le pipeline océrise et structure la langue ou le système d'écriture dont vous avez besoin — pas en priorité l'anglais.

Qualité par langue

  1. Langue détectée page par page, non supposée au niveau du livre
  2. Chaque page notée en qualité ; le score accompagne le texte livré
  3. Relecture native sur les pages non-latines signalées avant livraison

Voir aussi les données livresques pour le pré-entraînement et provenance & licences.

Des tokens non-anglophones introuvables ailleurs

Envoyez-nous une taille d'échantillon et la langue cible ; nous vous retournons des EAN à dédoublonner avec votre corpus.

Vérifier le chevauchement