Как большие языковые модели планируют свои ответы еще до их генерации Хабр
Поэтому, в отличие от BPE, он способен работать с такими языками, как японский или китайский. Токенизатор SentencePiece в определённом смысле совершеннее, чем BPE, — он наследует логику Unigram- и BPE
read more..