cerebras.modelzoo.data_preparation.nlp.t5.utils.concatenate_documents#

cerebras.modelzoo.data_preparation.nlp.t5.utils.concatenate_documents(dataset, num_to_concatenate=128, pad_id=0)[source]#

Concatenate unrelated documents together to reduce the need for padding.

Parameters

Params int pad_id

The vocab id reserved for padding values. Must not occur anywhere in the dataset.

Yields

new samples made from concatenating samples in dataset.

cerebras.modelzoo.data_preparation.nlp.t5.utils

cerebras.modelzoo.data_preparation.nlp.t5.utils.construct_denoising_objective