Очевидно, for doc in nlp.pipe(sequence)
работает намного быстрее, чем for el in sequence: doc = nlp(el) ..
.
Моя проблема заключается в том, что моя последовательность на самом деле представляет собой последовательность кортежей, которые содержат текст для преобразования в документ, а также дополнительную информацию, которую я хотел бы получить в документе в виде атрибутов документа (которые я бы зарегистрировал для Док).
Я не уверен, как я могу изменить просторный конвейер, чтобы на первом этапе действительно выбирался один элемент из кортежа для запуска токенизатора и получения документа, а затем какая-то другая функция использовала оставшиеся элементы из кортежа для добавления функций. к существующему документу.