У меня есть большой корпус текста (около 10 миллионов предложений), который я хотел бы предварительно обработать с помощью различных инструментов НЛП (теггер POS, анализатор синтаксиса, анализатор зависимостей и т. д.). Мне нужно каким-то образом хранить различные слои аннотаций, созданные этими инструментами, и получать к ним доступ «на лету» из моего кода Java (возможно, предоставляя начальный и конечный индексы текстового диапазона в корпусе и тип аннотации) .
Существует ли уже система программного обеспечения для быстрого хранения и доступа к этим аннотациям? Если нет, то как лучше всего хранить и получать доступ к этим аннотациям? Скорость доступа была бы наиболее важной.