Что ж, как мы видели в статье Что такое большие данные, одним из характеризующих V является Разнообразие данных. Пока мы ограничиваемся использованием баз данных компании, мы все еще можем иметь некоторый контроль над данными и получать их максимально структурированным и доступным способом, но когда дело доходит до больших данных, у нас есть множество источников, а это означает, что нам часто приходится извлекать данные извне.

Управление таким большим объемом данных ни в коем случае не является тривиальной задачей, поэтому в эту тему было вложено так много средств.

Вопрос о том, как управлять разнообразием данных, все еще остается открытым, и для большинства приложений человек остается лучшим инструментом; все еще есть много компаний, которые используют операторов ввода данных, людей, которые транскрибируют данные в более масштабируемые форматы или, даже если извлечение происходит автоматически, создаются специальные скрипты для каждого источника, из которого извлекаются данные, чтобы они были отформатированы по желанию. Оба этих подхода явно несут свои проблемы, первый очень дорог, а второй основан на предположении, что вы получаете данные, которые имеют определенную согласованность, а это означает, что они приходят в стандартном формате.

Следует сказать, что, несмотря на их недостатки, этих двух методов часто бывает достаточно, поскольку существует тенденция искать только достоверную информацию, которая поэтому поступает из нескольких источников и часто организована довольно структурированным образом, что делает возможным анализ сценариев. , в то время как остальная информация зависит от операторов ввода данных. Однако это означает потерю большей части ценности больших данных.

Это приводит к проблеме работы с разнообразием данных. Как известно, данные существуют в самых разных форматах, и важно искать способы обработки самых разных данных, включая нетекстовые данные. Помните, что тот факт, что некоторые данные доступны, не означает, что они также доступны. Попробуйте подумать об изображении, количество данных, которое оно может содержать, отнюдь не мало, одна инфографика может содержать несколько графиков и надписей, которые для человека легко читаются, но для компьютера остаются просто набором пикселей разного цвета. Под этим мы подразумеваем, что хотя определенная информация доступна, она не обязательно также доступна. Последние разработки в области машинного обучения находят широкое применение в этой области благодаря способности распознавать текстовое содержимое и его основные составляющие элементы.

Часто говорят, что однажды искусственный интеллект сделает всю работу за нас, по крайней мере, в том, что касается более утомительных и трудоемких задач; это действительно может иметь место для операторов ввода данных, позволяя в то же время компаниям экономить много времени на такого рода задачах.