Авторы Мэтт Око и Зак Бог

DCVC, который был одним из руководителей Primer's Seed и возглавлял его Series A, повторно вложил в Primer AI $ 40 млн + Series B. Это финансирование поможет Primer в дальнейшей коммерциализации своего программного обеспечения, которое может читать, понимать и резюмировать огромные объемы неструктурированного текста. и данные. Программное обеспечение Primer автоматизирует самые утомительные задачи аналитиков: копаться в сотнях документов и писать резюме прочитанного. Вместо этого аналитики тратят свое время на более сложные и интересные проблемы. Мы инвестировали в Primer, потому что они управляются экспертами мирового класса, заменяют ресурсоемкие ручные задачи интеллектуальным программным обеспечением и нарушат фундаментальный процесс исследований, на который полагается большинство отраслей, на всех языках и по всему миру. Мы гордимся тем, что поддерживаем Primer в их поисках истины в сложном мире.

История двух кривых: данные и аналитики

Люди - огромные машины для обработки информации. Мы можем идентифицировать изображения за миллисекунды, читать сотни слов в минуту и ​​быстро создавать комментарии к информации, которую мы потребляем. Однако по мере того, как количество информации, которую мы поглощаем, увеличивается, наша способность обрабатывать ее уменьшается. Автор Daniel J. Levitin хорошо сформулировал ситуацию:

«В 2011 году американцы ежедневно получали в пять раз больше информации, чем в 1986 году, что эквивалентно 174 газетам. В свободное время, не считая работы, каждый из нас ежедневно обрабатывает 34 гигабайта, или 100 000 слов. 21 274 человека в мире производят 85 000 часов оригинальных программ каждый день, поскольку мы смотрим в среднем 5 часов телевидения в день, что эквивалентно 20 гигабайтам аудио-видео изображений. Это не считая Youtube, который загружает 6000 часов видео каждый час »*.

* Эта статья написана в 2015 году. К 2017 году цифра Youtube подскочила до 400 часов в минуту, или 24 000 часов в час.

Мы все охвачены потоками информации из пожарных шлангов, но мы можем ограничить их, когда нам нужно: отключить наши уведомления; выход из социальных сетей; отчаянно запирать наши телефоны в ящиках, когда ничего не помогает.

Однако перед аналитиками стоит задача превратить информационные пожарные рукава в понятные отчеты. Решения, которые они информируют, критичны и зависят от времени. Отчет аналитика может определить бизнес-план многомиллиардной компании, количественно оценить неопределенные инвестиционные риски или объяснить чувствительные ситуации, когда на волоске висит жизнь. Поскольку данные, которые мы генерируем, опережают людей, которые их обрабатывают, аналитики сталкиваются с опасным пробелом в интеллекте.

Национальное геопространственное агентство заявило:« Если бы у нас действительно были аналитики, просматривающие каждый бит данных, которые [. . .] собрали, нам понадобится 8 миллионов аналитиков . »- генеральный директор Шон Горли

Этот разрыв в интеллекте существует потому, что мы биологически ограничены пределами объема, скорости и сложности информации, которую мы понимаем, - говорит генеральный директор Primer Шон Горли. Вместо этого Горли обратился к компьютерам. Компьютеры могли устранить пробел в интеллекте со скоростью и в масштабе, недоступными человеку. По его словам, машины обладают другим типом интеллекта, и у них другие ограничения, чем у людей. У машин проблемы с точностью, а у людей проблемы с отзывом.

Допустим, вас попросили перечислить все события в движении за права женщин в этом году. Точность определяет точность вашего ответа: сколько из ваших мероприятий было посвящено правам женщин? (A / A + C) Отзыв определяет полноту вашего ответа: какую часть вы освещали из всех мероприятий по правам женщин в прошлом году? (А / А + В)

Люди очень точны. Вы не стали бы смешивать «Ураган Флоренс» с событиями, касающимися прав женщин, но алгоритм может. С другой стороны, вы, возможно, не слышали о Азиатско-Тихоокеанском парламентском форуме, обсуждающем гендерное равенство в Ханое. Вероятно, этого не было в вашей ленте новостей. Если бы это было так, возможно, вы его не читали (а если бы читали, то, вероятно, уже забыли об этом). Алгоритм не забудет.

Primer максимально использует возможности цифрового воспроизведения и человеческой точности. Вот компьютерный отчет компании о событиях, связанных с правами женщин в начале 2018 года, с картой и графиком. На составление такого подробного отчета у меня ушло бы несколько дней, и я бы пропустил многие события. Вместо этого Primer может составить исчерпывающий отчет за считанные минуты. Их алгоритмы обладают на 20–30% лучшими воспоминаниями, чем у людей. Их точность на несколько баллов ниже, но отзывы аналитиков со временем улучшают их эффективность. Объединение дней работы аналитика в программу, запуск которой занимает несколько минут (и которая пишет более качественный отчет), значительно улучшит их рабочий день.

Коллекторные двигатели

Программное обеспечение Primer преобразует миллионы источников неструктурированных данных в краткие резюме: а) разбивая документы на обсуждаемые ими концепции, б) выявляя взаимосвязи между этими концепциями и в) сообщая о закономерностях в отношениях, которые люди могут упустить. Они делают это с помощью 6 алгоритмических «движков»:

Структура превращает документы в набор концепций, а Ensemble дедуплицирует и собирает эти концепции в модели, основанные на нескольких документах. Событие использует временные метки и языковую обработку для группировки статей по обсуждаемым ими событиям. Контекст находит другую информацию, относящуюся к событиям, и строит вероятную причинную временную шкалу. Разница обнаруживает несоответствия между источниками данных. Например, в двух проектах контрактов могут быть небольшие (но важные) изменения слов, или наборы данных новостей на китайском и английском языках могут по-разному освещать одно и то же событие. Наконец, История превращает данные и их анализ в краткое и удобочитаемое резюме. (Вы можете прочитать более подробные описания движков в нашем Deep Dive, здесь.)

Как найти истину

Программное обеспечение Primer впечатляет, но в ближайшее время они не будут использовать его для полной автоматизации работы аналитиков. Скорее, Букварь хочет написать тот первый черновик, который аналитики могут редактировать сами. Думайте об этом как о чрезвычайно полезном помощнике, а не как об автомате, угрожающем работой. В конце концов, решения, которые информируют аналитики, в конечном итоге являются человеческими, они встроены в сложные контексты, которые трудно описать компьютерам. Эти алгоритмы просто ускоряют уже начатую работу.

ArXiv - хорошая иллюстрация того потока информации, с которым мы сталкиваемся. Вы можете увидеть хронологию научного прогресса в «arXiv. Но это не читается человеком. Вы не сможете разобраться во всем этом, даже имея докторскую степень ». - Джон Боханнон

Primer фактически использует свое программное обеспечение для ускорения собственной разработки. Джон Боханнон, научный директор Primer, создал инструмент под названием Primer Science для обработки всех новых исследований в области искусственного интеллекта, опубликованных в arXiv. Легко понять, почему: на прошлой неделе исследователи разместили в хранилище 97 новых статей об ИИ. Статьи имеют такие названия, как Аналитические формулы для взвешенного среднего значения дискретных трапециевидных нечетких чисел ». Если каждая статья для выпускников занимает около часа, чтобы прочитать и полностью понять, вам придется работать 14 часов в день каждую неделю, чтобы успевать за новыми статьями. Primer использует собственное программное обеспечение, чтобы обобщить эти статьи и отметить самые важные из них. Они применяют полученные знания для улучшения своего программного обеспечения.

Primer хочет помочь аналитикам найти истину. Однако злоумышленники могут вместо этого использовать генерацию текста для написания дезинформации, наводняя Интернет индивидуализированной компьютерной пропагандой, проверенной A / B. Будущее политических манипуляций будет автоматизировано, - предупреждает Горли. Такие инструменты, как Primer, могут стать критически важными для открытия истины в экосистеме искаженной информации. Возможно, всем нам придется стать аналитиками, чтобы принимать обоснованные решения.

Аналитики - это неотъемлемая часть всех отраслевых данных. Они помогают управлять государственными и финансовыми учреждениями, но они также поддерживают работу ваших коммунальных служб, улучшают работу заводов и обеспечивают бесперебойную работу общественного транспорта. Многие люди также проводят сложные анализы без звания аналитика: профессионалы в области медицины, исследований и права должны обрабатывать огромные объемы информации для выполнения своей работы. Интеллектуальный анализ - это только начало для Primer. Компания уже обслуживает существенное - но не подлежащее раскрытию - число 17 спецслужб США (через посредника In-Q-Tel), а также они оптимизируют исследования для Walmart и GIC, суверенного фонда благосостояния Сингапура.

Мы инвестировали в Primer, потому что их технологии позволят нескольким крупным отраслям сэкономить неисчислимое количество времени и денег. Компания на годы опережает конкурентов в области автоматического суммирования текста, и их список клиентов уже доказывает ценность, которую они приносят аналитикам. Primer работает по той схеме обратной связи, которую мы ищем в наших портфельных компаниях, используя программное обеспечение, которое они создают для самосовершенствования. Мы гордимся тем, что поддерживаем Primer, поскольку они коренным образом улучшают жизнь - и качество решений - исследователей и аналитиков в огромных глобальных отраслях, позволяя принимать более человечные (и гуманные) решения со скоростью машины.