Несмотря на то что гипертекст с его ссылками может быть полноценно реализован только в электронной форме, предпосылки к его возникновению обнаруживаются задолго до появления компьютеров. Первым к идее гипертекста подошел Ванневар Буш, в своей эпохальной статье
Надо заметить, что и у Буша был предшественник, это немецкий инженер еврейского происхождения Эмануэль Гольдберг (Emanuel Goldberg, 1881–1970), создатель действующей (!) «Статистической машины». Она стала первым устройством для работы с размеченными данными, перенесенными на микрофильмы. Машина Гольдберга стала первым инструментом, позволяющим автоматизировать поиск в больших массивах данных с использованием разметки. Гольдберг родился в 1881 году в Москве в семье полковника медицинской службы российской армии (к слову, должность весьма необычная для человека со столь очевидными этническими корнями), а умер в 1970-м в Израиле.
Статья Буша послужила стимулом для Дага Энгельбарта на исследования в области систем, расширяющих интеллектуальные возможности человека. Эти работы в конечном итоге привели к созданию лаборатории Augmentation Research Center, где была построена уникальная для своего времени система NLS (oNLine System). Как ни странно, но попутно созданная компьютерная мышь оказалась самым знаменитым отпрыском этого проекта.
Data Labeling
Для CV и NLP нужны размеченные данные, в связи с этим появилась новая технологи data labeling (нанесение этикеток на данные, аннотация). На данный момент никаких средств для автоматизации этого процесса нет и в обозримом будущем не будет, поэтому эту нудную работу (handmaid data labeling) будут вручную выполнять низкоквалифицированные работники. Их можно назвать «синими воротничками» индустрии AI. Рабочие должны выполнять вручную огромный объем работы, например, аннотация одного человеческого образа требует указания от 15 до 40 точек и делается это все обычными средствами человеко-машинного интерфейса. Для разметки изображений сейчас есть и свободно распространяемые технологии (Sloth, Visual Object Tagging) и коммерческие (Diffgram Supervisely), и другие. Список средств для разметки документов, используемых при обработке текстов на естественных языках NLP, существенно длиннее.
Очевидный шанс стать супермонополистом в области data labeling есть у Китая, эта страна располагает необходимым количеством высококвалифицированных специалистов, здесь выработаны государственные программы по развитию AI, но в то же время наличествует неограниченное количество желающих на роль исполнителей низкого уровня. Они работают надомно или в стесненных условиях на так называемых «фабриках разметки» (tagging factories), получая чрезвычайно низкую заработную плату.
Типичным примером фабрики разметки служит компания Mada Code, насчитывающая более 10 000 (!) надомников, выполняющих разметку данных для задач оптического распознавания и обработки текста на естественном языке. Среди ее клиентов крупные компании и университеты. Руководитель Mada Code сказал: «Мы строительные рабочие цифрового мира, мы кладем кирпич на кирпич, но играем заметную роль в ИИ. Без нас невозможно построить небоскребы».
Необходимость ручной разметки позволяет оценить уровень зрелости нынешних работ в области AI тем, что напоминает закон, принятый в Англии на заре автомобилизма, который требовал, чтобы перед автомобилем шел человек, предупреждавший о его появлении.
Глава 9 Два основных направления в AI – компьютерное зрение и средства для работы с текстом на естественном языке
В начале третьего десятилетия XXI века, на седьмом десятке лет истории AI стало очевидно, что ни Общий AI (General AI), ни Сильный (Strong AI), а лишь только Слабый AI (Narrow AI) имеет шансы для развития, причем внутри Слабого AI наибольший перспективы у тех его направлений, которые усиливают возможности человека (Augmented AI, AuI). Из AuI-решений особое внимание привлекают к себе два: Компьютерное зрение (Computer Vision, CV) и Работа с текстами на естественном языке (Natural Language Processing, NLP). Оба они служат для создания технологий, способствующих повышению способностей человека к восприятию информации, заключенной в больших объемах фото/видео и текстовых данных. Эти технологии поддерживают автоматизацию преобразования данных в информацию на уровне интерфейса между уровнями данных и информации на пирамиде DIKW (Данные, Информация, Знания, Здравый смысл).