Обсудить на форуме

Способ общения

Волей-неволей мы ежедневно общаемся со всякого рода аппаратурой на ее языке. Бурное развитие цифровой электроники и компьютерных технологий и исследования в области искусственного интеллекта должны, наконец, решить наболевший вопрос: «Кто в доме хозяин - я или мышь?!». И решить его не в пользу «мыши». Как развивалось это противостояние, и продолжится ли оно в будущем?


Мы окружены техникой давно и надолго. И постоянно отступаем перед ее могуществом. Чего стоят хотя бы невообразимое количество кнопок на пультах управления (на пульте моего DVD-плеера их ровно 50, и я не уверен, что это рекорд), заучивание многоуровневых систем меню, изучение правил управления различными устройствами («мышами», трекболами, тачпадами) и исследование клавиатур с их методами «десятипальцевого слепого набора текстов» (сколько же нервных клеток погибло при прохождении одного из таких курсов!).

Как это было

Не встревая в давний спор между материалистами и идеалистами, заметим, что на экранах компьютеров вначале всё-таки было слово. Едва появившись, оно так и норовило стать по-настоящему «машинным»: состоящим не из радующих глаз буковок, а из выстроившихся строгими колоннами цифр. Коварные программисты мучили несчастных операторов «неестественными» системами исчисления (ну, почему у программистов не шестнадцать пальцев на руках?) и травмирующими неустойчивую психику интерфейсами (Многим операторам, наверняка, знакомы обвинения: «Плохой оператор! Заменить и нажать любую клавишу по готовности!»). Так или иначе, но основным средством обмена информацией человека с машиной был текст.

С появлением графики, а особенно графических интерфейсов, жизнь в компьютерном мире стала куда веселей. Программы превратились в «одинаковые на ощупь», и, следовательно, персональные компьютеры стали более дружелюбными и по отношению к обычным пользователям, а не только к компьютерным фанатам.

Работы в области распознавания графических образов дали хорошие результаты. Системы распознавания символов (OCR) позволяют сегодня вводить в компьютеры практически любые печатные тексты, просто отсканировав их, а не набирая с клавиатуры повторно. В области рукописного ввода успехи не так хороши. Однако карманные компьютеры давно используют систему «граффити» - рукописный ввод символов (обычно побуквенно и специальными росчерками, напоминающими начертания обычных букв и цифр).

Звук (в виде всевозможных «саунд бластеров», а не попискиваний системного динамика) дал, пожалуй, первый толчок к движению компьютеров из области игрушек для увлечённых в сферу бытовой электроники. «Мультимедизация» компьютеров - оснащение их звуковыми картами и дисководами CD-ROM (времена внедрения в широкие массы «подставок для кофе») - привела к тому, что компьютеры стали покупать домой не только для работы, но и для развлечений. Машины научились не только говорить, но и слушать.

Разработчики звуковых процессоров и программного обеспечения год от года улучшали качество воспроизводимого звука и систем распознавания речи. Обучающие иностранным языкам программы стали давать не только качественные образцы произношения носителями языка (что делали задолго до них и обычные аудиокурсы), но и проверку произношения обучающегося.

Говорить о полном «понимании» человеческой речи пока не приходится. Компьютеры ещё не в состоянии без проблем набирать произвольные тексты с любого голоса, но зато уже кажутся привычными обучение или голосовое управление ограниченным словарным запасом. Вспомним хотя бы мобильные телефоны с голосовыми командами. Синтез речи тоже пока далеко не идеален - слушать электронных чтецов текстов непривычно и несколько утомительно. Технически же, качество звука сравнялось с высококачественной бытовой электроникой (очень низкие нелинейные искажения, высокое соотношение сигнал/шум, звук на 6, 7 и даже 8 каналов, цифровые коаксиальные и оптические входы/выходы), что позволяет включать их в состав домашней hi-fi аппаратуры.

Приход видео был уже задачей скорее количественной, чем качественной. Если есть хорошее изображение и звук, то всё что остаётся - это повысить количественные характеристики (объёмы памяти, скорости записи/чтения дисководов) до такого уровня, чтобы система успевала воспроизводить видеопоток с минимально возможной компрессией. Хотя, поначалу даже воспроизведение простого видео с качеством VCD (даже уступающим качественному VHS) на экране компьютера казалось почти чудом. Прямой доступ к любому фрагменту и неизменность качества изображения от количества просмотров - преимущества очень существенные. И, так как сегодня технический прогресс в ИТ-сфере всё ещё «движется семимильными шагами», почти любой компьютер справляется не то что со стандартными DVD-потоками (до 9,8 Мбит/сек), но даже с потоками DV (25 Мбит/сек), что превращает обычную персоналку в станцию нелинейного монтажа. Практически любая видеокарта содержит аналоговый S-Video выход (с раздельными сигналами цветности и яркости) на внешний телевизор или видеомагнитофон. О серьёзности достижений говорит уже то, что компьютерными VGA-входами стали оснащать последние модели обычных, совсем не «компьютерных» телевизоров (правда, не любые, а современные 100-герцовые топовые модели). Это касается показа видео. А что с «видением»? О распознавании изображений мы уже говорили. Что касается распознавания движений, то всевозможные детекторы движений (используемые системами видеонаблюдений для записи только происшествий, а не неподвижных картин) и цифровые стабилизаторы изображений (в видеокамерах и программах нелинейного монтажа) как раз и являются его яркими примерами.

Прогноз

Раньше такое отношение к людям со стороны разработчиков человеко-машинных интерфейсов (тоже ведь, между прочим, людей!) оправдывалось невероятными сложностями технической реализации более «человечных» интерфейсов, а разработки языков программирования «по образу и подобию» человеческой речи вообще были признаны нецелесообразными ввиду своей тупиковости. Но разработка искусственного интеллекта или написание сложных программных проектов и процесс общения с каким-либо из представителей бытовой электроники - задачи, мягко говоря, разные. Функциональная оправданность - вот на что следует делать упор. Маловероятно, что в справочной аэропорта пассажиры будут интересоваться жизнью и творчеством Уильяма Шекспира. Ограничение словарного запаса для систем распознавания речи не будет фатальным для нужд управления той же домашней электроникой. Слов «включить»-«выключить», «мягче»-«ярче» вполне достаточно для задач управления комнатным освещением, и незнание такой системой слова «электрификация» не будет ни показателем ограниченности ее кругозора, ни проблемой для пользователя.

Попытки подстраивать машины под людей, а не наоборот, ведутся давно, и определенные результаты уже присутствуют на рынке. Здесь и говорящие с потребителями для упрощения своей настройки и программирования видеомагнитофоны, и стиральные машины, и телевизоры, и голосовые команды в мобильных телефонах и компьютерных системах, и чувствительные к прикосновению информационные экраны с самой, пожалуй, человечной системой – «покажи пальцем», и телевизоры объёмного изображения, которые следят за положением зрителя относительно экрана для корректного отображения стереокартинки.

Мы так много говорили о компьютерах, и это не удивительно. Только компьютерные системы позволят осуществить в полной мере новую идею человеко-машинного интерфейса. Речь не идет о каком-то отдельно стоящем компьютере, решающем коммуникативные задачи. Если ваш цифровой фотоаппарат печатает фотографии на цветном принтере без участия компьютера, то это означает, что компьютеры уже встроены как в фотоаппарат, так и в принтер. Это специализированные компьютеры, предназначенные для выполнения определенного узкого круга задач, и возможность перепрограммировать их (в данном случае чаще используют жаргонное «перепрошивать») позволяет, как расширять имеющиеся функции, так и добавлять новые. Яркий, хотя и не совсем законный, пример: превращение сотового телефона Siemens A55 в Siemens C55, даже без вскрытия аппарата - одной только полной «перепрошивкой» внутренней флэш-памяти. Именно внедрение компьютеров в бытовую электронику даёт возможность различным устройствам распознавать голосовые команды, автоматически выбирать режимы съёмки, декодировать различные видео и аудиопотоки, понимать рукописный ввод и многое другое.

Успехи роботехники позволяют уже сегодня объединять всё это в одной системе. Робот-андроид ASIMO, например, узнаёт конкретного человека по голосу, может поддерживать простую беседу. Система распознавания изображений позволяет ему узнавать людей и даже их жесты (можно подозвать робота поближе, просто поманив рукой). Для многих бытовых задач сегодня уже и этого слишком много. Остается только отшлифовать некоторые острые углы (распознавание произвольной речи без предварительного обучения системы потребителем и привязки к конкретному голосу, выделение полезной информации из общего акустического фона и т.п.) и можно будет ждать широкого внедрения технологий в обычную домашнюю аппаратуру - поначалу в hi-end и hi-fi класса. Последние разработки позволяют тому же ASIMO распознавать относящиеся именно к нему фразы при разговоре в небольшой компании. Весьма ценное качество, которое убережет нас в будущем от скучной и бессмысленной утренней беседы холодильника с кухонной плитой, которая может завязаться из-за риторической фразы, оброненной вами спросонья жене за завтраком.

Продолжение следует >>




Оставить комментарий





||