Главная arrow Справочник arrow Компьютерный переводчик: история и современность
Компьютерный переводчик: история и современность

 Компьютерный перевод  необходим

Возникший как важная составляющая человеческого общения, перевод с языка на язык служит как общекультурным (например, взаимообогащению литератур разных народов), так и вполне утилитарным целям. В последние десятилетия все чаще требуются переводы текстов специального характера – экономических, юридических, технических, при работе с которыми главная функция перевода – не эстетическая, общекультурная, а информационная и коммуникативная.
Принято считать, что мировая история машинного перевода началась с появлением компьютеров. Но идея носилась в воздухе с давних времен, принимая подчас весьма причудливые формы... Появление первых ЭВМ лишь позволило начать воплощение фантастических проектов в жизнь. Сегодня обострение языковых проблем и прогресс в области высоких технологий диктуют направления поиска новых решений.

Машинный перевод: истоки
Впервые мысль о возможности автоматического перевода в начале 40-x годов XIX века высказал британский математик Чарльз Бэббидж. Он пытался убедить правительство в необходимости финансировать исследования по разработке механического прототипа ЭВМ и обещал, что его машина сможет переводить разговорную речь... Проекту Бэббиджа суждено было остановиться на стадии прототипа, и его идеи на сто лет легли под сукно.
В 1933 году изобретатель П.П.Смирнов-Троянский получил в СССР патент на механическую «машину для подбора и печатания слов при переводе с одного языка на другой». Огромная заслуга этого человека в том, что он предложил и автоматический двуязычный словарь, и схему кодирования межъязыковых грамматических соответствий; правда, только для «синтетического» языка эсперанто. «Лингвистический арифмометр» Смирнова-Троянского опередил время, но дошел до наших дней лишь в списке научных курьезов: расширить его функциональность для работы с естественными языками так и не удалось.
Bell Labs продемонстрировала первое электронное устройство синтеза речи, «прапредок» современных систем перевода «на лету», на Всемирной ярмарке 1939 года в Нью-Йорке. Практического значения «железный болтун» так и не получил, но вызвал огромный интерес.
Появление ЭВМ заставило иначе взглянуть на машинный перевод. Можно сказать, что первые компьютеры, задействованные в расшифровке сообщений во время второй мировой войны, тоже трудились над переводами (только, согласитесь, несколько специфическими). Вплоть до конца 40-х годов ХХ века машинный перевод был скорее объектом увлекательных исследований, чем важной сферой использования вычислительной техники. Его история как научно-прикладного направления началась в 1947-м...

Что такое машинный перевод?
Машинный (он же автоматический, компьютерный, электронный) перевод – действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст на другом естественном языке, а также результат такого действия. Программный комплекс системы машинного перевода (СМП) включает в себя двуязычные словари, снабженные грамматической информацией (морфологической, синтаксической и семантической), необходимой для передачи переводных соответствий, а также средства грамматического анализа.

МТ, ТМ и другие

«Электронные переводчики» первого поколения – системы прямого перевода (СПП) – представляли собой программно-аппаратные комплексы и анализировали текст «слово за словом» (смысловые связи и нюансы при этом практически не учитывались). Возможности СПП определялись доступными размерами словарей, прямо зависящими от объема памяти компьютера. Именно к категории СПП относилась IBM Mark II, сделавшая принципиально возможным Джорджтаунский эксперимент.

· На смену СПП со временем пришли Т-системы (от английского Transfer – «преобразование»), в которых перевод осуществлялся на уровне синтаксических структур (так учат языку в средней школе). Они выполняли набор операций, позволяющих путем анализа переводимой фразы определять ее синтаксическую структуру по правилам грамматики входного языка, а затем преобразовывать ее в синтаксическую структуру выходного предложения и синтезировать новую фразу, подставляя нужные слова из словаря выходного языка. Работы в этом направлении сейчас уже не ведутся: практикой доказано, что реальная система соответствий сложнее и адекватный перевод требует принципиально иного алгоритма действий.

·Немногим позднее становящиеся все более многочисленными системы машинного перевода в зависимости от принципа их работы стали подразделять на МТ-программы (от Machine Translation – «машинный перевод») и ТМ-комплексы (от Translation Memory – «память переводов»).

В качестве реально успешного примера МТ-программы назовем знаменитую канадскую систему METEO, выполняющую перевод метеопрогнозов с французского языка на английский и обратно (она была создана почти тридцать лет назад и эксплуатируется по сей день!). Разработчики METEO сделали ставку на то, что действительно автоматизированный машинный перевод возможен только в условиях искусственно ограниченного (как по словарному запасу, так и по грамматике) языка. И добились успеха.
Наиболее популярным в мире профессиональным TM-инструментом является пакет Translation’s Workbench фирмы TRADOS (для краткости часто также называемый TRADOS). Подобные программы используют в основном профессиональные переводчики, осознавшие выигрыш от частичной автоматизации своей работы с помощью компьютера при переводе повторяющихся текстов, сходных по тематике и структуре.
Основная идея Translation Memory – не переводить один и тот же текст дважды. Эта технология базируется на сравнении документа, который нужно перевести, с данными, хранящимися в предварительно созданной «входной» базе. Когда система находит фрагмент, соответствующий заранее определенным критериям, то его перевод берется из «выходной» базы. Получаемый в итоге текст подлежит интенсивному пост-редактированию человеком.

· В 1990 г., когда системы машинного перевода снова стали одним из приоритетных направлений развития компьютерной отрасли и вышли на новый качественный уровень, пройдя непростой этап переосмысления и взаимной интеграции, Ларри Чайлдс предложил их классификацию, актуальную до сих пор. Он разделил все «электронные переводчики» на три группы.

·FAMT (Fully-Automated Machine Translation) – инструменты полностью автоматизированного машинного перевода. Такие системы пока находятся в стадии разработки, поскольку проблемы автоматического понимания, перевода и синтеза «живых» текстов еще не решены, и это едва ли случится в ближайшее время. Одним из видов FAMT-программ являются уже существующие системы перевода устной речи «на лету»... Но их возможности пока чрезвычайно ограничены.

· HAMT (Human-Assisted Machine Translation) – приложения для автоматизированного машинного перевода текстов, выполняемого при участии человека; причем в эту группу входят как продукты, «выросшие» из ТМ- и МТ-систем, так и базирующиеся на иных принципах – статистическом, фразеологическом и т.д., и комплексные решения. HAMT-системы немногочисленны и пока далеко не универсальны, поскольку их реализацию сдерживают все те же объективные факторы. В этой области добилась больших успехов российская фирма ПРОМТ; интересные разработки есть и у других компаний. Мы подробно расскажем о пакете PROMT Professional 8.0.

· MAHT (Machine-Assisted Human Translation) – вспомогательные средства для выполнения перевода человеком с использованием компьютера. К категории MAHT-приложений сегодня относится абсолютное большинство «электронных переводчиков» и компьютерных словарей – как программных, так и онлайновых.

Вероятно, вам покажется странным отсутствие в этом списке знаменитых (и не очень) зарубежных компаний и их прославленных (и не очень) продуктов. Причина проста: мы назвали здесь лишь те СМП, которые рассматривают русский язык как «базовый», а не только как подлежащий переводу на другие базовые языки иностранный. Увы, выпускают их лишь в России, Украине и Канаде (в США русский язык адекватно поддерживают лишь профессиональные СМП). Прочие системы и поддержки русского языка на уровне интерфейса не имеют, и качество перевода демонстрируют далекое от идеала, и стоят весьма недешево, и купить их в России затруднительно (разве что заказать через Интернет).

Страницы истории: первый триумф
Принято считать, что основные принципы современного машинного перевода были изложены в 1947 г. Уорреном Уивером. Рассматривая перевод текстов с одного языка на другой как возможную область применения техники дешифрования, он писал: «У меня перед глазами текст, написанный по-русски, но я собираюсь сделать вид, что на самом деле он написан по-английски и закодирован при помощи довольно странных знаков. Все что мне нужно – это взломать код, чтобы извлечь информацию, заключенную в тексте».
В те времена немногочисленные компьютеры использовались в основном для решения военных задач, поэтому неудивительно, что в США основное внимание уделялось русско-английскому, а в СССР – англо-русскому направлению перевода. К началу 50-х годов над проблемой автоматического перевода бился целый ряд исследовательских групп.
В 1954 г была представлена первая полноценная программно-аппаратная система машинного перевода – IBM-701 (IBM Mark II), разработанная компанией IBM совместно с Джорджтаунским университетом (это событие вошло в историю как Джорджтаунский эксперимент). Очень ограниченная в своих возможностях система великолепно переводила 49 специально подобранных предложений с русского языка на английский с использованием словаря на 250 слов и шести грамматических правил.
Начался настоящий «бум» СМП. Но результаты очень скоро начали разочаровывать... Одной из главных причин невысокого качества машинного перевода в те годы были аппаратные ограничения (малый объем памяти ЭВМ при медленном доступе к содержащейся в ней информации). Кроме того, отсутствовала теоретическая база, необходимая для решения лингвистических проблем. Вынужденное затишье продолжалось до начала 70-х.

Ограничим рамки...
Итак, системы машинного перевода появились давно, развиваются интенсивно и весьма разнообразны. Рассмотреть все крайне сложно, да и не нужно – во всяком случае, в нашем журнале.

·Мы ограничились рассмотрением только программных и аппаратных средств, работающих над переводом с русского языка на английский и обратно. Ситуация для данной языковой пары, безусловно, показательна, но следует учитывать, что именно перевод с/на английский для русскоговорящих пользователей (да и не только для них) представлен наибольшим числом программ, сервисов и устройств. С русско-немецким, -французским, -итальянским переводом дело обстоит несколько хуже. Для остальных языков наличие хотя бы нескольких доступных СМП – редкость...

·В данной статье описаны только программы, устройства и сервисы «любительского уровня», ориентированные на «среднестатистического пользователя», которому требуется не переводить «Гамлета», а разобраться в содержании электронных писем, объявлений, инструкций, веб-страниц на английском языке, а также иметь возможность объясниться с англоговорящими людьми на бытовые и деловые темы – понятно написать e-mail, постинг в блоге, комментарий на сайте, SMS или несколько реплик в «мессенджере».

·Как обычно, мы будем рассматривать СМП с практической точки зрения. Объясним и покажем на примерах, чего следует и чего бессмысленно ждать от имеющихся сегодня инструментов и на что у нас – возможно! – появится шанс рассчитывать в будущем.

Как это работает?
Современные технологии ушли далеко вперед от первых попыток «засунуть переводчика в компьютер». FAMT- и НАМТ-системы машинного перевода находятся в шаге от того, чтобы именоваться системами искусственного интеллекта, поскольку они уже выполняют отдельные функции человеческого мозга: в частности, конструируют текст на выходном языке на основе входного, пользуясь сводом определенных правил, заданных в виде структур данных и алгоритмов.
Алгоритм перевода – это последовательность однозначно и строго определенных действий над текстом, необходимых для нахождения оптимальных переводных соответствий в данной паре языков при заданном направлении перевода.
Абсолютно универсальных алгоритмов, конечно, не существует ни для FAMT- и НАМТ-, ни даже для МАНТ-систем, поскольку разные продукты базируются на различных подходах к переводу. Однако некую общую схему составить можно. Следует учитывать, что данная схема является приблизительной, упрощенной, и в рамках каждой процедуры как человеком, так и машиной выполняется целый комплекс разнообразных действий. Поясним ключевые фрагменты.

1.Человек вводит текст в компьютер и выполняет ручную настройку СМП: определяет параметры входного и выходного языка, выбирает базовую тематику и терминологические словари для перевода специальной лексики, задает ограничения на перевод встречающихся в тексте имен собственных и т.п.

2.Программа выполняет поиск словоформ в словаре входного языка, а также морфологический анализ входной информации. В процессе анализа (по статистической, фразеологической или МТ-технологии) могут быть получены и другие сведения.

3.Программа производит поиск соответствий. Сначала выполняется перевод идиом, фразеологических единств и штампов данной предметной области. Затем – определение основных грамматических характеристик остальных элементов входного текста (например, числа существительных, времени глаголов и пр.). Обычно на этом этапе однозначные слова отделяются от многозначных, после чего однозначные слова переводятся по спискам эквивалентов, а для перевода многозначных слов используются специализированные словари. Завершают процедуру лексический анализ входной информации и собственно перевод. На этом этапе в работу некоторых программ может включаться человек, подсказывающий машине внеязыковые нюансы, которые ей непонятны: например, какое именно из нескольких значений слова в данном случае следует выбрать.

4.Затем программа выполняет грамматический анализ полученного чернового перевода, в ходе которого с учетом данных выходного языка доопределяется недостающая грамматическая информация (например, выясняется, какое из трех времен русского глагола в данном контексте лучше соответствует «настоящему продолженному» времени глагола английского).

5.Выполняется синтез выходных словоформ и текста в целом.

6.За работу снова берется человек, который исправляет ошибки и сглаживает недочеты в выполненном машиной переводе.

Примечание: Разумеется, все вышесказанное относится лишь к «полноценным» СМП, реализующим «перевод текста в текст». Словари, разговорники и прочие программы для пословного или пофразового перевода функционируют гораздо проще.

Достоинства программ машинного перевода

1.Высокая скорость работы. Перевод многостраничного документа средствами СМП занимает секунды! Это позволяет быстро понять смысл текста, и нередко (в зависимости от характера переводимого текста) для получения удовлетворительного результата требуется лишь минимальная редакторская правка.

2.Низкая стоимость. Обращаясь к профессиональным переводчикам, приходиться платить немалые деньги – от $5 до $20 за каждую страницу переводимого текста. Делая выбор даже в пользу коммерческой СМП, вы раскошеливаетесь только один раз – при покупке программы. Согласно опросам обладателей продуктов компании ПРОМТ, при средней интенсивности использования PROMT 4U, например, окупается примерно за месяц!

3.Доступность сервиса. Программа-переводчик всегда под рукой – на стационарном и портативном компьютере, в интернет-кафе – в виде онлайнового сервиса, на КПК, коммуникаторе или смартфоне – в «облегченной» версии.

4.Конфиденциальность. «Электронному переводчику», в отличие от живого, вы можете спокойно доверить личные, медицинские, деловые, финансовые сведения, не опасаясь ни разглашения, ни злоупотреблений.

Разумеется, все эти преимущества окажутся неактуальными, например, при попытке выполнить автоматический перевод стихотворения или художественной прозы. Кроме того, говоря про автоматический перевод, не следует забывать и про «человеческий фактор» – СМП не имеют «защиты от дурака» так что, пытаясь переводить инструкцию к бытовой технике при активированном словаре медико-биологической тематики, результат вы получите, мягко говоря, забавный...
врезка Страницы истории: новый взлет

Разведка боем
«Машинный перевод все еще далек от совершенства, но любой желающий с его помощью может, по крайней мере, понять основной смысл документа». Этот комментарий Луи Монье, технологического директорв портала Alta Vista, был и остается одной из наиболее точных характеристик ситуации с машинным переводом. Да, он не идеален. Но...

· Машинный перевод безусловно рентабелен в ситуациях, когда отсутствие времени и доступность – более важные условия, нежели абсолютная стилистическая точность.

· Машинный перевод (даже далекий от идеала) лучше, чем отсутствие какого-либо.

· В большинстве реальных ситуаций – не «СМП против переводчиков», а «машинный перевод – против отсутствия переводов».

Сказанное актуально при все возрастающих объемах работ по переводу, связанных, в первую очередь, с ростом и развитием Интернета. К тому же нельзя тешить себя иллюзиями, что человек – даже профессиональный переводчик – может сразу качественно перевести любой текст (особенно с незнакомой лексикой). Доказательство тому – сравнительный тест работы человека-переводчика, программной и онлайновой СМП, который мы позволили себе провести.

Источник - http://www.computerbild.ru/soft/4860/

 
пїЅпїЅпїЅпїЅпїЅпїЅпїЅпїЅ пїЅпїЅпїЅпїЅпїЅпїЅпїЅпїЅпїЅпїЅпїЅпїЅпїЅ пїЅпїЅ 0.029406 пїЅпїЅпїЅпїЅпїЅпїЅ
пїЅпїЅпїЅпїЅпїЅпїЅ.пїЅпїЅпїЅпїЅпїЅпїЅпїЅ