Обзор программ для извлечения терминологии

Меню сайта

Не пропустите!

Всё самое интересное по английскому языку в нашей рассылке! Присоединяйтесь!

Укажите Ваш email:

Обзор программ для извлечения терминологии

Особую значимость составление собственного глоссария приобретает при переводе больших объемов текста, если присутствует несколько файлов на перевод с единой терминологией (например, серия технических руководств). Использование глоссария позволяет, в таком случае, сохранить единство терминологии при переводе и сэкономить время, необходимое на поиск нужного варианта перевода.

Кроме того, после завершения работы и сдачи перевода заказчику, глоссарий сохраняется у вас для возможного повторного использования.

Чем извлекать терминологию?

Существует множество программ для автоматизированного извлечения терминологии. Перечислим наиболее распространенные:

Simple Concordance Program

Сайт разработчика: http://www.textworld.com

Условия распространения: Бесплатная.

Ссылка на скачивание: скачать Simple Concordance Program 4.09 (обязательно проверьте наличие новой версии на сайте разработчика)

Описание: Простая в использования и предоставляемой функциональности программа, с помощью которой можно извлекать термины и словосочетания, задавая число слов в словосочетании. Поддерживаются алфавиты: Английский, Французский, Немецкий, Польский, Греческий, Русский.

Программа извлекает найденные термины в список, которые, после этого, могут быть отредактированы вручную.

Существует возможность подключить так называемый stop list - список из слов, которые не относятся к терминологии. К примеру, артикли, предлоги, общие слова (little, large). Вы можете взять stop list по следующей ссылке - скачать stop list (англ. язык, названия стран, предлоги, артикли, общие слова).

MonoConc Pro

Сайт разработчика: http://www.athel.com

Условия распространения: Платная.

Ссылка на скачивание: MonoConc Pro 3.0 DEMO (обязательно проверьте наличие новой версии на сайте разработчика)

Описание: MonoConc Pro 3.0 имеет приемлемое количество настроек для поиска, но при этом является платной. Программа способна обеспечить сравнительно быстрый поиск, поддерживает анализ нескольких языков, среди них Английский, Испанский, Французский, Японский и Китайский.

Concordancer for Windows

Сайт разработчика: http://www.linglit.tu-darmstadt.de

Условия распространения: Бесплатная.

Ссылка на скачивание: Concordancer for Windows 3.0 (обязательно проверьте наличие новой версии на сайте разработчика)

Описание: Простая и бесплатная в применении программа, но весьма ограниченная в настройках. Главным недостатком можно считать отсутствие возможности задать "черный список" терминов, в итоге в качестве терминов предлагается большое количество предлогов и артиклей. Нет фильтрации по частоте встречаемости терминов.

MultiTerm Extract

Сайт разработчика: http://www.sdl.com

Условия распространения: Входит в состав системы Trados Multiterm, система платная.

Описание: Прежде всего, отметим, что для работы с программой, вам понадобится версия Java 1.4.2_08, ни с какой другой версией Java программа работать не будет! Не забудьте удалить более новую версию Java перед установкой. Проверить вашу текущую версию Java, вы можете набрав в командной строке Windows команду: java -version.

Очень функциональная программа. Среди наиболее полезных функций можно выделить:

  • извлечение терминологии из одноязычных текстов;
  • извлечение терминологии из двуязычных (параллельных) текстов с возможностью последующего перевода извлеченных терминов методом их сопоставления со словами из текста второго языка;
  • перевод описанным выше методом существующей непереведенной базы терминов;
  • анализ и улучшение качества терминологии существующих баз терминов и документов;
  • извлечение терминов из файлов со специальным форматированием (.asp, .jsp, .html, . sgml, .xml);
  • наличие собственного "черного списка" терминов и возможность добавления пользовательского списка;
  • настройка точности поиска терминов - мин/макс количество слов в словосочетании, настройка отношения Silence/noise при поиске (напрямую задает количественным или же качественным должен быть поиск).

PROMT Terminology Manager - PROMT TerM

Сайт разработчика: http://www.promt.ru

Условия распространения: Входит в состав системы PROMT, система платная.

Описание: Крайне удобная и простая в применении и настройках программа. Большое количество весомых плюсов: настройка "черного списка", гибкая настройка условий поиска (частота встречаемости, установка разделителей слов, и предложений и т.д.), мгновенный перевод найденных терминов, наглядная демонстрация контекста для найденного термина и тесная интеграция с системой TM Trados. В итоге, полученный после обработки результат требует минимальных усилий на редактуру.

Word Tabulator

Сайт разработчика: http://www.rvb.ru

Условия распространения: Бесплатно.

Ссылка на скачивание: Word Tabulator 2.2.3 (обязательно проверьте наличие новой версии на сайте разработчика)

Описание: Быстрая и простая программа. Однако из-за отсутствия возможности установки "черного списка" терминов, также выдает большое количество предлогов, артиклей и общих слов, таким образом, время и усилия, необходимые на редактуру увеличиваются. Поддерживается русский язык, а также присутствует подробная справка на русском языке.

Сравнение эффективности программ извлечения терминологии

Рассмотрим возможности программ, на примере обработки текста взятого из книги G. J. Myers - The Art of Software Testing, 2nd Edition (глава 1).

Название программы Количество найденных терминов Плюсы Минусы
PROMT Terminology Manager - PROMT TerM

Терминов: 68,
Словосочетаний: 8
Слов, найденных в словарях: 57,
Словосочетаний, найденных в словарях: 4

Скачать отчет

- Настройка "черного списка" (слова которые не являются терминами);
- Гибкая настройка условий поиска (частота встречаемости, установка разделителей слов, и предложений и т.д.);
- Мгновенный перевод найденных терминов;
- Наглядная демонстрация контекста для найденного термина;
- Интеграция с TM Trados.
Входит в состав системы PROMT, система платная.
MultiTerm Extract 7.0.2 DEMO

Терминов: 33
Словосочетаний: 18

Скачать отчет

- Извлечение терминологии из одноязычных текстов;
- извлечение терминологии из параллельных текстов с последующим переводом;
- перевод существующей непереведенной базы терминов;
- анализ и улучшение качества терминологии существующих баз терминов и документов;
- Извлечение терминов из сложных форматов файлов (.html, .xml и т.п.);
- наличие собственного "черного списка" терминов, возможность добавления собственного списка;
- Настройка точности поиска терминов - мин/макс количество слов в словосочетании, возможность установки количественным или качественным должен быть поиск.
- Входит в состав системы Trados Multiterm, система платная.
- DEMO версия не позволяет сохранить извлеченные термины и созданный проект.
Simple Concordance Program, версия 4.09

Терминов: 224

Скачать отчет

- Настройка "черного списка" - stop list (слова которые не являются терминами);
- Фильтрация по длине слов, по частоте встречаемости термина, по шаблонам (префиксы и суффиксы термина, части в середине слова);
- Программа бесплатна.
- Отсутствует контекстный просмотр для найденных терминов;
MonoConc Pro, версия 2.2 DEMO

Терминов: 69

Скачать отчет

- Настройка "черного списка" (слова которые не являются терминами);
- Фильтрация по частоте встречаемости.
- Программа платная.
Concordancer for Windows, версия 3.0

Терминов: 360

Скачать отчет

- Настройка для поиска ключевых слов в контексте;
- Программа бесплатна.
- Отсутствует возможность настройки "черного списка" (слова которые не являются терминами);
- Отсутствует возможность настройки по частоте встречаемости.
Word Tabulator 2.2.3

Терминов: 118

Скачать отчет

- Настройка поиска: установка символов разделителей, ключевых слов для поиска, частота встречаемости термина и длина слов;
- Программа бесплатна.
- Отсутствует возможность настройки "черного списка" (слова которые не являются терминами);

Выводы

На основе приведенных данных, можем заключить, что лидерами среди программ автоматизированного извлечения терминологии можно считать коммерческие продукты PROMT Terminology Manager (PROMT TerM) и MultiTerm Extract. Эти продукты поддерживают большое количество функций, значительно улучшающих эффективность работы и сокращающие время, необходимое на постредактирование полученных данных. Из бесплатных программ, можно выделить Simple Concordance Program- весьма простая в применении программа, имеет приемлемое количество настроек для поиска и предлагает хорошие результаты обработки.


Теги: автоматизированный перевод | извлечение терминологии | терминология

 

Добавить комментарий

Вы pобoт:


Поиск по сайту

Использование материалов в интернете допустимо только с согласия авторов, с обязательной гиперссылкой на сайт www.englishelp.ru
Использование материалов в печатных СМИ возможно только после получения письменного разрешения авторов.