Dzmuh: Новая страница: «В настоящее время, несмотря на большие достижения в разработке программ для автоматизации перевода, машинный перевод все ещё не способен выдавать адекватный и эквивалентный результат, поэтому возникает вопрос об оценке текстов, пе...»

2023-05-04T02:49:53Z

Новая страница: «В настоящее время, несмотря на большие достижения в разработке программ для автоматизации перевода, машинный перевод все ещё не способен выдавать адекватный и эквивалентный результат, поэтому возникает вопрос об оценке текстов, пе...»

Новая страница

В настоящее время, несмотря на большие достижения в разработке программ для автоматизации перевода, [[Машинный перевод|машинный перевод]] все ещё не способен выдавать адекватный и эквивалентный результат, поэтому возникает вопрос об оценке текстов, переведенных с помощью автоматизированного компьютерного перевода <ref>{{Cite web |url=http://vestnik.osu.ru/2017_2/18.pdf |title=Архивированная копия |access-date=2021-01-08 |archive-date=2021-01-11 |archive-url=https://web.archive.org/web/20210111155843/http://vestnik.osu.ru/2017_2/18.pdf |deadlink=no}}</ref>.

== Оценка качества перевода ==
На сегодняшний день существуют различные системы машинного перевода, некоторые из них выполняют перевод на довольно высоком уровне. Но для того, чтобы выявить, какие именно системы подходят для работы с теми или иными языками или типами текстов, необходимо осуществлять тестирование этих систем и анализировать качество перевода на основе больших фрагментов текстов.

Японский ученый Макато Нагао, специалист по компьтерным наукам, предложил шкалу оценки машинного перевода на основе лингвостилистического анализа, от пяти до одного балла <ref>{{iw|Maschinelle Übersetzung||de|Maschinelle Übersetzung}}</ref>.

* 1 балл — смысл предложения понятен и не возникает никаких вопросов, грамматика, словоупотребление и стиль соответствуют общей структуре текста и не требуют постредактирования
* 2 балла — смысл предложения понятен, но возникают большие проблемы с грамматикой, словоупотреблением и стилем.
* 3 бала — общий смысл предложения понятен, но смысл некоторых его частей вызывает сомнение из-за неправильного грамматического строя.
* 4 балла — присутствуют ошибки словоупотребления и стилистики, требуется обращение к оригиналу.
* 5 баллов — в предложении имеется большое количество грамматических, словоупотребительных и стилистических ошибок, смысл предложения с трудом можно понять после внимательного изучения.

Для автоматической оценки работы машинных переводчиков зачастую используются показатель Word Error Rate или WER, метрики BLEU и NIST. Эти инструменты позволяют успешно сравнивать работу разных систем МП и оценивать улучшения в работе конкретной системы <ref>[Vilar, 2006]</ref>.

=== BLEU ===
Метрика BLEU (Bilingual Evaluation Understudy) на данный момент самая популярная в современной оценке МП. Позволяет учитывать не только точность перевода отдельных слов, но и цепочек слов ([[N-грамма|N-граммы]]) [МП: обзор методов].

Метрика BLEU была разработана сотрудниками компании IBM и является одной из самых простых в использовании метрик оценки машинного перевода. Алгоритм BLEU оценивает качество перевода по шкале от 0 до 100 на основании сравнения машинного перевода с человеческим и поиска общих слов и фраз. Основная идея разработчиков метрики состоит в том, что чем лучше машинный перевод, тем больше он должен быть похож на человеческий <ref>[Молчанов, 2013]</ref>.

Лучше всего такая метрика работает не на уровне предложений, а на уровне большого текста. На маленьком объёме текста метрика зачастую обнуляется из-за отсутствия совпадающих 4-грамм и работает некорректно. Существуют также доработанные варианты метрики, которые подходят для сравнения на уровне предложения.

=== NIST ===
Метрика NIST была разработана на основе BLEU, но имеет одно фундаментальное отличие. Если для получения высокой оценки BLEU важнее правильный порядок слов, то NIST выше оценивает правильный выбор лексики <ref name="автоссылка1">[Zhang, 2004]</ref>.

=== WER ===
Word Error Rate, или взвешенное расстояние Левенштейна, позволяет измерять расстояние между машинным и образцовым переводом так же, как мы измеряем расстояние между словарным словом и словом с опечаткой (считая символами не буквы, а целые слова) [МП: обзор методов]. По сути WER измеряет минимальное количество изменений, которые необходимо сделать, чтобы из результата работы МП получить эталонный перевод <ref>[Koehn, 2010]</ref>. При этом WER может учитывать различные варианты эталонного перевода с разным порядком слов <ref name="автоссылка1" />.

== Примечания ==
{{примечания}}

== Ссылки ==
{{википедия|Качество машинного перевода}}
* [http://vestnik.osu.ru/2017_2/18.pdf] {{Wayback|url=http://vestnik.osu.ru/2017_2/18.pdf |date=20210111155843 }}
* [https://de.wikipedia.org/wiki/Maschinelle_Übersetzung] {{Wayback|url=https://de.wikipedia.org/wiki/Maschinelle_%C3%9Cbersetzung |date=20220402195930 }}
* [Vilar D., Jia Xu, D’Haro L., Ney H. Error Analysis of Machine Translation Output. In International Conference on Language Resources and Evaluation, pages 697—702, Genoa, Italy, 2006.]
* [Машинный перевод: обзор методов и оценка качества. URL: http://lpcs.math.msu.su/~pentus/mfk2015/Lecture07_20151021.pdf {{Wayback|url=http://lpcs.math.msu.su/~pentus/mfk2015/Lecture07_20151021.pdf |date=20210109135936 }}]
* [Молчанов А. Статистические и гибридные методы перевода в технологиях компании ПРОМТ. М., 2013.]
* [Koehn, P. Statistical Machine Translation. Cambridge, UK, 2010.]
* [Zhang Y., Vogel S., Waibel A. Interpreting BLEU/NIST Scores: How Much Improvement do We Need to Have a Better System? // Proceedings of the Fourth International Conference on Language Resources and Evaluation (LREC-2004), Lisbon, Portugal, 2004.]

[[Категория:машинный перевод]]

Качество машинного перевода - История изменений