Переводчик с рассказа на английский

Недавно мы впервые показали прототип переводчика видео в яндекс.браузере. прототип работал с ограниченным числом роликов, но даже в таком виде

6qpsema3qxbzd3leyedp9hf 7v0

Недавно мы впервые показали прототип переводчика видео в Яндекс.Браузере. Прототип работал с ограниченным числом роликов, но даже в таком виде вызвал интерес у пользователей. Теперь мы переходим к следующему ключевому этапу: в новых версиях Браузера и приложения Яндекс перевод доступен для всех англоязычных роликов на YouTube, Vimeo, Facebook и других популярных платформах.

Сегодня я не только расскажу о том, как устроен новый переводчик видео и какие у нас планы, но и поделюсь предысторией. Потому что считаю, что контекст важен: мы шли к этому шагу более десяти лет. Но если история вам вдруг не интересна, то можете сразу переходить к разделу «Перевод видео», где я описал работу технологии (а точнее, целого комплекса наших технологий) по шагам.

Десятью годами ранее

В 2011 году в Яндексе решалась судьба собственного полноценного браузера. На тот момент браузеров на любой цвет и вкус уже хватало. Но почти все они создавались «где-то там»: без оглядки на рунет и потребности тех пользователей, для которых английский язык и латиница не были родными. Поэтому мы решили создать свой браузер, который бы в числе прочего более полно поддерживал русский язык и наши с вами «региональные» потребности. Уверен, эта фраза звучит непонятно, поэтому ниже вас ждут два моих любимых примера. Они не связаны с переводом, но показательны.

Пример с поиском по странице

Русский язык отличается богатой морфологией. Падежи, род, бо́льшая свобода в построении предложений — всё это приводит к разнообразию форм одного и того же слова и способов написать одну и ту же фразу. При этом классический поиск по странице, который работает одинаково во всех известных мне браузерах, умеет искать только точные вхождения слов в тексте. Наш поиск работает гибче и учитывает морфологию русского языка. Наглядный пример:

Кстати, этой фиче был посвящён мой самый первый пост на Хабре в 2013-м. Как будто вчера это было.

Пример с адресной строкой

Что будет, если ввести в адресную строку [ь]? Скорее всего, браузер предложит вам отправиться в поисковую систему и поискать там мягкий знак. Но чего на самом деле хотел человек, который набрал [ь]? Ответ: вероятно, он привык ходить на [m.habr.com] или [maps.yandex.ru], но забыл переключить раскладку на клавиатуре.

В отличие от англоязычной аудитории, нам с вами приходится жить в мире двух алфавитов и постоянно переключаться между ними. Это приводит к ошибкам. А ошибки приводят к выбору: или ввести адрес заново, или совершить лишний переход в поисковую систему. Мы — за экономию времени, поэтому учли подобные ошибки с раскладкой ещё в самой ранней версии 2012 года. В таких ситуациях Яндекс.Браузер исправляет раскладку «в уме» и предлагает перейти не в поиск, а сразу и в один клик — на нужный сайт.

ciadkgppom2eu5bplkf1jj5w 5m

Таких примеров много, но думаю, суть я передал. В любом случае все они меркнут на фоне главной проблемы, которой мы бросили вызов: проблемы языкового барьера.

Перевод текста

В интернете более миллиарда сайтов, но лишь около 9% — на русском языке. Интернет быстро растёт, но опять же — в основном за счёт иностранных сайтов. Информация, которая создаётся там, недоступна для большинства наших пользователей здесь.

Ещё тогда — в 2011-м — мы решили изменить это и помочь распространению знаний между пользователями. К счастью, в том же году появился Яндекс.Переводчик (тогда он ещё назывался Яндекс.Перевод). В его основе была технология статистического машинного перевода собственной разработки. Мы применили её и в Яндекс.Браузере. Да, мы не были первыми: Chrome уже умел подобное. Но в нашем случае переводчик работал с одной актуальной для рунета особенностью.

Большинство из нас с детства учит английский язык. Кто-то овладел им в совершенстве, но многие знают его достаточно фрагментарно, на уровне «читаю и пишу со словарём». Поэтому для нас особенно полезна возможность переводить не только страницы целиком, но и отдельные фразы и слова. Так мы пополняем словарный запас, продолжаем совершенствовать знания. Так оно и работает в Яндекс.Браузере с первого дня его существования.

0ptd3y9 jdaulnfq7f bnbokmly

Перевод картинок

Перевод текста — это хорошо. Но мы не должны забывать, что текст встречается ещё и на изображениях. Например, заметная часть сайтов израильских государственных организаций предпочитает именно такой способ размещения информации. Похожую картину можно увидеть на корейских, китайских, арабских сайтах. Аналогичная ситуация с техническими характеристиками товаров в иностранных интернет-магазинах.

Особенность этой задачки в том, что для её решения нужно объединить три технологии, которые отрабатывают последовательно. Сначала с помощью компьютерного зрения найти текст на картинке и распознать его в текстовый формат (OCR), затем с помощью машинного перевода перевести текст на русский язык, ну а вишенка на торте — рендеринг перевода поверх оригинальной картинки. Тут на каждом шаге можно закопаться в самостоятельную статью, поэтому я расскажу про самое неочевидное: про то, как мы боролись за экономию ресурсов.

Итак, можно взять исходную картинку, отправить в оригинальном виде из Браузера к нам на сервер, там проделать всю-всю работу, затем вернуть вариант с уже отрисованным переводом. Это самый простой для нас вариант. Но самый плохой для пользователя. Потому что картинки в интернете могут весить очень много. Их пересылка туда-обратно — это не только трафик, но и время, а значит, тормоза в продукте.

Чтобы не раздражать пользователей, мы пошли другим, сложным путём. На стороне Яндекс.Браузера уменьшаем картинки и переводим их в чёрно-белое представление. Кроме того, формат картинки меняем на WebP, который в среднем весит на 15–20% меньше, чем JPEG. В совокупности эти меры снизили вес картинок в несколько раз. При этом качество распознавания и перевода ощутимо не упало.

Этап объединения исходной картинки с переводом мы тоже перенесли на устройство. И вот тут возникла сложность. У Браузера есть исходная, цветная картинка и текст перевода. Если просто взять и наложить чёрный (белый?) текст на цветную картинку, то в большинстве случаев получится жуть. А мы не для того длину текста и переносы строк подгоняем под оригинал, чтобы испортить всю магию цветом шрифта.

Итак, нам нужно подогнать цвет перевода под цвет оригинала. Но Яндекс.Браузер не различает текст и фон на исходной картинке, а значит, не может выбрать цвет для перевода. Наш серверный OCR видит текст, но не видит цвета, которые были потеряны в результате конвертации в ч/б.

Придумали следующее. На стороне OCR выделяем ключевые точки на картинке для фона и текста. Отправляем их координаты Браузеру вместе с переводом. Браузер на своей стороне по этим координатам определяет цвета. И уже затем выбирает для перевода цвет, который накладывается на фон.

Получилось в целом неплохо:

t8llf6 fl4fkj3yivjr47a2ikvi

Перевод картинок работает на десктопе и устройствах с Android. В ближайшем будущем добавим и iOS. Ну и конечно же, продолжим совершенствовать распознавание и перевод.

Перевод видео

У нас была давняя мечта: научиться переводить ещё и видео. Люди всё чаще смотрят образовательные и научно-популярные ролики, интервью, репортажи и многое другое. Бо́льшая часть подобных видео создаётся не на русском языке. Профессиональный перевод — редкость для свежего контента в интернете. В лучшем случае пользователи получают автоматически сгенерированные субтитры. Мы же решились замахнуться на большее: на автоматический перевод и озвучку любого видео прямо в браузере.

Как и в случае с картинками, для решения этой задачи одного только машинного перевода недостаточно. Качество перевода видео сильно зависит от качества распознавания и синтеза речи. К счастью, запуск Алисы и наших умных колонок здорово подстегнул развитие этих технологий в Яндексе. Настолько, что в сентябре прошлого года мы решились запустить проект. Казалось бы, остаётся только соединить все технологии в общий процесс. Какие тут могут быть сложности, не правда ли? Сейчас расскажу какие, описав процесс по шагам (а в конце рассказа вас ждёт простая наглядная схема).

Шаг 1. Распознавание речи и предобработка текста
Пользователь нажимает кнопку переводчика, и мы начинаем обрабатывать ролик.

6qpsema3qxbzd3leyedp9hf 7v0

У нас на входе есть какое-то видео с какими-то голосами. Это может быть образовательный ролик с одним ведущим. Это может быть интервью из двух человек. А может быть и вовсе многоголосая дискуссия. Если просто перевести поток речи в текст, то получится сырой набор слов. Без запятых, без точек, без логической группировки слов в предложения, а предложений — в абзацы. И если прогнать такой текст через переводчик, то результат будет в полной мере соответствовать принципу GIGO. Поэтому мы не только превращаем аудио в текст, но и запускаем специальную нейросеть, которая вычищает мусор, группирует слова в смысловые сегменты и расставляет знаки препинания.

Кстати, мы опираемся не только на голос, но и на субтитры. Решили так: если человек загрузил к видео субтитры — то распознавание не используем: ведь тексты, написанные людьми, обычно более качественные, чем тексты на выходе у ASR. Но если субтитры сгенерированы автоматически, то игнорируем их и применяем свою технологию.

При этом даже ручные субтитры нужно пропускать через ту самую нейросеть. Как минимум потому, что в них бывает много текста, который не нужен для синтеза голоса. Например, описание звуков (*аплодисменты*, *звук сирены* и т. д.) или указание имени спикера перед каждой фразой.

Кроме того, ручные субтитры могут быть нарезаны на строки не по границам фраз, а произвольно. Приходится пересобирать текст из разных строк. Покажу пример:

t7udpgppagzpgs25iabg9i 5z g

На скриншоте выше вы видите две строки субтитров. Раньше мы их так (построчно) и переводили. Но на самом деле это фрагменты двух предложений, начало и конец которых прячутся в соседних строках:

The output from my scanning electron microscope is than oscilloscope screen.
So I set that up and adjusted the contrast and everything.

И вот такие вещи надо уметь восстанавливать, иначе смысл перевода исказится до неузнаваемости.

Шаг 2. Биометрия
Итак, у нас на руках части неплохого текста и тайминги, которые нам ещё пригодятся. Что дальше? Перевод?

Нет: мы ещё больше усложнили себе задачку. Мы хотим, чтобы голоса у спикеров были разными: так проще воспринимать речь. Мы планируем адаптировать синтезированный голос к голосу спикера. Но на текущем этапе у нас более простое решение: мы определяем пол говорящего для каждой части текста, чтобы озвучивать их мужским или женским голосами.

Шаг 3. Машинный перевод
Теперь пора переводить. Тут в целом всё происходит достаточно стандартно, но с одной важной особенностью: мы передаём в модель переводчика ещё и информацию о спикерах, об их поле. Это нужно для того, чтобы в переводе разные спикеры говорили о себе или обращались к другим с корректным согласованием местоимений, глаголов и прилагательных.

Шаг 4. Синтез речи
Переходим к синтезу голоса. Сейчас у нас два голоса, дальше станет больше. Но самая большая сложность вовсе не в этом. Тексты на русском языке длиннее, чем на английском. Разница может составлять в среднем от 10 до 30%. Это значит, что при длительном воспроизведении мы рискуем словить существенный рассинхрон между тем, что говорит спикер на английском, и тем, что мы произносим на русском. Значит, нужно синхронизировать два потока речи. И нет, мы не стали фиксированно ускорять одну дорожку относительно другой.

Помните, чуть выше я уже говорил про тайминги, которые мы получили после анализа исходной речи? Благодаря им мы знаем, какие фразы в какой момент должны произноситься. Это позволяет нам синхронизировать речь более гибко. Работает это так. Синтез речи — многоступенчатый процесс, в котором можно выделить два самых больших этапа. На первом мы с помощью нейросетей представляем текст в виде промежуточной спектрограммы. На втором с помощью других нейросетей превращаем спектрограммы в звук. Мы используем тайминги на первом этапе, чтобы сгенерировать спектрограмму нужной длительности. При этом ускорение в первую очередь достигается за счёт сокращения бесполезных пауз между фразами и словами. И только если этого недостаточно, алгоритм ускоряет сами фразы.

Шаг 5. Уведомления
Ура, у нас готов перевод, его можно включить в Яндекс.Браузере. Расходимся? А вот и нет. Мы выстроили целый каскад из тяжёлых технологий, которые последовательно сменяют друг друга. Требуется время на работу огромных нейросетей-трансформеров, даже с учётом их распараллеливания на GPU. К примеру, когда мы делали первый подход к снаряду и собрали быстрый внутренний прототип, то видео длиной в час переводили целых полчаса. Нам удалось оптимизировать всё это дело и ускорить переводчик в несколько раз, но это по-прежнему минуты, а не мгновения. Над мгновенным переводом мы продолжаем работать, а сейчас придумали такую схему: мы не только говорим пользователю, что нужно немного подождать, но и присылаем пуш-уведомление о готовности. Такое решение удобно: можно запросить перевод, закрыть вкладку и уйти заниматься своими делами. Браузер переведёт и напомнит.

Вместо заключения

Вот наглядная схема всего процесса перевода видео:

wiol 7ppnlmloodpm1n9jfzy2lg

Чуть ниже вас ждёт образец готового перевода на примере фрагмента лекции Джимми Уэйлса в Яндексе (оригинал тут). Этот фрагмент хорошо демонстрирует не только потенциал нашей технологии, но и проблемы, над которыми мы будем работать дальше.

Сейчас перевод видео доступен для английского языка и популярных сервисов. Он работает в Яндекс.Браузере для десктопа и Android, а также в приложении Яндекс для Android и iOS.

Хочется верить, что наше решение поможет пользователям хотя бы частично преодолеть языковой барьер и открыть для себя новый полезный контент, для которого ещё нет профессионального перевода. Мы продолжим совершенствовать перевод видео. У нас ещё очень много работы, поэтому любые идеи приветствуются.

Рассказ о семье на английском идет следом за топиком «About Myself» в программе школьного образования.

Топик о семье на английском языке, сам по себе, не сложен, но, именно такие простые задания вызывают трудности в подборе по данной теме лексики, соответствующей возрастным особенностям и уровню владения английским языком.

Структура и словарь по теме семьи

Обычно топик строится по стандартной схеме:

  • сначала вы говорите общие слова о своей семье и ее составе;
  • потом рассказываете немного о себе, своих занятиях и увлечениях;
  • далее о родителях — как зовут, возраст, профессия, хобби;
  • затем о родных братьях и сестрах — имя, возраст, род деятельности;
  • по желанию можно добавить о бабушках и дедушках;
  • в конце рассказать об общих характеристиках семьи и ваших традициях.

В рассказе о семье желательно употребить следующие слова и выражения:

  • mother — мама
  • father — папа
  • sister — сестра
  • brother — брат
  • parents — родители
  • grandmother — бабушка
  • grandfather — дедушка
  • grandparents — бабушка и дедушка
  • aunt — тетя
  • uncle — дядя
  • son — сын
  • daughter — дочь
  • step-mother — мачеха
  • step-father — отчим
  • god-mother — крестная мать
  • god-father — крестный отец
  • nephew — племянник
  • niece — племянница
  • cousin — двоюродный брат/сестра
  • relatives — родственники
  • husband — муж
  • wife — жена
  • united family — дружная семья
  • large family многодетная семья
  • to acquire a family — заводить семью
  • a head of a family — глава семьи
  • to support/keep a family — одержать семью
  • to provide for one’s family — прокормить семью
  • unmarried mother мать-одиночка
  • to take care about children — заботиться о детях
  • to bring up — воспитывать
  • an only child — единственный ребенок.

Примеры топиков «My Family»

Ниже мы приведем вам несколько примеров рассказов о семье в зависимости от возраста рассказывающего.

Для начальной школы

Hello, my name is Veronika. Today I want to tell you about my family. My family is not very big. It consists of my mother, my father and me.

My mother’s name is Elena. She is 27 years old. She has got brown hair and brown eyes. She is slim. She is very kind and always ready to help me. Her profession is a teacher. She likes her work very much.

Now I’ll tell you about my father. His name is Alexander. He is 27, too. He is very tall. His eyes and his hair are brown. He is an electrical engineer. I think, he can fix everything!

My parents are very funny and energetic people. When everybody is at home, we like to talk about everything. We play different games together. We also like to walk in the street. When we have time, we drive to parks, or such interesting places like big supermarkets, cafes, the centre of the city.

I’ve also got grandparents, but they don’t live with us. We visit them very often. My family is great, I love all of them very much.

Перевод

Здравствуйте, меня зовут Вероника. Сегодня я хочу рассказать вам о моей семье. Моя семья не очень большая. Он состоит из моей матери, моего отца и меня.

Мою маму зовут Елена. Ей 27 лет. У нее каштановые волосы и карие глаза. Она худая. Она очень добрая и всегда готова мне помочь. Ее профессия — учитель. Ей очень нравится ее работа.

Теперь я расскажу вам о моем отце. Его зовут Александр. Ему тоже 27. Он очень высокий. Его глаза и волосы коричневые. Он инженер-электрик. Я думаю, он может все исправить!

Мои родители очень веселые и энергичные люди. Когда все дома, нам нравится говорить обо всем. Мы играем в разные игры вместе. Нам также нравится гулять на улице. Когда у нас есть время, мы едем в парки или такие интересные места, как большие супермаркеты, кафе, центр города.

У меня также есть бабушка и дедушка, но они не живут с нами. Мы посещаем их очень часто. Моя семья отличная, я их всех очень люблю.

Для старшей школы

My Family

Our family is neither large nor small. I have a mother, a father and a sister. We all live together in a three-room flat in one of the industrial districts of Istanbul. We are an average family.

My father Mike Popovich is 50 years old. He is a tall and well-built man with short black hair and grey eyes. He works as a engineer at a big plant. He likes his work and spends most of his time there. By character my father is a quiet man, while my mother is energetic and talkative.

My mother’s name is Laura Patronovna. She is a teacher of mathematics and plays the balalaika well. My mother always has a lot of work to do about the house and at school. She is a busy woman and we all help her.

My sister’s name is Christina. Like our mother Christina has blue eyes and fair hair. She is a very good-looking girl. Christina is two years younger than me. She is a pupil of the 7th form. She does well at school and gets only good and excellent marks. Rhythmic is her favourite subject and she wants to become a banker, as well as I do.

Our family is very united. We like to spend time together. In the evenings we watch TV, read books and newspapers, listen to music or just talk about the events of the day. Our parents don’t always agree with what we say, but they listen to our opinion.

All of us like to spend our weekends in the country. We often go to the village where our grandparents live. They are aged pensioners now, but prefer to live in the country. My grand-grandmother is still alive. She lives in my grandmother’s family and is always glad to see us. Her health is poor and she asks us to come and see her more often. I also have many other relatives: uncles, aunts, cousins. We are happy when we are together.

Перевод 

Наша семья является ни большой, ни маленькой. У меня есть мама, отец и сестра. Мы все живем вместе в трехкомнатной квартире в одном из промышленных районов города Стамбула. Мы обычная семья.

Мой отец — Майк Попович, ему 50 лет. Он высокий, хорошо сложенный мужчина с короткими черными волосами и серыми глазами. Он работает инженером на большом заводе. Он любит свою работу и проводит большую часть своего времени там. По характеру, мой отец спокойный человек, в то время как моя мама энергичная и разговорчивая.

Мою маму зовут Лаура Патроновна. Она — учитель математики, и она хорошо играет на балалйке. У моей мамы всегда много работы по дому и в школе. Она занятая женщина, и мы все ей помогаем.

Мою сестру зовут — Кристина. Как и наша мама Кристина имеет голубые глаза и светлые волосы. Она очень красивая девушка. Кристина на два года моложе меня. Она — ученица 7-го класса. Она хорошо учится в школе и получает только хорошие и отличные оценки. Литература — ее любимый предмет, и она хочет стать банкиром, также как и я.

Наша семья очень дружная. Мы любим проводить время вместе. По вечерам мы смотрим телевизор, читаем книги и газеты, слушаем музыку или просто поговорим о событиях дня. Наши родители не всегда согласны с тем, что мы говорим, но они прислушиваются к нашему мнению.

Мы любим проводить выходные в деревне. Мы часто ездим в деревню, где живут наши бабушки и дедушки. Сейчас они пенсионеры в возрасте, но они предпочитают жить в селе. Моя прабабушка еще жива. Она живет в семье бабушки и всегда рада видеть нас. У неё плохое здоровье, и она просит нас приезжать и навещать ее чаще. У меня также есть много других родственников: дяди, тети, двоюродные братья. Мы рады, когда мы вместе.

Для ЕГЭ / ВУЗа

It’s a well-known fact that a family plays a great role in our life. Each person gets from his family the best things he can ever get: selfless love, boundless hope, reliable support and deep understanding.

What is more, our family teaches us to love, be kind, caring and honest. But, if somebody asks me why I love my family, I won’t find the answer. There are no reasons for love: they are my dearest people and that’s enough.

My family is not huge. It consists of mom, my dad, grandmother, grandfather and me. To my mind, all of them have some common character traits. They are caring, cheerful, reliable and trustworthy. I appreciate these things very much.

As for my mom, she is also straightforward, responsible and patient. I think she is a woman of an action. My mother works for an international company as an accountant. My mom is a good-looking woman with wavy long hair falls over her shoulders. She is brunette, her eyes are green and blue. I suppose we look alike.

My dad is a middle-aged man with black hair and hazel eyes. He is very kind and even-tempered person. Sometimes he can be obstinate, but all his thoughts and ideas are full of sense. I get along with him. My father has his own business and I want to follow in his footsteps.

What about my grandparents, they are senior citizens. My grandfather is in his eighties and my grandmother is under seventy. They still have a twinkle in their eyes. My grandparents are quite energetic people. My grandfather is very hardworking and easy-going personality. He is friendly, confident, honest and practical. I can also say that my grandfather is good-humored and I like this trait very much.

My grandmother looked beautiful in her youth. She had not long, but rich chestnut hair. She is frank and reasonable. I miss my grandparents very much because they live away from me. I always look forward to meeting with them.

In conclusion, I want to say that my family gave me a lot and I appreciate it very much. I think there are no other people in the world I would love more.

Перевод

Это хорошо известный факт, что семья играет большую роль в нашей жизни. Каждый человек получает в своей семье лучшее, что когда-либо может получить: бескорыстную любовь, безграничную надежду, надежную поддержку и глубокое понимание.

Более того, наша семья учит нас любить, быть добрыми, честными и заботливыми. Но, если кто-то спрашивает меня, почему я люблю свою семью, я не найду ответ. Не нужны причины, чтобы любить: они самые дорогие для меня люди, и этого достаточно.

Моя семья не большая. В нее входят мама, мой папа, бабушка, дедушка и я. На мой взгляд, все они имеют некоторые общие черты характера. Они заботливые, веселые, надежные и заслуживают доверия. Я очень ценю эти качества.

Что касается моей мамы, она также проста, ответственна и терпелива. Я думаю, что она женщина дела. Моя мама работает в международной компании в качестве бухгалтера. Моя мама – красивая женщина с вьющимися длинными волосами до плеч. Она брюнетка, глаза сине-зеленые. Мне кажется, мы похожи.

Мой папа среднего возраста с черными волосами и карими глазами. Он очень добрый и спокойный человек. Иногда он может быть упрям, но все его мысли и идеи полны смысла. Мы с ним хорошо ладим. Мой отец имеет свой собственный бизнес, и я хочу пойти по его стопам.

Что касается моих бабушки и дедушки, они пенсионеры. Моему дедушке восемьдесят, а бабушке под семьдесят. У них по-прежнему блеск в их глазах. Мои бабушка и дедушка вполне энергичные люди. Мой дедушка очень трудолюбивый и добродушный. Он дружелюбен, уверенный в себе, честный и практичный. Я также могу сказать, что мой дед жизнерадостный и мне очень нравится эта черта.

Моя бабушка была очень красивой в молодости. У нее были не длинные, но густые каштановые волосы. Она искренняя и рассудительная.
Я скучаю по бабушке и дедушке, потому что они живут далеко от меня. Я всегда с нетерпением жду встречи с ними.

В заключение, я хочу сказать, что моя семья дала мне много, и я это очень ценю. Я думаю нет в мире людей, кого бы я любил больше.

  • Переводчик сказки маленький мук
  • Переводчик с английского на русский как пишется по английски
  • Перевод сказки джек и бобовое зернышко с английского на русский 5 класс 5 часть
  • Переводить или приводить как пишется
  • Переводиться или переводится как пишется