Рассказ про россию на английском языке с переводом 5 класс

Технологическая карта урока английского языка преподаватель: джеиранова о.р. класс : 6а дата: 12.12.19г. модуль 5 5 тема урока: особые дни.

Технологическая карта урока английского языка

Преподаватель: Джеиранова О.Р.

Класс : 6А

Дата: 12.12.19г.

Модуль 5 (5)

Тема урока: Особые дни.

Цели урока:

Предметные УУД: научиться строить связное монологическое высказывание с опорой на план в рамках освоенной тематики; учиться воспринимать на слух и понимать нужную информацию; учиться читать и находить в несложных аутентичных текстах нужную /запрашиваемую информацию; учиться употреблять в устной речи в их основном значении изученные лексические единицы, в пределах тематики в соответствии с решаемой коммуникативной задачей;

Коммуникативные УУД: осознанно использовать речевые средства в соответствии с задачей коммуникации; Регулятивные УУД: выбирать наиболее эффективные способы решения учебных и познавательных задач; Познавательные УУД: оказанное на него источником; осуществлять осознанное построение речевого высказывания в устной и письменной форме;

Личностные УУД: воспитать уважение и доброжелательное отношение к истории, культуре, традициям других стран и национальностей; формировать стремление к осознанию культуры и традиций своего народа;

Тип урока: комбинированный урок

Методы и технологии: ИКТ, групповые, коммуникативные, здоровьесберегающие, проектная

Оборудование: УМК Spotlight-6, smart доска, средства мультимедиа, раздаточный материал, карточки с оценками для жюри

Этапы работы

Содержание этапа

Формируемые умения

Деятельность учителя

Деятельность обучающихся

1.

Организационный момент

2 мин

Задача: Знакомство, проверка готовности к уроку, проверка присутствия, внешний вид , приветствие

Готовность, внешний вид, приветствие

Регулятивные: осуществлять саморегуляцию и самоконтроль.

Познавательные: осознанное и произвольное построение речевого высказывания.

Коммуникативные:

слушать и понимать речь учителя

2.

Фонетическая и речевая зарядки

6 мин

How are you?

How is…?

What is the weather today? (Игра «Погода» с карточками)

What season is it now? ( презентация)

What can you see? What holiday is it? What holiday do you know?

В парах составляют вопросы по ключевому слову «погода»

Отвечают на вопросы учителя

Регулятивные: осуществлять саморегуляцию и самоконтроль.

Познавательные: постановка и формулирование проблемы, самостоятельное создание алгоритмов деятельности Коммуникативные: слушать и понимать речь других

Предметные результаты: умение правильно понимать значение лексических единиц по теме; умение использовать ЛЕ в заданной ситуации; умение строить вопросы и отвечать, используя изученные грамматические структуры и лексику.

3

Постановка цели и задач урока

3 мин

Задача: вовлечение в учебную деятельность.

экран (определение темы урока по картинкам)

What are we going to speak about?

Special days. Целепологание

Определяют тему урока по картинкам и вопросам учителя, ставят цели.

Познавательные: постановка и формулирование проблемы, самостоятельное создание алгоритмов деятельности при решении проблем творческого характера.

Коммуникативные:

слушать и понимать речь учителя и кадет

4.

Основная часть урока

Инструктаж

3 мин

Самостоятель-ная работа

15 мин

Задачи: научиться строить связное монологическое высказывание с опорой на план в рамках освоенной тематики; учиться читать и находить в несложных аутентичных текстах нужную /запрашиваемую информацию, представленную в явном и в неявном виде; учиться составлять план/ тезисы устного или письменного сообщения

What country is it? What country do you know? (Игра «Глобус», игра «Национальности»)

What country is it?

India is beautiful country with colourful costums and songs and dances.

Let us dance.

Прослушать монологическое высказывание, выполнить задание индивидуально. (раздат. мат. )

Ответить на вопросы.

Составить словосочетания в группах. ( презентация)

Заполняют план ответа.

Выполняют задания

Слушают и называют страну.

Танцуют. Музыкальная пауза.

Выполняют задания индивидуально, в парах.

Коммуникативные УУД: осознанно использовать речевые средства в соответствии с задачей коммуникации; Регулятивные УУД: выбирать наиболее эффективные способы решения учебных и познавательных задач; Познавательные УУД: вербализовать эмоциональное впечатление, оказанное на него источником; осуществлять осознанное построение речевого высказывания в устной и письменной форме;

Личностные УУД: воспитать уважение и доброжелательное отношение к истории, культуре, традициям других стран и национальностей; формировать стремление к осознанию культуры и традиций своего народа

5.

Защита работ

12 мин

Задача: учиться употреблять в устной и письменной речи в их основном значении изученные лексические единицы, в пределах тематики в соответствии с решаемой коммуникативной задачей

экран

(презентации обучающихся)

Слушает, контролирует ответы

Выступают с защитой проекта (рассказ о праздниках по плану)

Регулятивные: осуществлять саморегуляцию и самоконтроль.

Познавательные: осознанное и произвольное построение речевого высказывания.

Личностные УУД: воспитать уважение и доброжелательное отношение к истории, культуре, традициям других стран и национальностей

6.

Рефлексия

Выставление оценок

2 мин

В заключение обсуждают, что учащиеся научились делать (выражать, описывать, читать, писать) на уроке.

(экран )

At this lesson we…

I have learned…

I have found out…

Now I can

Комментирует выставление оценок

Your marks are ……

Today we’ve revised the phrases according to the topic Holidays

Личностные:

– устанавливать связь между целью деятельности и ее результатом.

Регулятивные:

– осуществлять самоконтроль;
– совместно с учителем и одноклассниками давать оценку деятельности на уроке;

Коммуникативные:

– уметь с достаточной полнотой и точностью выражать свои мысли.

7.

Информация о домашнем задании

3мин

Необычные праздники России или Крыма. ( по плану с.50, упр.4)

Выбирают и записывают д/з в дневники

Регулятивные: осуществлять саморегуляцию и самоконтроль.

Коммуникативные:

слушать и понимать речь учителя

Поурочные разработки по всеобщей истории. Новейшая история. 10–11 классы (к УМК О.С. Сороко-Цюпы (М.: Просвещение) 2019–2021 гг. выпуска)

добавлено 2021-12-23 12:50:36

Пособие содержит подробные поурочные разработки к учебникам О.С. Сороко-Цюпы, А.О. Сороко-Цюпы «История. Всеобщая истори…

Поурочные разработки по русскому языку. 2 класс (к УМК Л.Ф. Климановой, Т.В. Бабушкиной («Перспектива») 2019–2021 гг. выпуска)

добавлено 2021-12-23 12:48:04

Пособие содержит поурочные разработки по курсу «Русский язык» для 2 класса общеобразовательных организаций к УМК «Перспе…

Поурочные разработки по математике. 6 класс (К УМК Н.Я. Виленкина и др. (М.: Мнемозина) 2017–2021 гг. выпуска)

добавлено 2021-12-23 12:28:35

Издание содержит подробные поурочные разработки по математике для 6 класса и ориентировано на учителей, работающих с УМК…

Поурочные разработки по литературному чтению на родном русском языке. 4 класс (к УМК О. М. Александровой и др. (М.: Просвещение) 2019–2021 гг. выпуска)

добавлено 2021-12-23 12:28:09

Предлагаемые в пособии поурочные разработки по литературному чтению на родном русском языке для 4 класса составлены с уч…

Поурочные разработки по литературному чтению на родном русском языке. 3 класс (к УМК О. М. Александровой и др. (М.: Просвещение) 2019–2021 гг. выпуска)

добавлено 2021-12-24 10:44:10

В пособии представлены поурочные разработки по литературному чтению на родном русском языке для 3 класса, составленные c…

Поурочные разработки по родной русской литературе. 5 класс (к УМК О. М. Александровой и др. (М.: Просвещение) 2019–2021 гг. выпуска)

добавлено 2021-10-28 17:51:35

В издании представлены поурочные разработки по предмету «Родная литература (русская)» для 5 класса, составленные согласн…

Поурочные разработки по литературному чтению на родном русском языке. 2 класс (к УМК О. М. Александровой и др. (М.: Просвещение) 2019–2021 гг. выпуска)

добавлено 2021-10-28 17:51:52

В пособии представлены поурочные разработки по литературному чтению на родном русском языке для 2 класса, составленные в…

Поурочные разработки по литературному чтению на родном русском языке. 1 класс (к УМК О. М. Александровой и др. (М.: Просвещение) 2019–2021 гг. выпуска)

добавлено 2021-10-28 18:21:56

В пособии представлены поурочные разработки по литературному чтению на родном русском языке для 1 класса, составленные в…

Поурочные разработки по всеобщей истории. История Нового времени. 8 класс (к УМК А. А. Вигасина – О. С. Сороко-Цюпы (М.: Просвещение) 2019–2021 гг. выпуска)

добавлено 2021-10-28 18:21:39

Пособие содержит подробные поурочные разработки к учебнику А. Я. Юдовской, П. А. Баранова, Л. М. Ванюшкиной «Всеобщая ис…

Поурочные разработки по всеобщей истории. История Нового времени. 7 класс. Пособие для учителя (к УМК А. А. Вигасина – О. С. Сороко-Цюпы (М.: Просвещение) 2019–2021 гг. выпуска)

добавлено 2021-09-30 13:54:26

Пособие содержит подробные поурочные разработки к учебнику А. Я. Юдовской, П. А. Баранова, Л. М. Ванюшкиной «Всеобщая ис…

Поурочные разработки по литературе. 5 класс. Пособие для учителя (к УМК под ред. В. Я. Коровиной (М.: Просвещение) 2019–2021 гг. выпуска)

добавлено 2021-09-30 13:54:57

В издании представлены поурочные разработки по литературе для 5 класса, составленные согласно требованиям ФГОС основного…

Поурочные разработки по обществознанию. Базовый уровень. 11 класс. Пособие для учителя (к УМК Л. Н. Боголюбова и др. (М.: Просвещение))

добавлено 2021-09-30 15:04:56

Предлагаемое учебно-методическое пособие составлено в соответствии с государственным образовательным стандартом по общес…

Поурочные разработки по курсу «Окружающий мир». 1 класс. Пособие для учителя (к УМК А. А. Плешакова и др. («Перспектива») 2019–2021 гг. выпуска)

добавлено 2021-09-30 13:54:41

В пособии представлены поурочные разработки по курсу «Окружающий мир» для 1 класса общеобразовательных организаций УМК А…

Русский язык. Методическое пособие с поурочными разработками. 1 класс

добавлено 2021-08-26 14:58:54

Данное пособие разработано в помощь учителю, реализующему в своей практике требования к результатам освоения основной об…

Биология. Индивидуально-групповая деятельность. Поурочные разработки. 7 класс

добавлено 2021-08-26 14:58:11

Предлагаемое пособие – элемент информационно-образовательной среды предметной линии УМК по биологии «Линия жизни» для 7 …

Русский язык. Методическое пособие с поурочными разработками. 2 класс. Часть 2

добавлено 2021-08-16 15:13:44

Данное пособие разработано в помощь учителю, реализующему в своей практике курс «Русский язык» (2 класс) авторов В. П. К…

Русский язык. Методическое пособие с поурочными разработками. 2 класс. Часть 1

добавлено 2021-08-16 15:45:53

Данное пособие разработано в помощь учителю, реализующему в своей практике требования к результатам освоения основной об…

Окружающий природный мир

добавлено 2021-08-13 14:01:40

В пособии представлены примерные конспекты 64 занятий по курсу «Окружающий природный мир» и примерная рабочая программа …

Уроки русского языка во 2 классе. Методическое пособие с примерными разработками уроков для учителя начальных классов общеобразовательных организаций

добавлено 2021-08-13 13:50:13

В пособии даны разработки 14 уроков по русскому языку, проводимые с учениками 2 класса общеобразовательных организаций. …

Поурочные разработки по русскому родному языку. 1 класс (к УМК О. М. Александровой и др. (М.: Просвещение) 2018–2019 гг.)

добавлено 2021-08-05 12:36:14

В пособии представлены подробные поурочные разработки по предмету «Русский родной язык» для 1 класса, составленные в соо…

Поурочные разработки по курсу «Окружающий мир». 3 класс (к УМК А. А. Плешакова, М. Ю. Новицкой («Перспектива») 2019–2021 гг. выпуска)

добавлено 2021-08-05 12:36:55

В пособии представлены поурочные разработки по курсу «Окружающий мир» для 3 класса общеобразовательных организаций УМК А…

Поурочные разработки по курсу «Окружающий мир». 1 класс (к УМК А. А. Плешакова («Школа России») 2019–2021 гг. выпуска)

добавлено 2021-08-05 12:37:42

В пособии представлены поурочные разработки по курсу «Окружающий мир» для 1 класса УМК А. А. Плешакова («Школа России»),…

Поурочные разработки по обществознанию. 6 класс (к УМК Л. Н. Боголюбова и др. (М.: Просвещение) 2019–2021 гг. выпуска)

добавлено 2021-08-05 12:37:57

Пособие содержит подробные поурочные разработки к учебнику Л. Н. Боголюбова и др. «Обществознание. 6 класс» (М.: Просвещ…

Поурочные разработки по математике. 3 класс (к УМК М. И. Моро и др. («Школа России») 2019–2021 гг. выпуска)

добавлено 2021-08-05 12:38:11

В пособии представлены поурочные разработки по курсу «Математика» для 3 класса, составленные в соответствии с требования…

Поурочные разработки по математике. 2 класс (к УМК М. И. Моро и др. («Школа России») 2019–2021 гг. выпуска)

добавлено 2021-08-05 12:23:42

В пособии представлены поурочные разработки по курсу «Математика» для 2 класса, составленные в соответствии с требования…

Поурочные разработки по математике. 1 класс (к УМК М. И. Моро и др. («Школа России») 2019–2021 гг. выпуска)

добавлено 2021-08-05 12:23:30

В пособии представлены поурочные разработки по курсу «Математика» для 1 класса, составленные в соответствии с требования…

Поурочные разработки по русскому языку. 2 класс (к УМК В. П. Канакиной, В. Г. Горецкого («Школа России») 2019–2021 гг. выпуска)

добавлено 2021-08-05 12:23:17

В пособии представлены поурочные разработки по курсу «Русский язык» для 2 класса, составленные с учетом требований ФГОС….

Поурочные разработки по русскому языку. 1 класс (к УМК В. П. Канакиной, В. Г. Горецкого («Школа России») 2019–2021 гг. выпуска)

добавлено 2021-08-05 12:23:05

В пособии представлены поурочные разработки по курсу «Русский язык» для 1 класса, составленные в соответствии с требован…

Поурочные разработки по литературному чтению. 1 класс (к УМК Л. Ф. Климановой и др. («Школа России») 2019–2021 гг. выпуска)

добавлено 2021-08-05 12:22:46

В пособии представлены поурочные разработки по литературному чтению для 1 класса, составленные в соответствии с требован…

Поурочные разработки по истории России. 10 класс (к УМК М. М. Горинова, А. А. Данилова и др. (М.: Просвещение) 2019–2021 гг. выпуска)

добавлено 2021-08-05 12:22:18

Пособие содержит подробные поурочные разработки к учебнику М. М. Горинова, А. А. Данилова и др. под ред. академика РАН А…

Поурочные разработки по физике. 10 класс (К УМК Г. Я. Мякишева, М. А. Петровой (М.: Дрофа) 2019–2021 гг. выпуска)

добавлено 2021-08-05 12:36:41

В пособии представлены поурочные разработки по курсу «Физика» для 10 класса, составленные в соответствии с требованиями …

Поурочные разработки по курсу «Окружающий мир». 3 класс (к УМК А. А. Плешакова («Школа России») 2019–2021 гг. выпуска)

добавлено 2021-08-05 12:37:09

В пособии представлены поурочные разработки по курсу «Окружающий мир» для 3 класса УМК А. А. Плешакова («Школа России»),…

Поурочные разработки по курсу «Окружающий мир». 2 класс (к УМК А. А. Плешакова («Школа России») 2019–2021 гг. выпуска)

добавлено 2021-08-05 12:37:16

В пособии представлены поурочные разработки по курсу «Окружающий мир» для 2 класса, составленные в соответствии с требов…

Биология. Индивидуально-групповая деятельность. Поурочные разработки. 9 класс

добавлено 2021-07-23 12:50:53

Предлагаемое пособие – элемент информационно-образовательной среды предметной линии УМК по биологии «Линия жизни» для 9 …

Русский язык. Методическое пособие с поурочными разработками. 4 класс

добавлено 2021-07-01 10:37:52

Данное пособие призвано способствовать реализации в практике учителя требований к результатам освоения основной образова…

Русский язык. Методическое пособие с поурочными разработками. 3 класс. Часть 2

добавлено 2021-07-01 10:38:06

Данное пособие призвано способствовать реализации в практике учителя требований к результатам освоения основной образова…

Русский язык. Методическое пособие с поурочными разработками. 3 класс. Часть 1

добавлено 2021-07-01 10:38:21

Данное пособие призвано способствовать реализации в практике учителя требований к результатам освоения основной образова…

Поурочные разработки по русскому языку. 8 класс (к УМК Т. А. Ладыженской, С. Г. Бархударова)

добавлено 2021-06-01 13:50:15

Поурочные разработки составлены в соответствии с учебником по русскому языку для общеобразовательных учреждений авторов …

Английский язык. Книга для учителя. 10 класс. Углублённый уровень

добавлено 2021-05-14 17:29:47

Книга для учителя является обязательным компонентом УМК серии «Звёздный английский» для 10 класса общеобразовательных ор…

Английский язык. Книга для учителя. 11 класс. Углублённый уровень

добавлено 2021-05-14 17:29:29

Книга для учителя является обязательным компонентом УМК серии «Звёздный английский» для 11 класса общеобразовательных ор…

mwval8iyyt6sqatgboeg5i 878k

Сложный был год: налоги, катастрофы, бандитизм и стремительное исчезновение малых языков. С последним мириться было нельзя…

Upd. 04.12.2021 — Наш телеграм канал

На территории России проживает большое количество народов, говорящих более чем на 270 языках. Около 150 языков насчитывает менее 1 тысячи носителей, а за последние 20 лет 7 языков уже исчезло.

Этот проект — мои «пять копеек» по поддержке языкового разнообразия. Его цель — помощь исследователям в области машинного перевода, лингвистам, а также энтузиастам, радеющим за свой родной язык. Помогать будем добыванием параллельных корпусов, — своеобразного «топлива», при помощи которого современные модели все успешнее пытаются понять человеческий язык.

Сегодняшние языки — башкирский и чувашский, с популяризаторами которых я в последнее время тесно общался. Сначала я покажу как в принципе извлечь корпус из двух текстов на разных языках. Затем мы столкнемся с тем, что на рассматриваемых языках предобученная модель не тренировалась и попробуем ее дообучить.

Экспериментировать мы будем в среде Colab’а, чтобы любой исследователь при желании смог повторить этот подход для своего языка.

I. Извлекаем параллельный корпус

Для выравнивания двух текстов я написал на python’е библиотеку lingtrain_aligner. Код у нее открыт. Она использует ряд предобученных моделей, можно подключать и свои. Одной из самых удачных мультиязыковых моделей сейчас является LaBSE. Она обучалась на 109 языках. Так как соотношение текстов смещено в сторону популярных языков, то для них качество эмбеддингов (эмбеддингом называют вектор чисел применительно к данным, которые он описывает) будет лучше.

Colab

Попробовать извлечь корпус на нужном языке можно в этом Colab’e. Дальше пройдемся по шагам более подробно.

Установка

Установим библиотеку командой

pip install lingtrain_aligner

После этого импортируем необходимые модули:

from lingtrain_aligner import splitter, aligner, resolver, metrics

Наши тексты (возьмем для примера главу из Гарри Поттера) разобьем на предложения при помощи модуля splitter. Затем создадим файл с данными для выравнивания (sqlite база данных) и загрузим в нее полученные предложения. За это отвечает модуль aligner.

lang_from = "en"
lang_to = "ru"
db_path = "alignment.db"

splitted_from = splitter.split_by_sentences(text1.split('n'), lang_from)
splitted_to = splitter.split_by_sentences(text2.split('n'), lang_to)

aligner.fill_db(db_path, lang_from, lang_to, splitted_from, splitted_to)

Для учета особенностей грамматики языка (например, особые виды кавычек, отсутствие пробелов и другая лингвистическая экзотика) нужно передать в splitter соответствующие параметры. Выровняем тексты при помощи следующей команды:

aligner.align_db(db_path,
                model_name="sentence_transformer_multilingual_labse",
                batch_size=200,
                window=50,
                batch_ids=[],
                save_pic=False,
                embed_batch_size=5,
                normalize_embeddings=True,
                show_progress_bar=True,
                shift=0)

После первичного выравнивания для каждого предложения на английском будет найдено лучшее соответствие на русском. Для поддержки длинных текстов выравнивание идет батчами (отрезками). Между батчами есть нахлест (параметр window). Поток второго текста можно двигать относительно первого (параметр shift). Более подробно о механизме выравнивания можно почитать здесь.

Визуализация

Посмотрим на результат помощи модуля vis_helper:

from lingtrain_aligner import vis_helper

vis_helper.visualize_alignment_by_db(db_path,
        output_path="alignment_vis.png",
        batch_size=500,
        size=(900,900),
        lang_name_from=lang_from,
        lang_name_to=lang_to,
        batch_ids=[],
        plt_show=True,
        show_info=False)

print("score:", metrics.chain_score(db_path))

ab7602dd67968eae53cdd145662c75d4

Метрика

Для оценки выравнивания я придумал метрику, логика которой находится в модуле metrics. Она оценивает насколько связанной получилась цепочка выравнивнивания. Цепочка без разрывов должна иметь score = 1, случайный набор точек будет иметь score = 0.

Разрешение конфликтов

Количество предложений в текстах сильно различается. Это связано как со стилем конкретного переводчика, так и с особенностями конкретного языка (например, есть тенденция перевода сложных русских предложений несколькими на китайском). Чтобы это побороть, нам нужно в определенных местах склеить предложения либо первого текста, либо второго. Этим занимается модуль resolver. Он в несколько проходов разрешает найденные конфликты. Самые большие конфликты должны быть разрешены вручную, для этого есть UI, о нем ниже. В нашем же случае качество первичного выравнивания говорит о том, что все должно быть хорошо. Убедимся в этом, поставив все выпавшие строки на место.

steps = 3

for i in range(steps):
    conflicts, rest = resolver.get_all_conflicts(db_path,
                        min_chain_length=2+i,
                        max_conflicts_len=6*(i+1),
                        batch_id=-1)

    resolver.resolve_all_conflicts(db_path, conflicts, model_name, show_logs=False)

    if len(rest) == 0:
        break

Посмотрим на визуализацию:

c268836656551e21170b419f1be7b98b

Результат

Картинка красивая, но посмотрим на результат. Из базы можно выгрузить корпуса по отдельности или в формате TMX.

from lingtrain_aligner import saver

output_path="/content"

saver.save_plain_text(db_path, os.path.join(output_path, f"corpora_{lang_from}.txt"), direction="from", batch_ids=[])
saver.save_plain_text(db_path, os.path.join(output_path, f"corpora_{lang_to}.txt"), direction="to", batch_ids=[])

saver.save_tmx(db_path, os.path.join(output_path, f"corpora.tmx"), lang_from, lang_to)

Отрывок из corpora.tmx:

7e0d4fe31478d7559a6076574edad1c6

Разрешив конфликты, мы из 344 предложений на английском и 372 на русском получили параллельный корпус из 332 строк. Как было сказано ранее, таким же образом можно выравнивать книги полностью.

Так как художественный перевод подчас граничит с искусством, то некоторые пары все равно нуждаются в дополнительной валидации. Все зависит от конкретного перевода. Кроме того, модель может ошибаться на коротких предложениях и предложениях с большим количеством названий и имен.

Иногда переводчик склонен даже «улучшить» оригинал. Например, в одном из переводов «Властелина колец» можно встретить такое описание:

Тень улыбки промелькнула на бледном, без кровинки, лице Боромира.

И оригинал:

Boromir smiled.

II. Fine-tuning для нового языка

Вернемся к малым языкам. Модель хоть и хорошая и из коробки «понимает» более ста языков, но с новым будет работать неудовлетворительно. Давайте попробуем.

Colab

Проделанные мной эксперименты и код вы можете посмотреть в этом Colab’e.

Башкирский язык

Попробуем выровнять рассказ «Батя Ялалетдин» Мустая Карима на башкирском и русском языках. Проделаем все те же действия, что и в первой части, получим следующее:

45d759c3cd7ee2a9110840380f8cd3b3

Видим, что качество значительно хуже, хотя и довольно неплохое. С чем это связано? С тем, что LaBSE была обучена в том числе и на небольшом корпусе татарского языка. Эти языки являются родственными и иногда можно получить перевод с одного на другой заменой некоторых букв.

Если мы сейчас запустим механизм разрешения конфликтов, то он, конечно же, отработает. Однако будет значительное количество некорректных разрешений. Так как нас это не устраивает, давайте разбираться как можно модель дообучить и улучшить качество корпуса.

Fine-tuning

Сначала вспомним, как Google изначально тренировал свою модель. Задачей, которую модель оптимизировала, был translation ranking task. Из заданного набора переводов нужно было найти самый корректный (картинка из статьи):

cea8b19c28ed1d8986a160a2502024ea

В обертке над моделью, которую я использовал (а это очень популярная и удобная библиотека sentence_transformers) есть набор loss’ов, которые примерно это и делают.

Сначала установим зависимости:

pip install transformers sentencepiece sentence_transformers

Сделаем импорт и проинициализируем модель:

from sentence_transformers import SentenceTransformer, SentencesDataset, losses
from sentence_transformers.readers import InputExample
from sentence_transformers.evaluation import SentenceEvaluator
from torch.utils.data import DataLoader

model = SentenceTransformer('LaBSE')

Дообученную модель можно передать как параметр в методы выравнивания, так мы чуть позже и поступим.

Почитав документацию, я нашел несколько подходящих нам функций ошибок. Это MultipleNegativesRankingLoss, ContrastiveLoss и OnlineContrastiveLoss. В два последних необходимо передвать примеры с меткой 0 или 1. 1 — если пара строк является взаимным переводом и надо сблизить соответствующие вектора, 0 — если надо их растащить. MultipleNegativesRankingLoss работает похожим образом, по коду видно, что в этом лоссе для каждого примера из батча корректные переводы будут приближаться, а все остальные — отдаляться. Автор библиотеки порекомендовал использовать именно его, и в ходе экспериментов он действительно оказался эффективнее других.

Для дообучения нужно привести к необходимому виду свой датасет с парами переводов. Разумеется, перед обучением надо обратить внимание на качество датасета и почистить его. Для башкирского языка я пользовался данными, которые мне предоставили энтузиасты в лице Айгиза Кунафина и Искандера Шакирова. Это открытый русско-башкирский датасет.

train_examples = [InputExample(texts=[x['ba'], x['ru']], label=1) for x in train_dataset]

train_dataset = SentencesDataset(train_examples, model)
train_dataloader = DataLoader(train_dataset, shuffle=True, batch_size=train_batch_size)

train_loss = losses.MultipleNegativesRankingLoss(model=model)

После этого можно обучать модель, делается это просто:

num_epochs = 3

warmup_steps = math.ceil(len(train_dataloader) * 0.1 * num_epochs)

model.fit(train_objectives=[(train_dataloader, train_loss)],
        evaluator=evaluator,
        epochs=num_epochs,
        evaluation_steps=1000,
        output_path=model_save_path,
        save_best_model=True,
        use_amp=True,
        warmup_steps=warmup_steps)

Так же можно в качестве evaluator’а передать свой класс. Он будет вызываться каждые evaluation_steps шагов, считать вашу метрику и рисовать графики. Я добавил класс ChainScoreEvaluator, который выравнивает и оценивает небольшие отрывки текста на рассматриваемых языках.

43482c755e9735f74f521c327932f545

Так же надо заметить, что Colab хоть и бесплатный, но может выдавать недостаточно мощные для тренировки карточки. Это сказывается на размере батча и скорости обучения. В итоге я оформил подписку за $10 в месяц (примерно 750 рублей).

Улучшение

Дообучив в течение нескольких дней модель в Colab’e, получился следующий результат:

ee178141bbc549d87fc5ab1b6113d599

Такого качества уже хватает, чтобы более уверенно поставить на место выпавшие строки.

08b4dfbcfde6a0c4a9935547ec8243e7
8f73649d1cffaba98226e2d772676c66

Чувашский язык

С чувашским языком все было гораздо сложнее, так как исходное качество было в разы хуже. Язык находится дальше от своих тюркских родственников, которые присутствуют в модели.

57c9da9b1c9f0cd6ed84b8b84169a96c

За датасет спасибо Александру Антонову, популяризатору чувашского языка. Русско-чувашский параллельный корпус можно найти здесь. В результате экспериментов удалось значительно улучшить качество:

b6a1e47fd4702cd5834435251f221c4c

Результат после автоматического разрешения конфликтов:

8d06c010b0a438ab81fb115b71c3161f

corpora.tmx

19bd71d36c27400520b5412e23b7502f

Чтобы вы смогли оценить качество этих моделей, я собрал Colab с их использованием. Преимущество Colab’а в том, что он предоставляет свои GPU, поэтому расчеты идут гораздо быстрее. В этом ноутбуке можно выбирать и другие языки, попробуйте.

Валидация

Отдельно скажу про проверку получившегося корпуса. Чтобы улучшить его качество, можно при помощи этой же модели посчитать расстояние между эмбеддингами (напомню, что это всего лишь вектор чисел соответствующий предложению) и отсечь самые далекие по смыслу пары.

Еще лучше привлечь носителей языка. Так поступили башкирские коллеги, написав бота, который дает на оценку пары предложений. Если владеете башкирским, то подключайтесь.

Обе модели можно попробовать здесь.

UI

Для ручного разрешения больших конфликтов и редактирования корпуса я написал UI. Подробнее о нем я рассказывал здесь, а выглядит он так:

l84y29mmfv4yp343nsn zmaiif4

В нем можно не только выравнивать и редактировать корпуса, но и делать из них параллельные книги.

Идеи

Проделанные эксперименты наверняка не являются самыми оптимальными. Качество можно улучшить, если добавить в датасет данные того же стиля, документы на котором необходимо будет выравнивать.

Так же можно использовать тот факт, что родственные языки обладают схожей грамматикой и лексикой с точностью до символов алфавита. Возможно, что при замене, например, кириллических букв на латинские, качество дополнительно возрастет (для того же чувашского). Это тоже предстоит попробовать.

Если у вас какие-то идеи по этому поводу, то буду рад, если поделитесь.

И да, чуть не забыл, — кто угадает, что за языки обозначены на обложке статьи?

Ссылки

  • Русско-башкирский параллельный корпус
  • Русско-чувашский параллельный корпус
  • Код lingtrain_aligner
  • Код UI
  • Телеграм-группа сообщества
  • Colab с экспериментами
  • Colab для извлечения корпуса
  • Фонд озеленения Марса
ТЕМ ВРЕМЕНЕМ
В БЛОГАХ…


еще…

КОММЕНТАРИИ

еще…

Большое спасибо. К сожалению, всего один урок на это чудо, а чаще всего вообще п…

Хокку — одна из оригинальностей японской культуры. Вы представили замечательный …

Спасибо за снежную сказку, Наталья Александровна! Оформление работы очень понрав…

Татьяна Владимировна, благодарю вас за внимание к моей работе и ее высокую оценк…

Лидия Петровна, спасибо Вам за внимание к работе, добрый отзыв о ней.

Елена Владимировна! Большое спасибо за внимание к работе и оценку моего труда.

Категория Английский язык 2 класс содержит материалов: 170

Страницы: 1 2 3 8 9 »

Интерактивный тест по теме «Мне нравится еда»

s30641000

Интерактивный тест подготовлен для повторения материала 2 модуля «Мне нравится еда» (УМК «Английский в фокусе», 2 класс) на основе шаблона Д. Иванова. Цель: проверка знаний изученного материала.

Тест по теме «Мой дом»

s87557213

Презентация-тест подготовлена по теме «Мой дом» на основе шаблона с триггерами. Цель: повторение изученной лексики 1 модуля (УМК «Английский в фокусе», 2 класс).

Игра-тренажер «ABC-play with animals»

s24990835

Данная игра-тренажер создана для второклассников с целью повторения и систематизации английского алфавита и названий животных на английском языке в игровой форме. Известно, что дети лучше запоминают играя. Яркие красивые картинки привлекают внимание ребят и мотивируют их к работе на уроках.

№79047 |
20.09.2021 |
gakoshkina

| 10.0Mb

Интерактивная лексическая игра «Mother and her Baby»

Английский язык 2 класс
| урок нов. материал, игра, викторина, проверка знаний, повторение, систематизация, факультатив
| презентация

s41654445

Представлена интерактивная презентация на английском языке на тему «Mother and her Baby». Дидактическая игра предназначена для учащихся начальных классов. Ресурс создан с применением технологического приёма «Волшебный конверт».

Лексическая игра по теме «Furniture»

s21743406

Ресурс представляет собой интерактивный тренажёр — лексическую игру для работы на уроках по теме «Furniture». Цель материала — развитие языковых компетенций. Ресурс составлен для использования в работе с младшеклассниками.

Презентация по теме «Части тела»

s65071309

Во втором классе, когда ученики овладели уже значительным запасом слов, мы начинаем описывать человека, называя части тела. В презентации представлены самые важные части человеческого тела. Посмотрев на слайд, ученик должен правильно прочитать часть тела и сказать перевод.

Презентация на тему «Colours»

s24619942

Презентация на тему: Colours. Данная презентация посвящена теме «Цвета».
Презентация познакомит учащихся с названиями различных цветов на английском языке.

№72431 |
06.01.2020 |
Juliia

| 5.6Mb

Презентация к уроку по теме «Colours»

s47912770

Презентация по английскому языку на тему «Colours». Данная презентация предназначена для 2 класса. Дети изучают цвета по ярким картинкам и закрепляют полученные знания с помощью интересных заданий.

Интерактивный тренажёр к уроку по теме «Kid’s toybox»

s94565557

Интерактивный тренажер создан в рамках мастер-класса «Анимированная сорбонка с удалением», подготовленным учителем высшей категории Носовой О.М.. Данный ресурс создан в программе Micrisoft Office Power Point 2010. Использован технический прием «Анимированная сорбонка с удалением».

№63916 |
04.06.2018 |
gakoshkina

| 9.4Mb

Интерактивный тренажер по теме «School of creative professions»

s95979910

Интерактивный тренажер создан в рамках мастер-класса «Анимированная сорбонка с удалением», подготовленным учителем высшей категории Носовой О.М.. Данный ресурс создан в программе Micrisoft Office Power Point 2010. Использован технический прием «Анимированная сорбонка с удалением».

№63874 |
31.05.2018 |
gakoshkina

| 5.0Mb

Тренажёр по теме «Животные»

s01262485

Цель презентации — проверить знания детей по теме «Животные». Можно использовать в любом классе начальной школы.

№63687 |
23.05.2018 |
Школьница

| 3.0Mb

Дидактическая игра «Find with Judy»

s62245031

Цель данного ресурса: проверить знания лексики и грамматики по пройденным темам во 2 классе. Презентация создана в программе Microsoft Power Point-2010.
По сюжету игры ребята должны помочь юной пушистой зайчихе Джуди Хоппс из мультфильма «Зверополис», поступившей на службу в полицию и её напарнику хитрому лису.

№61498 |
17.02.2018 |
gakoshkina

| 5.0Mb

Тест по теме «Глагол To Be»

word150

Данный материал представляет собой мини-тест, направленный на проверку усвоенного грамматического материала по теме «Глагол to be», а также навыков устной речи по пройденным темам (я, моя семья).

№60499 |
16.01.2018 |
white6wave

| 32Kb

Итоговый тест по английскому языку для 2 класса

word150

Итоговый тест для учащихся 2 класса, первый год обучения УМК «Английский в фокусе»2, В.Эванс, Дж.Дули, Н.Быкова, М.Поспелова. Цель- определение уровня сформированности знаний учащихся по темам, изученным во втором классе.

№57326 |
07.10.2017 |
ardatowa36

| 12Kb

Интерактивный кроссворд «Funny Animals»

s05582993

Интерактивный кроссворд с картинками «Funny Animals» можно использовать для любого УМК на этапе обобщения темы, контроля, организации игры на уроке.
Цель: активизация познавательной деятельности учащихся
Кроссворд создан в программе Microsoft Office PowerPoint 2007

№54891 |
29.06.2017 |
luschikm

| 0.9Mb

Интерактивный тренажёр «Загадки о животных»

s82219792

Интерактивный тренажёр «Загадки о животных» предназначен для использования на уроках английского языка в начальной школе при закреплении лексики по теме «Животные». Проверка правильности ответа осуществляется по щелчку по картинке с загадкой, при этом поворачивается обратная сторона с ответом. Переход на следующий слайд осуществляется при клике на картинку с бананом.

Интерактивный тренажёр по английскому языку «Цирковое представление»

s63105388

Интерактивный тренажёр по английскому языку «Цирковое представление» для закрепления знания английских глаголов выполнен с применением технологического приема «Внедрение звуков wav в презентацию». Предусмотрено звуковое оценивание ответа. Звуки обработаны в программе Audacity.


  • Рассказ про ростов великий
  • Рассказ про русалочку ариэль
  • Рассказ про русские народные инструменты
  • Рассказ про розу 3 класс по окружающему миру
  • Рассказ про ромашку 2 класс кубановедение