Рассказ от имени точки знака препинания

Инфоурок родная литература презентациипрезентация к уроку родного русского языка на тему: как появились знаки препинания? описание презентации по отдельным

Инфоурок

Родная литература
ПрезентацииПрезентация к уроку родного русского языка на тему: «Как появились знаки препинания?»

Муниципальное общеобразовательное учреждение«Средняя школа №40»г.Ярославль...

Описание презентации по отдельным слайдам:

  • 1 слайд

    Муниципальное общеобразовательное учреждение«Средняя школа №40»г.Ярославль

    Описание слайда:

    Муниципальное общеобразовательное учреждение
    «Средняя школа №40»
    г.Ярославль
    Урок родного (русского) языка
    4 класс
    Тема: «Как и когда появились знаки препинания?»
    Учитель начальных классов
    Колобова Татьяна Юрьевна

  • 2 слайд

    Отгадайте ребус:Знаки препинания

    Описание слайда:

    Отгадайте ребус:
    Знаки препинания

  • 3 слайд

    Поставьте в первом столбике «+» (согласен), «?» (не уверен, что так)

    Описание слайда:

    Поставьте в первом столбике «+» (согласен), «?» (не уверен, что так)

  • 4 слайд

    Чтение текста с пометкамиv Знакомая информация + Новая информация ? Это меня

    Описание слайда:

    Чтение текста с пометками
    vЗнакомая информация
    +Новая информация
    ?Это меня заинтересовало (удивило), хочу узнать больше

  • 5 слайд

    Поставьте во втором столбике «+» (верное суждение), «-» (неверное суждение)+

    Описание слайда:

    Поставьте во втором столбике «+» (верное суждение),
    «-» (неверное суждение)
    +
    +
    +
    +
    _
    _

  • 6 слайд

    Перечитайте последний абзац текста. Сопоставьте современные знаки препинания,

    Описание слайда:

    Перечитайте последний абзац текста. Сопоставьте современные знаки препинания, которые упоминаются в тексте со знаками препинания в «Российской грамматике» М.В.Ломоносова
    точка
    суть запятая
    точка с запятой

    две точки
    вопросительный
    удивительный
    вместительный
    единительный (знак переноса)

  • 7 слайд

    Запишите, пользуясь текстом, в каком году приняты были «Правила орфографии и

    Описание слайда:

    Запишите, пользуясь текстом, в каком году приняты были «Правила орфографии и пунктуации», которыми мы с вами сегодня пользуемся _________________

    Сколько лет действуют эти правила. Напишите решение и ответ.
    ________________________________________________________

    Ответ:_________________________________________________
    1956 год
    2020 – 1956 = 64 (года)
    64 года действуют «Правила орфографии и пунктуации».

  • 8 слайд

    Запишите по одному «тонкому» и по одному «толстому» вопросу

    Описание слайда:

    Запишите по одному «тонкому» и по одному «толстому» вопросу

  • 9 слайд

    «Древнейшим знаком препинания является точка…» Найдите в тексте не менее дв

    Описание слайда:

    «Древнейшим знаком препинания является точка…»

    Найдите в тексте не менее двух доказательств этого утверждения, запишите.

  • 10 слайд

    Самостоятельная работа. _____________ заключает целый период, и ей обыкновенн

    Описание слайда:

    Самостоятельная работа.
    _____________ заключает целый период, и ей обыкновенно следует прописная буква, которую также имена почтенные и собственные начинаются. (М. Ломоносов)

    2. _____________ ставится, когда пишущий считает нужным означить полное отделение одного предложения от другого. (Я. Грот)

    3. _____________ можно охарактеризовать как спокойное, заключительное понижение голоса с последующей паузой.
    (А. Пешковский)

    4. _____________________ и _________________ знаки служат для показания тона речи. (Я. Грот)

    5. ___________________знак по вопрошении поставляется: доколе унывать? Удивительный по удивлении поставляется: о странное дело!
    (М. Ломоносов)
    Точка
    Точка
    Точкой
    Восклицательный
    вопросительный
    Вопросительный

  • 11 слайд

    Оценка за самостоятельную работу:6 правильных ответов - «5»4-5 правильных

    Описание слайда:

    Оценка за самостоятельную работу:

    6 правильных ответов — «5»
    4-5 правильных ответов – «4»
    3 правильных ответа – «3»
    менее 3 правильных ответов – «?»

  • 12 слайд

    Оцените свою работу на уроке Урок полезен, все понятно. Лишь кое-что чуть-чу

    Описание слайда:

    Оцените свою работу на уроке
    Урок полезен, все понятно.
    Лишь кое-что чуть-чуть неясно.
    Еще придется потрудиться.
    Да, трудно все-таки учиться!

Если Вы считаете, что материал нарушает авторские права либо по каким-то другим причинам должен быть удален с
сайта, Вы можете оставить жалобу на материал.

Пожаловаться на материал

Рассказ от имени точки знака препинания

  • Сейчас обучается 973 человека из 79 регионов

Рассказ от имени точки знака препинания

  • Сейчас обучается 876 человек из 81 региона

Рассказ от имени точки знака препинания

  • Сейчас обучается 1013 человек из 81 региона

Найдите материал к любому уроку,
указав свой предмет (категорию), класс, учебник и тему:

также Вы можете выбрать тип материала:

  • Все материалы

  • Статьи

  • Научные работы

  • Видеоуроки

  • Презентации

  • Конспекты

  • Тесты

  • Рабочие программы

  • Другие методич. материалы

Проверен экспертом

Общая информация

Похожие материалы

  • Текст к уроку родного (русского) языка 4 класс на тему «Как появились знаки препинания?»

  • 2. Маршрутный лист к уроку родного (русского) языка 4 класс на тему: «Как и когда появились знаки препинания?»

  • Тест к произведению Веры Ивановой «Трудный случай»

  • Рабочая программа по предмету «Родная литература» (7 класс)

  • Презентация к выступлению на международной конференции, посвященный В. Абаеву » Использование трудов В.Абаева на уроках родного языка»

  • Презентация к уроку литературного чтения (коми), Иван Григорьевич Торопов, повесть «Тян»

  • Презентация к уроку литературного чтения (коми) «Коданёв Иван Васильевич»

  • Презентация к уроку литературного чтения (коми) Пылаева Соломония Васильевна «Кыдз пу» мойд

  • Не нашли то что искали?

    Воспользуйтесь поиском по нашей базе из

    5446330 материалов.

Вам будут интересны эти курсы:

  • Курс профессиональной переподготовки «Организация и предоставление туристских услуг»

  • Курс повышения квалификации «Введение в сетевые технологии»

  • Курс повышения квалификации «Специфика преподавания конституционного права с учетом реализации ФГОС»

  • Курс повышения квалификации «Организация практики студентов в соответствии с требованиями ФГОС педагогических направлений подготовки»

  • Курс повышения квалификации «Организация практики студентов в соответствии с требованиями ФГОС юридических направлений подготовки»

  • Курс профессиональной переподготовки «Логистика: теория и методика преподавания в образовательной организации»

  • Курс повышения квалификации «Маркетинг в организации как средство привлечения новых клиентов»

  • Курс повышения квалификации «Финансы: управление структурой капитала»

  • Курс профессиональной переподготовки «Организация маркетинга в туризме»

  • Курс повышения квалификации «Страхование и актуарные расчеты»

  • Курс профессиональной переподготовки «Организация технической поддержки клиентов при установке и эксплуатации информационно-коммуникационных систем»

  • Курс профессиональной переподготовки «Корпоративная культура как фактор эффективности современной организации»

  • Курс профессиональной переподготовки «Метрология, стандартизация и сертификация»

  • Курс профессиональной переподготовки «Эксплуатация и обслуживание общего имущества многоквартирного дома»

  • Курс профессиональной переподготовки «Гражданско-правовые дисциплины: Теория и методика преподавания в образовательной организации»

Точка в английском языке: dot, spot, point, full stop

Если вы регулярно читаете мой блог, то знаете, что я предпочитаю давать исчерпывающую информацию по теме, с примерами и уточнениями. Часто получается, что я пишу статьи с намерением разместить их в одном разделе блога, а когда имею готовый материал, то теряюсь: статья подходит для нескольких разделов!

Так вышло и с этим материалом. Я задумывала его, как пояснение разницы между словами, которые переводятся как «точка», для раздела «Выбор слова».

Но в процессе написания решила добавить несколько нюансов о пунктуации, которые повлекли за собой пояснения по поводу сокращений в английском, и в итоге, вместо короткого объяснения разницы между четырьмя словами, получился большой урок, затрагивающий не только лексику.

Почему я выбрала эту тему?
Дело в том, что слово «точка» может переводиться на английский разными словами. Точка зрения, точка как элемент начертания буквы, точка-пятно и точка в конце предложения — это разные слова. только понимая особенности использования каждого из них, вы можете выбрать правильное.
Давайте поговорим о них подробнее.

Содержание:

  • Dot
  • Spot
  • Разница между spot и dot
  • Point
  • Другие значения point, spot, dot
  • Точка как знак препинания
  • Когда ставить точку в английском
  • Заключение

Точка — маленькое округлое пятнышко. Dot — это точка на письме (но не в грамматическом смысле, а как изображение, элемент начертания букв или символов), в музыкальных обозначениях, и в азбуке Морзе:

dots above the letters i and j — точки над буквами i и j

We watched until the plane turned into a dot in the sky. — Мы смотрели на самолёт, пока он не превратился в маленькую точку в небе.

dotted lines — пунктирные линии

Пятнышко, крапинка, но не совсем то же самое, что dot. Dot обычно меньше, чем spot, плюс dot подразумевает круглую форму, а spot может быть не идеально круглым:

There is a spot on your shirt! Don’t worry, it is just a dot, no one will see it. — На твоей рубашке пятнышко! Не переживай, это просто точка, никто не увидит её.

Butterflies have small spots on their wings. — У бабочек на крыльях точки (пятнышки, крапинки).

to leave a spot — посадить пятно
remove a spot — выводить пятно

Словом spot обозначают точки (места) на какой-либо поверхности, территории, иногда в переносном смысле. Например:

Almost every spot on the globe has Internet connection. — Почти в каждой точке земного шара есть Интернет.

This is my favourite spot in the garden. — Это моё любимое место (точка) в саду.

a tender spot — уязвимое место
a sore spot — больное место
to hit the spot — попасть в точку
secluded spot — уединённое место

Как существительные, spot и dot — синонимы, и во многих контекстах могут заменять друг друга, если речь идет о точке-пятне, а вот в качестве глаголов их значения различаются:

To dot — ставить точки (например, над буквами), покрывать пятнышками, разбрызгивать что-то, оставляя следы-точки:

to dot the i’s and cross the t’s — расставлять все точки над i

Raindrops dotted my raincoat. — Капли дождя покрыли пятнышками мой плащ.

To spot — заметить, увидеть, найти (что-либо, что трудно заметить или найти):

to spot somebody in the crowd — заметить кого-либо в толпе

to spot a mistake in the essay — заметить ошибку в сочинении

Есть два похожих выражения, в которых не нужно путать spot и dot:

Do something on the spot — сделать что-то сходу, без подготовки, прямо сейчас.

Do something on the dot — делать что-либо вовремя, минута в минуту.

He answered on the spot, without preparation. — Он ответил сходу, без подготовки.

They arrived on the dot, exactly on time. — Они прибыли как раз вовремя, минута в минуту.

Слово point может обозначать видимую точку: отметку, крапинку на поверхности (в этом значении синонимично dot), так и отметку, точку деления (на шкале), точку на местности или на пути:

There is a red point on your cheek. Looks like a sting. — У тебя на щеке красная точка. Похоже на укус.

The scale has ten points. — Шкала имеет десять пунктов.

point of departure — пункт отправления

Point — это также невидимая точка; например, точка зрения, точка в абстрактном и научном смысле:

starting point — отправная точка (в прямом и переносном смысле)
freezing point — точка замерзания
boiling point — точка кипения
reference point — точка отсчета
point of view (standpoint, viewpoint) — точка зрения

Если обобщить, то основное отличие point от dot — то, что dot — это просто точка, которую мы видим, а point — точка (реальная или абстрактная), наделённая определённой функцией.

Если вы откроете словарь, то увидите, что слова point, spot, dot имеют много значений, большинство из которых так или иначе связано с «точечностью». Вот некоторые из них для иллюстрации:

  • Spotlight — осветительный прожектор в театре (который точечно подсвечивает сцену и актеров)
  • Polka dot — узор в горошек (горошек — это те же точки разного размера)
  • Point — пункт, вопрос (в маркированных списках часто пункты отмечают точками)
  • The point — суть, «соль» рассказа, шутки (точка, в которой становится смешно, или все понятно)

Если решите углубиться в тему, можно рассматривать каждое значение point, spot, dot, по-разному интерпретировать и ассоциировать с точками. Это, между прочим, интересное занятие, которое развивает восприятие лексики, помогает формировать связи и улучшает запоминание множественных значений английских слов. Понимание первоначального значения слов поможет вам определить другие, незнакомые значения слова в новых контекстах и правильно их перевести.

Точку-знак препинания часто ошибочно называют point или dot (просто переводя слово «точка»), но в грамматическом значении точка называется иначе — full stop (или full point). Если дословно — это полная остановка, но в предложении — знак препинания, указывающий на окончание предложения. В американском английском точка в предложении — это period.

to put in a full stop — ставить точку

You should put a full stop to finish your sentence. — Вам следует поставить точку, чтобы закончить предложение.

А еще full stop играет роль междометия:

I am leaving! Full stop! — Я ухожу! И точка!

Кстати, считаю важным упомянуть и другие знаки препинания, в привычных для нас названиях, которых есть слово «точка», но это вовсе не значит, что их нужно «переводить» на английский, используя слова, которые мы сегодня разбираем. На английском названия звучат совсем иначе:

  • Ellipsis — многоточие
  • Colon — двоеточие
  • Semicolon — точка с запятой

Раз уж пошел разговор о пунктуации, давайте рассмотрим правила — когда в английском языке ставится точка на письме:

  • В конце утвердительного или повелительного предложения
  • В сокращениях

Что касается предложений, здесь всё понятно, а вот по поводу сокращений хотелось бы уточнить. Речь не о сокращениях служебных слов, а о сокращениях существительных (собственных и нарицательных) и словосочетаний.

В английском можно выделить три типа аббревиатур и сокращений:

  • 1. Те, в которых точки не используются никогда (USA, BBC, EU)
  • 2. Те, в которых точки используются всегда

Точку ставят, когда сокращают часто используемые слова:

Telephone Number — Tel. No.
Monday — Mon.
September — Sept.
Pages — pp.
Street — st.
Para. — paragraph

После инициалов, которые являются, по сути, сокращенными именами, тоже нужны точки:

J. K. Rowling
John F. Kennedy

В ряде сокращений от латинских словосочетаний тоже всегда стоят точки:

e.g. — exempli gratia (для примера)
etc. — et cetera (и так далее)
i.e. — id est (то есть)

  • 3. Те, в которых точки используются не всегда.

Это зависит в основном от того, какой вариант языка используется: британский или американский.

AM, PM (американский вариант)
a.m., p.m. (британский вариант)

В американском варианте английского обычно используются точки после сокращений титулов и обращений:

Mrs. — mistress — миссис, госпожа (обращение к замужней женщине)
Mr. — мистер, господин
Dr. — doctor
Prof. — professor
Capt. — captain
Gen. — general
Sen. — senator
Rev. или Revd. — Reverend — (его) преподобие (титул священника)
Hon. — Honourable — достопочтенный — (употребляется в качестве обращения к титулованным особам, к лицам, занимающим высокие посты)

Если вы используете британский вариант, то можете выбирать, ставить точки или нет, главное — быть последовательным в использовании (be consistent) — если решили ставить точки, то ставьте их во всем тексте, который пишете (это как точки над буквой ё).

Кстати, в британском английском есть такое правило: если последняя буква сокращения совпадает с последней буквой целого слова — точка не ставится, а если не совпадает — ставится.

Mister — Mr (без точки, потому что последняя буква одинаковая)
Captain — Capt. (c точкой, потому что последняя буква не совпадает)

Как видите, даже простая точка не так проста, как кажется.
Одно слово может дать массу информации для исследования и изучения.

В своих статьях я специально показываю аспекты языка с разных сторон, чтобы вы могли связывать новое с уже знакомым и более осознанно подходили к обучению. Надеюсь, этот формат вам нравится. Напишите мне, была ли полезна статья, буду ждать ваших комментариев и отзывов.

Кстати, если вы хотите грамотно писать и не допускать пунктуационных ошибок, рекомендую вам изучить материал о том, как использовать запятую в английском предложении. Это будет полезно всем, кто готовится к экзаменам, использует язык для письменной коммуникации с коллегами или клиентами или переписывается с друзьями. А преподаватели нашего онлайн-центра разработают для вас индивидуальную программу и помогут вывести ваш письменный и разговорный английский на новый уровень! Записывайтесь на вводное занятие в ENGINFORM прямо сейчас!

Успешного изучения английского!

Увидели ошибку в тексте? Выделите её и нажмите на появившуюся стрелку или CTRL+Enter.

Вопрос
83. Принципы русской пунктуации. Знаки препинания и их основные функции.

Пунктуация — это
совокупность правил о постановке знаков препинания; сами знаки препинания,
используемые в письменной речи для указания на её расчленение и шире – систему
знаков препинания; раздел языкознания, изучающий закономерности системы и
функционирование знаков препинания.

Знаки препинания –
часть графической системы языка, условно принятые вне алфавитные обозначения
для расчленения речи в её письменной форме, а также для выявления
синтаксической и смысловой структуры письменного текста.

Современная
русская пунктуация, отраженная в. печатных текстах, представляет собой
совокупность общепринятых, рекомендуемых соответствующими документами правил
пользования знаками препинания. Русская пунктуация сложилась к 18 в . В др-рус.
памятниках число знаков препинания было ограничено. Они не имели никакой
смысловой функции и обозначали только членение текста, вызванное потребностью
пишущего остановиться (отдохнуть). Развитие пунктуации связано с развитием
книгопечатания. Позднее на расстановку знаков препинания серьёзное влияние
стали оказывать писатели. Первые работы по пунктуации принадлежали М. Греку,
Лаврентию Зезанию, Милентию Смотрицкому. Ломоносов в «Российской грамматике»
дал следующий перечень знаков: точка, запятая, две точки, точка с запятой,
вопросительный знак, единительный знак (перенос), вместительный знак (скобки).

Разработка
вопросов пунктуации связана с именами Н.И. Греча, А.Х Востокова, Ф.И. Буслаева.

Я.К. Грот попытался
обобщить предшествовавшие исследования. В основе – логическое членение речи,
передающееся в устной речи паузами и интонацией.

А.М. Пешковский и
Л.В. Щерба писали о главенствующей роли интонации. Однако, Щерба не отрицал
роли логического и смыслового членения.

В дальнейшем
разработка вопросов пунктуации пошла по пути выявления целого комплекса
принципов:

  • Формально-грамматический
    (структурный)
  • Смысловой
  • Интонационный

Назначение
пунктуации заключается в том, чтобы обеспечивать читающему правильное понимание
смысла написанного. Поскольку правильное понимание текста зависит прежде всего
от его смыслового членения (на предложения и различные их части), постольку
основой пунктуации является смысловое членение речи.

Часто смысловому
членению речи соответствует ее грамматическое членение, а в устной речи и ее
интонационное членение; иначе говоря, смысловое членение выражается
грамматически и интонационно. В этом случае  можно говорить о совпадении
смысловых, грамматических и интонационных оснований для постановки знаков
препинания, или о структурно-семантической основе пунктуации.

Однако есть
случаи, когда три указанных основания: смысловое, грамматическое, интонационное
— могут не совпадать. Так, нередко смысловое и грамматическое членение речи не
совпадает с ее интонационным членением.

Структурный
принцип. Большинство знаков ставится на основании этого принципа (стабильность,
общепринятость, обязательность). Эти знаки не могут быть факультативными.

  • Точка
    в конце предложения
  • На
    стыке частей СП
  • При
    однородных членах
  • При
    обособленных
  • При
    междометиях, обращениях, вводных и вставных конструкциях

Структурное
членение совпадает и тесно связано со смысловой стороной речи. Иногда
семантическое членение речи подчиняет себе стуктурное. На смысловом основании
ставится … , знаки в БСП

Молодёжь ушла, в
клубе стало скучно (последовательность)

Молодёжь ушла: в
клубе стало скучно (причина)

Молодёжь ушла — в
клубе стало скучно (следствие)

Знаки препинания
могут влиять на смысл, на психологическую глубину предложения

Без хворостины в
руке, ночью, он, нимало не колеблясь, поскакал один на волка.

Смысловой принцып
часто проявляется при постановке знака между однородными и неоднородными
определениями.

Лишь отчасти
пунктуация основывается на интонационном принципе, при постановке ?,  !,
интонационного , , . (на месте длительной паузы с
понижением голоса – парцелляция).

А зимой беда у неё
случилась. Большая.

Интонационный
принцып обычно не выступает в чистом виде, он зависит от первых двух.

В русской
пунктуации употребляются следующие знаки препинания: точка, вопросительный
знак, восклицательный знак, многоточие, запятая, точка с запятой, двоеточие,
тире, скобки, кавычки. Функцию знака препинания выполняет также абзацный
отступ, или красная строка. Знаки препинания выполняют две основные функции: 1)
отделения, 2) выделения. Одни из знаков препинания служат только для отделения
(отделяющие знаки препинания); это одиночные знаки препинания: точка, точка с
запятой, восклицательный и вопросительный знаки, многоточие, двоеточие; сюда же
относится и абзацный отступ. С помощью этих знаков отделяются друг от друга
предложения, предикативные части некоторых сложных предложений, иногда
однородные члены и другие конструкции.

Другие знаки
препинания служат только для выделения (выделяющие знаки препинания); это
двойные знаки: скобки и кавычки. С помощью этих знаков выделяются вводные и
вставочные обороты и предложения (скобки) и прямая речь (кавычки).

Третьи знаки препинания
(запятая и тире) многофункциональны, то есть могут выступать и как отделяющие,
и как выделяющие в зависимости от конкретных условий, в которых они
употребляются. Так, с помощью запятой могут быть отделены друг от друга и части
сложного предложения, и однородные члены; с помощью тире отделяются в ряде
случаев части сложных предложений, однородные члены от обобщающего слова, одни
члены предложения от других в некоторых неполных предложениях и в других
конструкциях.

С помощью запятых
выделяются различные обособленные обороты, обращения, вводные слова; с помощью
тире могут выделяться вводные и вставочные предложения.

В ряде случаев,
как, например, в предложениях с прямой речью, употребляются сложные комбинации
выделяющих и отделяющих знаков.

Указанные основные
функции знаков препинания (отделение и выделение) часто осложняются более
частными, смыслоразличительными функциями. Так, знаки конца предложения не
только отделяют одно предложение от другого, но выражают и то, каким является
данное предложение по цели высказывания или по степени эмоциональности. Ср.: Он
не придет. Он не придет? Он не придет!

Показательно в
этом отношении употребление знаков препинания и в бессоюзных предложениях, в
которых знаки препинания несут и смысловую нагрузку, сигнализируют о
грамматическом значении бессоюзных предложений. Так, например, в предложении Он
не приходит, ждет она выражаются отношения перечисления, в предложении Он не
приходит — ждет она — отношения противительные.

Как пунктуация в
целом, так и отдельные знаки препинания исторически изменялись. Ушли из
пунктуационной системы такие знаки препинания, как (4 точки ромбиком, и 3 точки
треугольником). К 18 в появляется – , …, «». Распространение тире связано с
именем Карамзина. Н.С. Валгина отмечает следующие активные процессы в русской
пунктуации:

  • Сравнительно
    редкие в современной письменной речи : и ; в 19 в
    использовались шире (Лермонтов). ; могла ставиться после обращения,
    между однородными членами, перед скобками, между словами автора и прямой
    речью
  • В 19-начале
    20 вв часто употреблялось , –  в качестве единого знака препинания
    на стыке частей СП (А. Толстой). В современной системе он используется для
    оформления прямой речи
  • В
    настоящее время выявляется тенденция к вытеснению двоеточия знаком тире
  • Часто
    используется – – как связующий знак (педагог – коллектив – личность)
  • В
    письменной речи последних десятилетий широко используется парцелляция каак
    приём экспрессивной передачи материала
  • Приближается
    лето. Яркое. Жаркое.

bks0em c b35thcmsmpu2vpuok8

Open In Colab

При разработке систем распознавания речи мы сталкиваемся с заблуждениями среди потребителей и разработчиков, в первую очередь связанными с разделением формы и сути. Одним из таких заблуждений является то, что в устной речи якобы «можно услышать» грамматически верные знаки препинания и пробелы между словами, когда по факту реальная устная речь и грамотная письменная речь очень сильно отличаются (устная речь скорее похожа на «поток» слегка разделенный паузами и интонацией, поэтому люди так не любят монотонно бубнящих докладчиков).

Понятно, что можно просто начинать каждое высказывание с большой буквы и ставить точку в конце. Но хотелось бы иметь какое-то относительно простое и универсальное средство расстановки знаков препинания и заглавных букв в предложениях, которые генерирует наша система распознавания речи. Совсем хорошо бы было, если бы такая система в принципе работала с любыми текстами.

По этой причине мы бы хотели поделиться с сообществом системой, которая:

  • Расставляет заглавные буквы и основные знаки препинания (точка, запятая, дефис, вопросительный знак, восклицательный знак, тире для русского языка);
  • Работает на 4 языках (русский, английский, немецкий, испанский);
  • По построению должна работать максимально абстрактно на любом тексте и не основана на каких-то фиксированных правилах;
  • Имеет минимальные нетривиальные метрики и выполняет задачу улучшения читабельности текста;

На всякий случай явно повторюсь — цель такой системы — лишь улучшать читабельность текста. Она не добавляет в текст информации, которой в нем изначально не было.

Постановка задачи и метод ее решения

На вход подается предложение, записанное строчными буквами и без какой-либо пунктуации — как мы обычно получаем на выходе системы распознавания речи. Требуется разработать модель, восстанавливающую его грамотную запись в смысле использования заглавных букв и знаков препинания. Набор знаков препинания .,—!?- был выбран исходя из оценки того, отсутствие каких символов наиболее бросается в глаза в предложениях, которые в среднем встречаются в речи в целевых доменах.

Кроме того, модель разрабатывалась из предположения, что после, и только после каждого токена сетке следует проставить только одну метку — знака препинания или просто пробела. Это автоматически исключает сложные случаи расстановки пунктуации в начале предложения или из нескольких символов (самый яркий пример — разнообразная прямая речь в литературе). Это упрощение сделано намеренно, т.к. нам показалось, что такое ограничение более конструктивно, чем учет всех малочисленных краевых случаев. И вообще главная задача, скорее, в улучшении читабельности, чем в идеальной записи составной прямой речи с обращениями и описаниями.

Задачу предполагалось сразу решать для нескольких основных языков. При этом модель по построению может быть легко расширена на произвольное количество языков, с которыми мы работаем, при наличии потребности и соответствующих корпусов данных.

Решение виделось прежде всего в виде какой-то малой бертоподобной модели с классифицирующими слоями поверх. В качестве данных для обучения использовались приватные корпуса, уже имевшиеся в наличии.

Мы ознакомились с недавним решением смежной задачи от коллег, однако, для наших целей требовалась:

  • Более легкая модель с более общей специализацией;
  • Реализация, не использующая напрямую внешние АПИ и не имеющая такое большое число зависимостей.

В результате у нашего решения из значительных зависимостей только сам PyTorch, никаких специализированных библиотек.

Поиск базовой модели

По возможности мы хотели взять небольшую предобученную языковую модель. Однако, поиск по списку готовых моделей, доступных на https://huggingface.co/, дает не самые обнадеживающие результаты: требование мультиязычности и уменьшения модели, например, дистилляции, по сути приводят нас к единственной доступной опции, и то с весом в полгигабайта.

Здесь, наверное можно сделать ремарку про степень полезности «революции трансформеров» в NLP, но напрашивающиеся выводы мы оставим на усмотрение читателя.

Итоговый размер модели и ее сжатие

Мы экспериментировали с разными архитектурами, но в итоге остановились на самой простой, и итоговый размер модели составил 520 мегабайт.

Такой размер дистилированного берта в основе нас не вполне устроил, и мы попробовали сжать обученную модель. Самый простой и эффективный способ — конечно, квантизация (причем сочетание статической и динамической как здесь) — и в результате модель была ужата до 130 мегабайт без значимой потери качества, потому всюду далее будут именно метрики финальной квантизованной модели.

Кроме того, мы сократили избыточный для нашей задачи словарь, выкинув токены для других языков, что позволило сжать эмбеддинг размера 120 тысяч токенов (размер токена — аж 768) до более приятных 75 тысяч. Наверняка можно было еще подрезать не самые часто используемые токены и применить оставшиеся более продвинутые методы сжатия моделей (факторизацию и замену механизма «внимания» на более простые аналоги), но мы решили остановиться, поскольку модель уже стала меньше 100 мегабайт.

Используемые метрики

Вопреки всеобщему тренду на сенсационализм и утрату рационального мышления, во всех наших статьях мы стараемся показывать максимально подробные, информативные и честные метрики на разных данных. В данном случае приведем метрики полученной модели на:

  • Валидационных сабсетах наших приватных текстовых корпусов (5,000 предложений на каждый язык);
  • Текстах аудиокниг, будем использовать датасет caito, в котором как раз есть тексты на всех языках, на которых обучалась модель (20,000 случайных предложений на каждый язык);

В качестве метрик в этой задаче используем:

  • WER (word error rate) в процентах, причем отдельно рассчитанный для пунктуации (оба предложения при этом приведены к строчному виду) — WER_p и для расставления заглавных букв (а здесь выбрасываем всю пунктуацию) — WER_c;
  • Precision / recall / F1 для проверки качества классификации: между пробелом и упомянутыми выше знаками пунктуации .,—!?-, а для расстановки заглавных букв — между классами токен из строчных букв / токен начинается с заглавной / токен из всех заглавных. Также для наглядности вы можете посмотреть на confusion матрицы;

Результаты

Для корректного и информативного расчета метрик из текстов были выброшены:

  • Пунктуационные символы помимо .,—!?-;
  • Пунктуация в начале предложения;
  • Пунктуационные символы после первого в случае комбинации из нескольких пунктуационных знаков;
  • Для испанского ¿¡ из предсказаний модели были отброшены, т.к. в текстах книжек их тоже нет, но вообще модель их расставляет;

На вход модели подавались отдельные предложения, а не наборы предложений.

WER

В ячейках указан WER_p / WER_c, а наивный бейзлайн состоит в постановке заглавной буквы в начале предложения и точки в конце.

Домен — валидационные данные:

Домен — книги:

Precision / Recall / F1

Домен — валидационные данные:

Домен — книги:

Как можно заметить из таблиц — даже для русского, значения дефиса остались пустыми, потому что на использовавшихся для расчета метрик данных модель предлагала его не проставлять вовсе, либо заменять дефис каким-нибудь иным символом (как видно в матрицах ниже); похоже, он лучше расставляется в случае предложений в форме определений (см. пример в конце статьи).

Для контекста

Приведем доступные F1 метрики из разных статей, где решались смежные задачи — здесь разные языки, разные валидационные данные, поэтому напрямую сравнить не удастся, но можно оценить порядок цифр. Cистема классов в таких работах тоже обычно иная — COMMA, PERIOD, QUESTION:

Сonfusion matrices

Матрицы по книжкам:

en

en_p_cm
en_c_cm

de

de_p_cm
de_c_cm

ru

ru_p_cm
ru_c_cm

es

es_p_cm
es_c_cm

Примеры работы модели

Глядя на то, что для домена книг все же не везде метрики выглядят информативными и иногда совпадают с тривиальным решением, мы добавили и примеры именно текстов — для сравнения оригинальной расстановки пунктуации и заглавных букв с результатом работы модели.

Здесь более наглядны особенности работы модели:

  • Где-то модель расставляет знаки препинания и заглавные буквы вполне неплохо, но не как в оригинальном тексте;
  • Где-то пропускает или ошибается, а еще в книжках она выставляет вопросы и восклицания чересчур усердно;

Но тут нет ничего удивительного — новой информации модель не создает (никак неиссякаемая тугая струя желтых статей про «zoom and enhance» на Хабре удручает), мысли автора текста не читает и вообще по сути просто делает текст более привычным глазу.

Как запустить

Модель выложена в репозитории проекта silero-models и, соответственно, будет поддерживаться, как и прочие наши решения оттуда. А вот простой запуск модели (с более подробными примерами можно ознакомиться в colab):

Open In Colab

import torch

model, example_texts, languages, punct, apply_te = torch.hub.load(repo_or_dir='snakers4/silero-models',
                                                                  model='silero_te')

input_text = input('Enter input textn')
apply_te(input_text, lan='en')

Ограничения

У данной работы есть ряд ограничений и очевидных вещей, которые мы решили пока не делать (так сказать нужно же было где-то поставить точку):

  • На языках кроме английского модель сносно работает с длинными предложениями. Но разделять несколько предложений или целые параграфы текста на отдельные предложения она по построению пока не умеет;
  • Не совсем понятно как делить на предложения целые «книги» и неясно нужно ли это вообще в принципе;
  • Мы не применили факторизацию и структурированный прунинг к модели (например снижение числа голов в механизме внимания);

Нам более-менее очевидно, как сделать большую часть этих вещей, но только время и разведка боем покажет востребованность подобного рода инструментов.

  • Рассказ от имени феодала 6 класс история
  • Рассказ от имени фараона 5 класс история древнего мира
  • Рассказ от лица воина древнего египта
  • Рассказ от лица василисы егоровны о приезде гринева в крепость
  • Рассказ от имени листка о путешествии к черному морю из отчизны суровой напишите его