Позитив и мороженка дзен яндекс рассказ

2021-12-04t14:13:1303:002021-12-04t14:13:4003:002021-12-04t14:13:1303:002021https://1prime.ru/experts/20211204/835416096.htmlрубль настроился на геополитический позитивмнения аналитиковновостиru-ruhttps://1prime.ru/docs/terms/termsofuse.htmlhttps://россиясегодня.рфкурс рубля к основным резервным валютам на завершающейся рабочей неделе продемонстрировал восстановительный рост. при этом

2021-12-04T14:13:13+03:00

2021-12-04T14:13:40+03:00

2021-12-04T14:13:13+03:00

2021

https://1prime.ru/experts/20211204/835416096.html

Рубль настроился на геополитический позитив

Мнения аналитиков

Новости

ru-RU

https://1prime.ru/docs/terms/terms_of_use.html

https://россиясегодня.рф

Курс рубля к основным резервным валютам на завершающейся рабочей неделе продемонстрировал восстановительный рост. При этом он ушел от многомесячных минимумов и вернулся на… ПРАЙМ, 04.12.2021

рынки, мнения аналитиков

https://1prime.ru/i/logo/social_logo.png

Агентство экономической информации ПРАЙМ

7 495 645-37-00

ФГУП МИА «Россия сегодня»

https://россиясегодня.рф/awards/

Агентство экономической информации ПРАЙМ

7 495 645-37-00

ФГУП МИА «Россия сегодня»

https://россиясегодня.рф/awards/

Агентство экономической информации ПРАЙМ

7 495 645-37-00

ФГУП МИА «Россия сегодня»

https://россиясегодня.рф/awards/

Агентство экономической информации ПРАЙМ

7 495 645-37-00

ФГУП МИА «Россия сегодня»

https://россиясегодня.рф/awards/

Агентство экономической информации ПРАЙМ

Рубль настроился на геополитический позитив

МОСКВА, 4 дек — ПРАЙМ. Курс рубля к основным резервным валютам на завершающейся рабочей неделе продемонстрировал восстановительный рост. При этом он ушел от многомесячных минимумов и вернулся на двухнедельные максимумы. Так, доллар опускался до 73,3 рубля, евро – до 83 рублей — оба к минимумам с 22 ноября.

Основным курсообразующим фактором для рубля опять была геополитика, со стороны которой приходил позитив в виде подготовки к беседе президентов России и США Владимира Путина и Джо Байдена. Общий аппетит к риску на мировых рынках также влиял на курс рубля. При этом рынок нефти лихорадило: он обновил минимум — с августа (65,72 доллара) после чего пытался вернуться на психологически значимый уровень 70 долларов за баррель.

В итоге, доллар за неделю упал на 1,8 рубля до уровня 73,8 рубля, евро – на 2,2 рубля до 83,3 рубля. Рублевая цена барреля марки Brent при этом опустилась до 5,15 тысячи против 5,5 тысячи неделей ранее.

РУБЛЬ ВОССТАНАВЛИВАЛСЯ

Рубль начал рабочую неделю восстановительным ростом относительно доллара и евро, отыгрывая заявления замглавы МИД РФ Сергея Рябкова о том, что ситуация с возможным контактом президентов РФ и США Владимира Путина и Джо Байдена скоро прояснится, он может пройти и в неочном формате.

Последовавшие интенсивные переговоры главы МИД РФ Сергея Лаврова с госсекретарем США Энтони Блинкеном подержали снижение геополитических рисков для рубля.

Главный импульс для мировых рынков исходил от новостей о новом штамме коронавируса «омикрон». Отсутствие за время прошлых выходных новых пугающих сообщений о нем и даже некоторые успокаивающие сообщения Всемирной организации здравоохранения (ВОЗ) поддерживали коррекционные настроения.

На сегодняшний день не зарегистрировано ни одного случая смерти, связанного со штаммом коронавируса «омикрон» сообщила, в частности, ВОЗ. 

Впрочем, рынок нефти чутко реагировал на ожидания от саммита ОПЕК+, а также – на заявления о продаже нефти из стратегических резервов стран «антиОПЕК+» под предводительством США.

В частности, сразу после появления первых сообщений о намерении ОПЕК+ не отменять запланированное на январь увеличение добычи (на 400 тысяч баррелей в сутки) цены на нефть резко ускорили снижение.

Brent впервые с августа упал ниже 66 долларов за баррель, однако затем преобладало восстановление. Появление определенности от ОПЕК+ позволило нащупать дно и оттолкнуться вверх.

Также успокоило рынок заявление о том, что в связи с появлением штамма «омикрон» ОПЕК+ при необходимости будет готов незамедлительно действовать.

ПРОГНОЗЫ

Завершение рабочей недели рубль провел в «боковике» против главных резервных валют, поскольку основные факторы были отыграны и оставались только ожидания.

В этих условиях игроки рынка анализировали заявления главы ЦБ РФ Эльвиры Набиуллиной. В частности, она сказала, что Банку России пока придется сохранить жесткость в своей политике, чтобы вернуть инфляцию к цели вблизи 4%.

При этом регулятор не видит необходимости приостанавливать покупки валюты в рамках бюджетного правила из-за текущего снижения курса рубля.

Впрочем, Минфином РФ несколько снизил их объем. В период с 7 декабря текущего по 13 января 2022 года покупки составят в эквиваленте 22,8 миллиарда рублей в день против 25,9 миллиарда рублей в день с 9 ноября по 6 декабря.

Набиуллина также заявила, что ужесточение монетарной политики ФРС США может привести к оттоку капитала с развивающихся рынков и давлению на их валюты, однако Банк России готов к изменению политики финансового регулятора США.

При этом российский ЦБ не видит необходимости поднимать ключевую ставку до двузначного значения в следующем году, сказала она.

Благоприятно на рубль повлияли заявления Путина о том, что правительство и ЦБ своевременно принимают решения по сдерживанию инфляции в стране.

Уже в конце торгового дня пятницы Блинкен заявил, что разговор Байдена и Путина состоится в «очень скором будущем». Блинкен добавил, что Байден подтвердит стремление к предсказуемым и стабильным отношениям с Россией.

Таким образом, рубль может продолжить пользоваться пониженными геополитическими рисками и отыгрывать только глобальную конъюнктуру. Однако после повышенной волатильности этой недели на рынках может наступить безветрие.

В разделе «Мнения» сайта Агентства экономической информации «ПРАЙМ» публикуются материалы, предоставленные аналитиками, трейдерами и экспертами российских и зарубежных компаний, банков, а также публикуются мнения собственных экспертов Агентства «ПРАЙМ». Мнения авторов по тому или иному вопросу, отраженные в публикуемых Агентством материалах, могут не совпадать с мнением редакции АЭИ «ПРАЙМ». Подробнее

Авторы и АЭИ «ПРАЙМ» не берут на себя ответственность за действия, предпринятые на основе данной информации. С появлением новых данных по рынку позиция авторов может меняться.

Представленные мнения выражены с учетом ситуации на момент выхода материала и носят исключительно ознакомительный характер; они не являются предложением или советом по совершению каких-либо действий и/или сделок, в том числе по покупке либо продаже ценных бумаг. По всем вопросам размещения информации в разделе «Мнения» Вы можете обращаться в редакцию агентства: combroker@1prime.ru.

Привет! Меня зовут Илья Гусев, я занимаюсь машинным обучением в команде Яндекс.Новостей. У каждого новостного сюжета на сервисе есть своя страница, где собраны новости об одном и том же событии из разных источников. Сегодня мы рассмотрим построение краткой выжимки, дайджеста сюжета. В такой выжимке, состоящей из фрагментов новостных документов, содержится основная информация о событии. Очевидно, почему дайджест полезен для пользователя — мы выводим на экран сюжета самое важное о событии. С похожими задачами сталкиваются многие инженеры: например OpenAI недавно опубликовала статью про реферирование книг. Поэтому я надеюсь, что описанный ниже подход будет вам полезен.

Как и всё в Новостях, построение такой выжимки должно быть полностью автоматическим. До внедрения выжимки текстовая часть сюжета выглядела так:

Теперь она выглядит так:

6vr1bu9yycyitnpkp61pbgtbawq

Задача

Реферирование (или аннотирование, или суммаризация) — процесс получения краткой версии документа, которая раскрывала бы его суть. Вы наверняка сталкивались с аннотациями книг, газетных и новостных статей, составленными людьми. Автоматическое же реферирование происходит с помощью компьютерной программы.

Автоматическим реферированием инженеры занимаются с 50-х. Одна из первых работ на эту тему — статья Ханса Петера Луна 1958 года.

Задача мультидокументного реферирования тоже достаточно стара. Её популяризировали ещё в начале нулевых годов серией конференций DUC (Document Understanding Conference). Её основное отличие от обычного реферирования — на вход алгоритму подают не один, а несколько документов.

В Яндекс.Новостях мы реферируем сюжет, то есть коллекцию документов об одном и том же событии. На выходе хотим получить краткую выжимку самых важных подробностей из этих документов.

Важно, что Новости не пишут собственные тексты, даже автоматически: у нас нет своей редакции, все материалы, которые мы используем, получаем от изданий-партнёров. То есть в готовую выжимку обязательно должны попасть текстовые фрагменты из документов на входе. Это отметает все абстрагирующие методы, которые могут писать новые тексты, в том числе и YaLM.

Выжимки бывают разных форматов: они могут отличаться размером и числом фрагментов. После экспериментов мы остановились на 4 предложениях. Выжимки большего размера, как и фрагменты больше предложения, пользователи воспринимают тяжело.

Алгоритм

Изначально мы пробовали делать выжимку из одного документа, с помощью довольно простых TextRank и LexRank, использующих PageRank над графом похожести предложений друг на друга, а также более сложного SummaRuNNer’а, суть которого в обучении рекуррентной модели на бинарную классификацию, попадёт ли каждое предложение в выжимку или нет.

Это не могло работать на сервисе в такой постановке. Во-первых, такие алгоритмы никак не могут учитывать важность фрагментов, которые встречаются в нескольких документах. Во-вторых, они очень сильно сдвигают распределение трафика в сторону одного источника, что для нас неприемлемо.

Что касается методов именно мультидокументного реферирования, тяжёлые end-to-end модели мы даже не рассматривали как минимум потому, что не смогли бы объяснить изданиям и пользователям, как они работают. Алгоритмы Новостей должны быть максимально прозрачны и интерпретируемы.

Мы остановились на мультидокументном реферировании через кластеризацию предложений. Во-первых, этот алгоритм крайне прост в понимании, написании и поддержке. Во-вторых, эмбеддинги предложений для кластеризации можно предподсчитывать один раз для каждого документа, что экономит кучу процессорного времени. Это не единственный подходящий способ мультидокументного реферирования, тот же LexRank вполне применим для нескольких документов.

Сразу оговоримся, что идея мультидокументного реферирования через кластеризацию предложений не нова. Существует много статей про этот метод: например, эта и эта. От них наш алгоритм отличается прежде всего способом подсчёта расстояний между предложениями.

В общих чертах алгоритм устроен так:

  1. Разбиваем каждый документ на предложения. Основными объектами нашей выжимки как раз будут эти предложения.
  2. Для каждого предложения всех документов считаем эмбеддинг — числовое представление информации, которая содержится в предложении. Эмбеддинги можно строить по-разному, например через FastText, USE, LaBSE. Совершенно необязательно использовать для этого нейросетевые модели, подойдёт и старый-добрый TF-IDF, только он будет хуже определять похожие предложения.

    Мы строим эмбеддинги через DSSM, который дистиллирует LaBSE. В нашем варианте дистилляции DSSM обучался предсказывать расстояния между парами предложений, посчитанное по LaBSE, но это не единственный способ. Основная причина, почему мы делаем именно так — высокая производительность DSSM Яндекса: более тяжёлые с точки зрения процессорного времени модели мы пока не можем себе позволить из-за большого потока документов. Когда мы добавим в эту часть сервиса побольше GPU, это снизит ограничения в производительности, и можно будет использовать трансформеры.

    upfm2apvievewhbll3 t9b4s 8

  3. Для каждой пары предложений из разных документов считаем, насколько они похожи друг на друга. Для разных предложений из одного документа считаем, что они заведомо отличаются.

    jjkq4f xesm

  4. Запускаем на полученной двумерной матрице сходства алгоритм иерархической кластеризации со склейкой по среднему (например, такой) с подобранной по ручной разметке границей обрезки. На выходе получаем кластеры, состоящие из похожих друг на друга предложений. Таким образом, один кластер равен примерно одной «смысловой единице» нашего сюжета.

    Пример кластера:

    • Во время эксперимента выяснилось, что у животных, чьи тела размещены параллельно земле, более гибкие позвоночники.
    • В рамках эксперимента было определено, что животные, у которых тела располагаются параллельно поверхности земли, имеют куда более гибкий позвоночник
    • В процессе эволюции животные приобрели более гибкий позвоночник, который оптимален для длительного соприкосновения ступни с землей.
    • У животных же, имеющих тела, расположенные параллельно земле, позвоночник стал весьма гибким.
    • «Животные, чьи тела размещены параллельно земле, в процессе эволюции получили более гибкие позвоночники, поэтому четвероногие животные могут бегать быстрее людей», — добавил Гюнтер.
  5. Предполагаем, что самые важные элементы сюжета упоминали чаще, а значит, предложений в таких кластерах должно быть больше. Оставляем четыре самых крупных кластера с наибольшим количеством документов.
  6. Сортируем оставшиеся четыре кластера по относительной медианной позиции составляющих их предложений в оригинальных документах. Это нужно для того, чтобы текст выглядел более связным.
  7. Фильтруем в кластерах предложения с местоимениями, которые непонятно к чему относятся с помощью текстового классификатора и регулярок. Например, во фразе «Она назвала шесть пунктов, в которых высказана озабоченность в отношении производства на этом предприятии» непонятно, к кому относится «она» и о каком предприятии идёт речь.
  8. Выделяем предложение, которое будет представлять кластер в итоговой выжимке. Алгоритм ранжирования предложений внутри кластеров использует несколько параметров, основной из которых — средняя похожесть предложения на все остальные предложения кластера. Получается, мы отдаём предпочтение предложению, эмбеддинг которого ближе всего к центру масс кластера. Это не единственный возможный критерий выбора, можно, например, для каждой точки брать медиану расстояний до остальных точек, чтобы уменьшить влияние огрехов кластеризации.

В итоге получаем выжимку из четырёх предложений, каждое из которых встречается в одном из документов наших партнёров.

Метрики

В Яндексе существует разделение на офлайн- и онлайн-метрики. Онлайн-метрики считаются в ходе A/B экспериментов на самих сервисах и показывают, как пользователи взаимодействуют с новой функциональностью. А вот офлайн-метрики не требуют этих взаимодействий.

По онлайн-метрикам дайджеста мы видим, что пользователям удобна новая функциональность: активность и время, проведённое на сервисе, увеличиваются.

В качестве основных офлайн-метрик мы используем две разметки в Толоке. Толока — это сервис краудсорсинга, который позволяет выдавать тысячам людей несложные задания. Первая разметка оценивает, хорошая или плохая получилась краткая выжимка, а вторая выявляет проблемы с отдельными фрагментами.

pjlac9oiujnn79f wvrmkebz44k

Бинарную разметку мы регулярно снимаем с топовых сюжетов основных рубрик. Каждую выжимку размечает 10 человек. Если только 5 или 6 человек из 10 сказали, что с выжимкой всё в порядке, то мы ставим выжимке вердикт «не уверены». Если 4 и меньше, то «плохая выжимка», а если 7 и больше, то «хорошая». На графике ниже красным цветом отмечена доля плохих выжимок, зелёным — доля хороших. Важно отметить, что вердикт «плохая выжимка» не гарантирует наличие серьёзных проблем, только очевидных. А они могут быть как мелкими, так и серьёзными.

7kivh0klemcejhijfgjz3pw2inw

Такую разметку тяжело масштабировать. Чтобы обойти это, мы построили BERT-классификатор, приближающий разметку. На каждое изменение алгоритма можно просто прогнать классификатор и получить примерный эффект от этого изменения. Это позволило нам перебрать гиперпараметры алгоритма и выбрать оптимальные с точки зрения этого классификатора, с последующей проверкой по разметке.

По результатам ручного отсмотра плохих выжимок, мы выделили 4 основных категории ошибок (представлены на картинке), а также отдельно захотели выделять фрагменты про предысторию события. Вторая разметка как раз нацелена на то, чтобы выяснить, какие из ошибок встречаются чаще. Метки надо ставить отдельным фрагментам, но разметчикам доступна вся выжимка.

xddi

Основной проблемой на данный момент являются дубли, то есть фрагменты повторяющие друг друга. Одна эта категория занимает более 50% всех ошибок. Берутся они в основном из-за несовершенства эмбеддингов и кластеризации.

Планы

Уже больше 3 месяцев автоматическое построение выжимок работает на всех платформах и для всех сюжетов. Пользователи в целом довольны, это видно по росту возвращаемости и активности на сервисе. При этом мы не считаем 20-30% плохих выжимок приемлемой цифрой и активно работаем над её уменьшением:

  1. Переходим на трансформерные эмбеддинги, например, на тот же LaBSE
  2. Улучшаем определение плохих фрагментов текстовым классификатором.
  3. Добавляем новую информацию: подсвечиваем ссылки и сущности.

Очевидно, что текущие разметки проверяют лишь «внешний вид» выжимки, а хотелось бы ещё понимать, как хорошо выжимка вытаскивает важные подробности и насколько она информативна. Будем продолжать исследования в этом направлении.

Мы надеемся, что все будут в выигрыше от внедрения дайджестов.

Ещё несколько примеров построенных выжимок

  • Позарился значение слова в сказке
  • Позитиве или позетиве как пишется
  • Подчиненность рассказа показу проявляется в
  • Подьячий как пишется правильно и почему
  • Поездка в деревню рассказ с мамой