Яндекс по английскому как пишется слово яндекс

16 июля 2021 13:0116 июл 2021 13:01 яндекс работает над технологией автоматического дубляжа видео, не имеющей аналогов в мире.

|

«Яндекс» работает над технологией автоматического дубляжа видео, не имеющей аналогов в мире. Российский ИТ-гигант продемонстрировал возможности прототипа на подборке из дюжины Youtube-роликов. Посмотреть их с закадровой русскоязычной озвучкой можно только в «Яндекс.браузере».

Машинный перевод видео «Яндекса»

«Яндекс» создал технологию машинного перевода видео. С ее помощью видеоролики зарубежных авторов смогут посмотреть даже те, кто не владеет иностранными языками – разработка «Яндекса» в автоматическом режиме переведет видео на русский язык и озвучит его закадровым голосом. Об этом CNews рассказали представители компании. По заявлению создателей, технология не имеет аналогов в мире.

На сегодняшний день у «Яндекса» готов прототип системы машинного перевода. Сейчас он работает только с роликами на английском языке. Разработчики утверждают, что опробовали технологию на видеозаписях на самые разные темы: изменение климата, машинное обучение, история Плутона.

Пользователям функция машинного перевода видеороликов доступна в фирменном браузере «Яндекса» для операционных систем Windows и macOS, однако лишь при просмотре ограниченного числа роликов. Специалисты компании создали на Youtube-канале «Yet another browser» подборку из 12 видео (плейлист «Перевод видео»), с помощью которых любой желающий сможет убедиться в работоспособности технологии. В ближайшее время пользователи получат возможность самостоятельно выбирать, какие именно ролики переводить, обещают в «Яндексе».

Доступные для просмотра с русским закадровым голосом видео отображаются в желтой рамке. Для включения перевода достаточно нажать одну кнопку.

«В интернете очень много полезного контента, который недоступен людям из-за языкового барьера, – говорит руководитель направления обработки естественного языка в «Яндексе» Дэвид Талбот (David Talbot). – И мы близки к тому, чтобы окончательно стереть все границы. «Яндекс.браузер» давно умеет переводить тексты, в этом году стал переводить изображения, перевод видео — следующий этап. Это большая сложная задача, которую никто в мире еще не решил. Мы тоже в начале пути, но у нас уже есть прототип и понимание, куда двигаться дальше»,

Как это работает

Над созданием прототипа работало несколько команд. Сейчас в нем применяются технология синтеза речи, разработки «Яндекс.переводчика» и биометрия. Последняя используется для определения пола говорящего – это, как отмечают в «Яндексе», важно и для перевода, и для синтеза речи, в частности, позволяет подобрать подходящий голос для закадровой озвучки.

Технология «Яндекса» поддерживает синхронизацию закадрового голоса с видеорядом, при необходимости корректируя темп речи виртуального переводчика и добавляя в нее паузы. Синхронизация необходима, поскольку исходные и переведенные реплики могут значительно отличаться по длительности – например, в английском языке часто используемые фразы нередко лаконичнее своих русских аналогов.

Эволюция «Яндекс.переводчика»

Сервис «Яндекс.переводчик» был запущен в 2011 г. На старте он мог работать с тремя языками: русским, украинским и английским. Сейчас он знает более 90 языков, включая экзотические, и может выполнять переводы между любой парой.

В 2016 г. «Переводчик» научился распознавать текст на картинках с помощью компьютерного зрения. В апреле 2021 г. «Яндекс» добавил соответствующую функцию в собственный браузер.

Как цифровые технологии в промышленности дополняют бизнес

Бизнес

Яндекс по английскому как пишется слово яндекс

В 2017 г. сервис начал использовать гибридную систему перевода. К статистической модели, которая задействована со старта, добавилась технология перевода на базе нейронной сети на основе архитектуры «трансформер».

Искусственный интеллект не разбивает переводимый текст на слова и выражения, как это делает статистический переводчик. Вместо этого он «проглатывает» предложение целиком и выдает перевод. Благодаря такому подходу в переводе учитывается контекст и лучше передается смысл, формулировки выглядят более естественно.

Статистическая модель, в свою очередь, хорошо справляется с редкими словами и фразами и не «фантазирует», если смысл предложения непонятен, как это может делать нейросеть.

Технология перевода с помощью нейронной сети, как ранее рассказывал «Яндекс», во многом послужила основой для YaTI – новой технологии анализа текста.

Как «Яндекс» применяет нейросети

Помимо «Переводчика», нейросети, к примеру, задействованы в работе поисковой системы «Яндекса». В основе обновления поисковика под кодовым названием Y1, о котором CNews писал в июне 2021 г., лежат YaTI и YaLM – глубокие нейросети с архитектурой «трансформер», обученные на огромном числе параметров.

Какие сервисы помогают автоматизировать процедуры финансового законодательства

Бизнес

Яндекс по английскому как пишется слово яндекс

YaLM – это семейство языковых моделей, которые умеют генерировать тексты на русском языке. Эти модели используются голосовым помощником «Алиса» – с их помощью он генерирует реплики, а также для составления подзаголовков объектных ответов. YaLM также применяется при ранжировании быстрых ответов в поиске «Яндекса». Модели YaLM обучены на терабайтах русских текстов, а самая мощная из них, как утверждают в «Яндексе», содержит 13 млрд параметров.

В ноябре 2020 г. CNews писал о том, что поисковик «Яндекса» перешел на технологию анализа текста на основе нейросетей-трансформеров, в частности, YaTI. Это позволило ему лучше оценивать смысловую связь между запросами и содержанием интернет-документов. В компании сочли внедрение данной технологии важнейшим событием в развитии поисковой системы за последнее десятилетие.

  • Обзор Lenovo Fold X1: ноутбук со складным экраном за 330 000 рублей

До 2030 года в России действует Национальная стратегия развития ИИ. Чтобы ее выполнить, требуются не только разработчики, но и цифровые лингвисты. Рассказываем, кто это такие, почему они важны и как освоить эту профессию

Кто такой цифровой лингвист

Цифровой (или компьютерный) лингвист — это специалист, который обрабатывает данные на естественных для алгоритмов машинного обучения языках, в том числе нейросетей. Благодаря такой обработке и последующей работе дата-сайентистов машины «учатся» распознавать человеческий язык и делать автоматические переводы с одного человеческого языка на другой, выявлять ошибки в текстах, превращать устную речь в письменную, правильно реагировать на голосовые команды, отвечать на вопросы в чат-ботах.

Например, чтобы научить алгоритмы находить ошибки, цифровой лингвист обрабатывает огромный массив текстовых данных, в котором размечает правильные, и неправильные варианты использования слов. Он работает над созданием электронных словарей и тезаурусов, оптическим распознаванием символом — когда машина считывает текстовые данные с изображений и делает их доступными для редактирования.

Благодаря работе цифровых лингвистов существует и пополняется Национальный корпус русского языка — открытая база русскоязычных текстов с более чем 900 млн слов, которую используют для языковых исследований.

На сайте Национального русского языка можно найти информацию по морфологии, семантике, синтаксису и другим параметрам текста — все это работа цифрового лингвиста

На сайте Национального русского языка можно найти информацию по морфологии, семантике, синтаксису и другим параметрам текста — все это работа цифрового лингвиста

(Фото: Ruscorpora.ru)

Ключевые навыки цифрового лингвиста

Естественные и компьютерные языки роднит то, что они все относятся к знаковым системам. Поэтому хороший цифровой лингвист — это человек, который умеет работать с обеими системами и находить в них точки соприкосновения. Желательно, чтобы он владел не только английским, но и другими иностранными языками.

Для такого специалиста крайне важно обладать системным мышлением, хорошей памятью и способностью долго концентрироваться на монотонных задачах, поскольку ему предстоит обрабатывать большие массивы данных. Чтобы алгоритмы и нейросети запоминали верную информацию, от цифрового лингвиста требуется знание достоверных источников данных для анализа и безупречная грамотность для их верной разметки и трактовки.

Кроме того, цифровому лингвисту предстоит много общаться с разработчиками и дата-сайентистами, которые будут работать с размеченными данными. Поэтому ему важно не просто работать с данными, но и создавать методологию, объяснять ее принципы коллегам. Хорошие навыки межотраслевой коммуникации в этом плане будут не лишними.

Откуда придет профессия

Первый машинный перевод был сделан в ходе «Джорджтаунского эксперимента» 1954 года. Тогда компьютер IBM 701 перевел с русского языка на английский более 60 предложений. Так что можно говорить о том, что цифровая лингвистика де-факто существует почти 70 лет. В 1960-х годах этот раздел лингвистики появился в качестве составной части специальности «Теоретическая и прикладная лингвистика» в МГУ имени М.В. Ломоносова. Хотя инструменты и технологии за эти годы изменились, суть работы специалистов осталась прежней.

Тренды и направления профессии

Если говорить о задачах синтеза речи, машинного перевода и развитии диалоговых систем, то в них устойчивый тренд — достижение максимальной естественности языка при минимальных затратах.

Например, переводчики используют CAT-программы, которые сокращают время работы с помощью машинных переводов или технологии Translation Memory ™. Благодаря последней алгоритмы запоминают исходный и переведенный тексты и при загрузке следующих ищет совпадения, чтобы автоматически их перевести.

Уже есть языковые модели вроде GPT-3 и YaLM, которые пишут полные предложения, подсчитывая из терабайтов данных их наиболее вероятный ответ на введенные в специальное поле слова. Они используются для поисковиков, чат-ботов и создания простых текстов.

Сейчас такой настройкой машин в основном занимается человек, но в будущем и алгоритмы будут обучать друг друга естественным языкам. Ведь искусственный интеллект «Google Переводчика» уже научился самостоятельно искать перевод слов.

Также цифровая лингвистика — основа технологий для людей с ограниченными возможностями. Перевод устной речи в текст и автоматическое чтение готовых материалов, распознавание голосовых команд компьютерами, смартфонами и других «умных» устройств — направления, востребованные в здравоохранении.

По мнению продуктового аналитика 65apps и прикладного лингвиста Анны Куликовой, главная задача цифровой лингвистики сегодня — подготовка оцифрованных лингвистических данных высокого качества, особенно для языков, отличных от английского, и внедрение лингвистических технологий в производственные процессы.

«На мой взгляд, современные алгоритмы обработки естественного языка дают более чем хороший результат, в том числе в смысле «естественности». Тест Тьюринга, когда человек не может отличить, с кем он разговаривает — с человеком или компьютерной программой, уже давно и не раз был пройден. Когда-то именно он был сформулирован в качестве основного критерия способности машины мыслить, однако восстания машин мы до сих пор не наблюдаем. Новые разработки при прочих равных условиях дают прирост в сотые доли процентов точности, в то время как хорошо подобранные и грамотно размеченные лингвистические данные являются определяющим фактором эффективности работы компьютерных программ. Думаю, что общество сначала должно суметь «переварить» то, что предложила ему наука, прежде чем наука сможет совершить новый качественный скачок».

Если говорить об экономической составляющей, то по прогнозам мировой рынок обработки естественного языка (Natural Language Processing, NLP) увеличится к 2026 году до $35 млрд с ожидаемым среднегодовым темпом роста в 20,3%.

Как стать цифровым лингвистом

В России есть несколько способов получить такое образование:

  1. Бакалавриат по специальности «Фундаментальная и прикладная лингвистика», которая есть в российских вузах всех федеральных округов. Чаще всего для поступления нужны результаты ЕГЭ по иностранному языку, математике и русскому языку, но список может отличаться в разных вузах.
  2. Магистратура «Компьютерная (цифровая) лингвистика». Перечень вступительных испытаний сильно разнится от вуза к вузу: от собеседования с вопросами о теоретической лингвистике и переводом текста до двух отдельных экзаменов по иностранным языкам или конкурса портфолио. Магистерские программы есть, например, в РГГУ, МГЛУ, СПбГУ.
  3. Программы профессиональной переподготовки, которые можно пройти после получения высшего образования. Такая есть в заочной и дистанционной форме, например, в НИУ ВШЭ.

  • Яндекс почта как пишется после собаки
  • Яндекс дзен смотреть читать рассказы на русском языке бесплатно
  • Яндекс дзен рассказы и повести
  • Яндекс дзен рассказы из жизни истории
  • Яндекс дзен о животных заметки и рассказы