close-btn

ИИ-переводчик Meta может интерпретировать языки, которые не имеют своей письменности

Meta представила переводчик, который предназначен для работы с языками, не имеющими письменной формы

https://www.engadget.com/

Почти половина из примерно 7000 известных в мире языков (четыре из десяти) существуют без письменного компонента. Эти неписаные языки представляют собой уникальную проблему для современных систем перевода с машинным обучением, которым обычно необходимо преобразовывать устную речь в письменную, прежде чем переводить на другой язык.

В рамках программы Universal Speech Translator (UST), которая работает над созданием переводчика в режиме реального времени, (чтобы обитатели метавселенной могли легче взаимодействовать), специалисты Meta изучили Хоккиен, бесписьменный язык, на котором говорят в азиатской диаспоре, и который является одним из официальных языков Тайваня.

Большое количество слов в Хоккиен не имеют стандартного отображения в китайской письменности и записываются либо в фонетической транскрипции латинскими символами, либо совпадающими по фонетике иероглифами безотносительно того, насколько они подходят по лексическому значению. При этом не существует стандарта — два человека могут написать одно и то же слово по-разному.  Поэтому разработчикам пришлось сделать двойной перевод, используя классический китайский (Mandarin) в качестве промежуточного языка.

Исследователи Meta сосредоточились на разработке системы speech-to-speech. По словам представителей компании, они преобразовали образцы речи в последовательность акустических звуков, которые использовались для создания волновых форм языка. Затем эти сигналы объединили с мандаринским китайским для создания меток.

Компания опубликовала исходный код проекта, чтобы другие исследователи могли его использовать в своих работах. В дополнение к моделям и обучающим данным, Meta выпускает первую в своем роде систему сравнительного анализа преобразования speech-to-speech, основанную на речевой сводке Хоккиена под названием Taiwanese Across Taiwan, а также SpeechMatrix, которая представляет собой большую коллекцию преобразований речи в речь, разработанную с помощью набора инструментов для обработки естественного языка под названием LASER.

Ранее мы писали, что Meta открывает 10 виртуальных кампусов, чтобы перевести обучение в университетах в метавселенную.

ЧИТАЙТЕ ТАКЖЕ:

google news