Meta представила переводчик, который предназначен для работы с языками, не имеющими письменной формы
Почти половина из примерно 7000 известных в мире языков (четыре из десяти) существуют без письменного компонента. Эти неписаные языки представляют собой уникальную проблему для современных систем перевода с машинным обучением, которым обычно необходимо преобразовывать устную речь в письменную, прежде чем переводить на другой язык.
В рамках программы Universal Speech Translator (UST), которая работает над созданием переводчика в режиме реального времени, (чтобы обитатели метавселенной могли легче взаимодействовать), специалисты Meta изучили Хоккиен, бесписьменный язык, на котором говорят в азиатской диаспоре, и который является одним из официальных языков Тайваня.
Большое количество слов в Хоккиен не имеют стандартного отображения в китайской письменности и записываются либо в фонетической транскрипции латинскими символами, либо совпадающими по фонетике иероглифами безотносительно того, насколько они подходят по лексическому значению. При этом не существует стандарта — два человека могут написать одно и то же слово по-разному. Поэтому разработчикам пришлось сделать двойной перевод, используя классический китайский (Mandarin) в качестве промежуточного языка.
Исследователи Meta сосредоточились на разработке системы speech-to-speech. По словам представителей компании, они преобразовали образцы речи в последовательность акустических звуков, которые использовались для создания волновых форм языка. Затем эти сигналы объединили с мандаринским китайским для создания меток.
Компания опубликовала исходный код проекта, чтобы другие исследователи могли его использовать в своих работах. В дополнение к моделям и обучающим данным, Meta выпускает первую в своем роде систему сравнительного анализа преобразования speech-to-speech, основанную на речевой сводке Хоккиена под названием Taiwanese Across Taiwan, а также SpeechMatrix, которая представляет собой большую коллекцию преобразований речи в речь, разработанную с помощью набора инструментов для обработки естественного языка под названием LASER.
Ранее мы писали, что Meta открывает 10 виртуальных кампусов, чтобы перевести обучение в университетах в метавселенную.
ЧИТАЙТЕ ТАКЖЕ:
- Руководство Meta заставит своих сотрудников пользоваться виртуальной вселенной
- Вслед за Meta: Google представил генератор видеороликов по текстовым запросам
- Капитализация Meta упала до минимального за более чем три года уровня