понеделник, 14 октомври 2024   RSS
    Барометър | Региони | Компании | Лица | Назначения


    948 прочитания

    Meta пусна AI езиков модел, превеждащ от десетки езици

    SeamlessM4T няма да бъде пускан за търговска употреба
    25 август 2023, 08:52 a+ a- a

    Снимка: iStock

    Компанията-майка на Facebook Meta Platforms пусна модел изкуствен интелект (AI/ИИ), способен да превежда и транскрибира реч на десетки езици, потенциален градивен елемент за инструменти, позволяващи комуникация в реално време между различни езици.

    Компанията съобщи в публикация в блог, че нейният модел SeamlessM4T може да поддържа преводи между текст и реч на близо 100 езика, както и пълен превод говор към говор за 35 езика, комбинирайки технология, която преди беше налична само в отделни модели.

    Изпълнителният директор Марк Зукърбърг каза, че предвижда подобни инструменти да улесняват взаимодействието между потребители от цял свят в метавселената, набор от взаимосвързани виртуални светове, на които той залага бъдещето на компанията.

    Meta прави модела достъпен за обществеността за некомерсиална употреба, се казва в публикацията в блога.

    Най-голямата социална медийна компания в света пусна множество предимно безплатни AI модели тази година, включително голям езиков модел, наречен Llama, който представлява сериозно предизвикателство за патентованите модели, продавани от подкрепените от Microsoft OpenAI и Google на Alphabet, припомня „Ройтерс“.

    Зукърбърг казва, че отворената ИИ екосистема работи в полза на Meta, тъй като компанията може да спечели повече от ефективно създаването на потребителски инструменти чрез crowd-sourcing* за своите социални платформи, отколкото от таксуване за достъп до моделите.

    Независимо от това, Meta е изправена пред подобни правни въпроси като останалата част от индустрията около данните за обучение, погълнати за създаването на своите модели.

    През юли комикът Сара Силвърман и двама други автори заведоха дела за нарушаване на авторски права срещу Meta и OpenAI, обвинявайки компаниите, че използват техните книги като данни за обучение без разрешение.

    Изследователите на Meta съобщават в научна статия, че са събрали данни за аудио обучение на модела SeamlessM4T от 4 милиона часа „сурово аудио, произхождащо от публично достъпно хранилище на уеб данни“, без да уточняват кое хранилище.

    Говорител на Meta не отговори на въпроси относно произхода на аудиоданните.

    Текстовите данни идват от набори от данни, създадени миналата година, които извличат съдържание от Wikipedia и свързани уебсайтове, се казва в статията.

    *практиката за получаване на информация или принос към задача или проект чрез привличане на услугите на голям брой хора, платени или неплатени, обикновено чрез интернет

    Нагоре
    Отпечатай
     
    * Въведеният имейл се използва само за целите на абонамента, имате възможност да прекратите абонамента по всяко време.

    преди 2 часа
    Операторите на ваучери: 96% от потребителите са доволни от дигитализацията на ваучерите
    Броят на търговците, използващи ваучери за храна, се е увеличил от 1000 до 4 хил. месечно след дигитализацията
    преди 3 часа
    Заради рецесията в Германия и кризата у нас: ОББ понижи прогнозата си за ръста на икономиката ни
    До 3-6 месеца е възможно България да покрие инфлационния критерий за Еврозоната, прогнозират от банката
    преди 6 часа
    SpaceX улови ускорителя на Starship с гигантски механични ръце
    Успешният тестов полет приближава човечеството стъпка по-близо до цяла ракета за многократна употреба
    преди 7 часа
    Летище Пловдив с нови чартърни полети и редовни линии
    Полетите ще улеснят достъпа на туристи от Румъния и Чехия до ски курортите Пампорово и Чепеларе