Денеска во просториите на Ректоратот на Универзитетот „Св. Кирил и Методиј“ во Скопје, ќе се одржи промоција на „Буки“ – отворен дигитален модел за препознавање и транскрипција на говор на македонски јазик.

Моделот е креиран од Дејан Порјазовски, експерт за технологии на вештачка интелигенција за препознавање говор од Универзитетот „Аалто“ во Финска, како дел од активностите на Центарот за напредни интердисциплинарни истражувања (ЦеНИИс) при УКИМ, раководен од проф. д-р Ордан Чукалиев.

Моделот овозможува пренос – од усно изговорен, во напишан текст, кој содржи интерпункција, мали и големи букви. Во моментов функционира моделот за литературен јазик, но се работи и на втор, кој би ги препознавал македонските дијалекти. На промоцијата ќе се направи споредба помеѓу новиот Буки – Виспер (подобрена верзија на Виспер) и најголемите „опен сорс“ модели достапни во моментов – Виспер (OpenAI) и Мета (Фејсбук).

Во тренирањето на „Буки“ се употребени оригинални податоци од: Дигиталниот архив за етнолошки и антрополошки ресурси (ДАЕАР) на Институтот за етнологија и антропологија, Природноматематичкиот факултет при УКИМ; аудиоверзијата на меѓународното списание „ЕтноАнтропоЗум“ на истиот институт; аудио подкастот „Обични луѓе“ на Илина Јакимовска; научните видеа од серијалот „Наука за деца“, фондацијата КАНТАРОТ и македонската верзија на Mozilla Common Voice (верзија 18.0).

По промоцијата, дигиталниот модел ќе биде отворен за тестирање. Секој кој сака да придонесе, ќе може да го донира својот глас – да прочита текст на македонски и да го прикачи на платформата Мозила, за што на промоцијата ќе бидат споделени подетални информации. За таа цел, УКИМ ќе започне кампања „Донирај глас“.

Новата дигитлна платформа може да им биде од корист на сите кои работат со транскрипција на текст (интервјуа, предавања, теренски белешки, потсетници), на лица со хендикеп, транскрипција и анотација на македонското културно наследство, архиви, снимки во МРТВ итн.

Името „Буки“ произлегува од името на втората буква во глаголицата Ⰱ („буки“) – со значење буква или писмо. На англиски јазик, истото ќе биде транскрибирано со Bookie.

 



Republika.mk - содржините, графичките и техничките решенија се заштитени со издавачки и авторски права (copyright). Крадењето на авторски текстови е казниво со закон. Дозволено е делумно превземање на авторски содржини (текст и фотографии) со ставање хиперлинк до содржината што се цитира.