дигитална платформа за транскрипција на говор за македонски јазик Archives - Република https://republika.mk/tema/digitalna-platforma-za-transkriptsija-na-govor-za-makedonski-jazik/ За подобро да се разбереме Thu, 10 Oct 2024 09:31:25 +0000 mk-MK hourly 1 https://republika.mk/wp-content/uploads/2018/11/cropped-favicon-32x32.png дигитална платформа за транскрипција на говор за македонски јазик Archives - Република https://republika.mk/tema/digitalna-platforma-za-transkriptsija-na-govor-za-makedonski-jazik/ 32 32 Промовирана „Буки“ – новата дигитална платформа базирана на вештачка интелигенција за транскрипција на говор на македонски јазик, ќе биде бесплатна за сите https://republika.mk/vesti/kultura/promovirana-buki-novata-digitalna-platforma-bazirana-na-veshtachka-inteligentsija-za-transkriptsija-na-govor-na-makedonski-jazik-ke-bide-besplatna-za-site/ Thu, 10 Oct 2024 09:31:25 +0000 https://republika.mk/?p=825033

На „Универзитетот „Св. Кирил и Методиј“ - Скопје официјално беше пуштена во употреба новата дигитална платформа базирана на вештачка интелигенција за транскрипција на говор на македонски јазик – „Буки“, која овозможува унапредено користење на официјалниот јазик при креирање текстови во дигитална форма.

Платформата овозможува пренос на усно изговорена мисла на македонски јазик во пишан текст кој содржи интерпункција, мали и големи букви. Во моментов функционира моделот за литературен јазик, но се работи и на втор, кој би ги препознавал македонските дијалекти. „Буки“ може да им биде од корист на сите кои работат со транскрипција на текст (интервјуа, предавања, теренски белешки, потсетници), на лица со хендикеп, транскрипција и анотација на македонското културно наследство, архиви, снимки во МРТВ итн.

Моделот е креиран од Дејан Порјазовски, експерт за технологии на вештачка интелигенција за препознавање говор од Универзитетот „Аалто“ во Финска, како дел одактивностите на Центарот за напредни интердисциплинарни истражувања (ЦеНИИс) при УКИМ, и во соработка со проф. д-р Никола Стиков, професор по биомедицински инженеринг на Политехничката школа при Универзитетот во Монтреал.

Ректорката на УКИМ, проф. д-р Биљана Ангелова, на презентацијата истакна дека создавањето на платформата е „патриотски придонес“ на Универзитетот и на Центарот за напредни интердисциплинарни истражувања (ЦеНИИс).

-Овој модел може да им биде од корист на сите кои работат со транскрипција на текст (интервјуа, предавања, теренски белешки, потсетници), но и на лица со хендикеп, а се надеваме дека овој модел ќе најде примена и во многу дигитални алатки кои го прават нашиот живот полесен. Во моментов ја презентираме првата верзија на моделот, но тимот кој го изработи моделот е детерминиран да се изработи и втора подобрена верзија, како и верзија за транскрипција на дијалектите на македонскиот јазик, која ќе придонесе за научноистражувачката работа на УКИМ, но и ќе ги зачува дијалектите за наредните генерации, рече Ангелова.

Посочи дека се планира и изработка на подобрен кориснички интерфејс и решавање на одржливоста на платформата за транскрипција на македонскиот говор.

Платформата ја претстави Порјазовски кој на презентацијата учествуваше онлајн. Како што рече, се работи за адаптирани верзии на веќе постојните Wav2vec2 и Виспер (Whisper), со тоа што ги тренирале со наши ресури на македонски јазик.

Со цел да се провери работата на „Буки“ во споредба со јавно достапните Виспер (Whisper) од OpenAI компанијата и MMS од Мета (Фејсбук) ги тестирале на разни видови аудио - читан текст, дијалекти итн. и се покажало дека моделот што го креирале е подобар и со помал процент грешки при транскрибирањето на македонскиот говор.

Идејата за проектот била на проф. Никола Стиков кој на презентацијата рече дека таа најпрво била од лични мотиви, а потоа и заради исклучителната важност да се зачува македонскиот јазик и наследство.

Илјадници часови снимени материјали се распаѓаат во влажните ќошиња на македонските институции чекајќи да бидат пребарани и индексирани. Моделот „Буки“ е првиот чекор кон зачувувањето на ова богатство. Трениран е со само 60 додатни часа говор, но веќе е далеку подобар од конкуренцијата, потенцираше Стиков.

Проф. д-р Илина Јакимовска, раководителка на Институтот за етнологија и антропологија при Природно-математички факултет на УКИМ, пак, рече дека дигиталниот архив на етнолошки и антрополошки ресурси на Институтот содржи над 1.250 часа аудиоматеријал, рачно транскрибиран во ворд-фајлови (главно, теренски интервјуа и усни сведоштва), голем број визуелни материјали, музичка збирка и дигитализирани ракописи од наши поранешни професори и донатори.

Чест ни е што дел од аудиоснимките и нивните преписи учествуваат во моделот „Буки“ и тоа со 40 проценти од неговиот тренинг. При нивниот избор се внимаваше тие да се од различни делови на Македонија, односно да се на повеќе дијалекти, со говорници од различен пол и различна возраст. Со тоа, во „Буки“ се индиректно вградени и архаизми и гласови на луѓе кои веќе не се меѓу нас. Така, преку овој производ се среќава технологијата на иднината со културното наследство на минатото, посочи Јакимовска.

Изработката на платформата „Буки“ ја поздрави министерот за дигитална трансформација Стефан Андоновски кој истакна дека е фасциниран од оваа иновација која инспирира со можностите што ги нуди.

Нагласи дека е многу важно политиката сега да го препознае ова што го прави науката и, рече, да најдеме начин како да ја примениме вештачка интелигенција во дигиталната трансформација на општеството. Посочи и дека во светот на брзи технолошки промени, промоцијата и заштитата на македонскиот јазик е императив.

Ова е вистински патриотски чин што го правите вие како идејни творци и целата организациска структура околу проектот. Освен што е предизвик заштитата и промоцијата на македонскиот јазик, со дигиталните алатки сега станува и нова можност затоа што вештачката интелигенција има потенцијал таа можност да ја развива и да ја однесе на некои нови гранки, рече Андоновски.

Во однос на снимените ресурси кои со „Буки“ може да се транскрибираат, министерот рече дека ќе преземе обврска да искомуницира со МРТВ за, како што рече, „да видиме што се можеме да повлечеме од таму како материјал што вам би ви било од корист за развој на оваа алатка“.

По промоцијата на моделот, УКИМ почна кампања „Донирај глас“ и секој кој сака да придонесе, ќе може да го донира својот глас – да прочита текст на македонски и да го прикачи на платформата Мозила.

Линк до платформата: https://huggingface.co/Macedonian-ASR

The post Промовирана „Буки“ – новата дигитална платформа базирана на вештачка интелигенција за транскрипција на говор на македонски јазик, ќе биде бесплатна за сите appeared first on Република.

]]>

На „Универзитетот „Св. Кирил и Методиј“ - Скопје официјално беше пуштена во употреба новата дигитална платформа базирана на вештачка интелигенција за транскрипција на говор на македонски јазик – „Буки“, која овозможува унапредено користење на официјалниот јазик при креирање текстови во дигитална форма. Платформата овозможува пренос на усно изговорена мисла на македонски јазик во пишан текст кој содржи интерпункција, мали и големи букви. Во моментов функционира моделот за литературен јазик, но се работи и на втор, кој би ги препознавал македонските дијалекти. „Буки“ може да им биде од корист на сите кои работат со транскрипција на текст (интервјуа, предавања, теренски белешки, потсетници), на лица со хендикеп, транскрипција и анотација на македонското културно наследство, архиви, снимки во МРТВ итн. Моделот е креиран од Дејан Порјазовски, експерт за технологии на вештачка интелигенција за препознавање говор од Универзитетот „Аалто“ во Финска, како дел одактивностите на Центарот за напредни интердисциплинарни истражувања (ЦеНИИс) при УКИМ, и во соработка со проф. д-р Никола Стиков, професор по биомедицински инженеринг на Политехничката школа при Универзитетот во Монтреал. Ректорката на УКИМ, проф. д-р Биљана Ангелова, на презентацијата истакна дека создавањето на платформата е „патриотски придонес“ на Универзитетот и на Центарот за напредни интердисциплинарни истражувања (ЦеНИИс). -Овој модел може да им биде од корист на сите кои работат со транскрипција на текст (интервјуа, предавања, теренски белешки, потсетници), но и на лица со хендикеп, а се надеваме дека овој модел ќе најде примена и во многу дигитални алатки кои го прават нашиот живот полесен. Во моментов ја презентираме првата верзија на моделот, но тимот кој го изработи моделот е детерминиран да се изработи и втора подобрена верзија, како и верзија за транскрипција на дијалектите на македонскиот јазик, која ќе придонесе за научноистражувачката работа на УКИМ, но и ќе ги зачува дијалектите за наредните генерации, рече Ангелова. Посочи дека се планира и изработка на подобрен кориснички интерфејс и решавање на одржливоста на платформата за транскрипција на македонскиот говор. Платформата ја претстави Порјазовски кој на презентацијата учествуваше онлајн. Како што рече, се работи за адаптирани верзии на веќе постојните Wav2vec2 и Виспер (Whisper), со тоа што ги тренирале со наши ресури на македонски јазик. Со цел да се провери работата на „Буки“ во споредба со јавно достапните Виспер (Whisper) од OpenAI компанијата и MMS од Мета (Фејсбук) ги тестирале на разни видови аудио - читан текст, дијалекти итн. и се покажало дека моделот што го креирале е подобар и со помал процент грешки при транскрибирањето на македонскиот говор. Идејата за проектот била на проф. Никола Стиков кој на презентацијата рече дека таа најпрво била од лични мотиви, а потоа и заради исклучителната важност да се зачува македонскиот јазик и наследство.
Илјадници часови снимени материјали се распаѓаат во влажните ќошиња на македонските институции чекајќи да бидат пребарани и индексирани. Моделот „Буки“ е првиот чекор кон зачувувањето на ова богатство. Трениран е со само 60 додатни часа говор, но веќе е далеку подобар од конкуренцијата, потенцираше Стиков.
Проф. д-р Илина Јакимовска, раководителка на Институтот за етнологија и антропологија при Природно-математички факултет на УКИМ, пак, рече дека дигиталниот архив на етнолошки и антрополошки ресурси на Институтот содржи над 1.250 часа аудиоматеријал, рачно транскрибиран во ворд-фајлови (главно, теренски интервјуа и усни сведоштва), голем број визуелни материјали, музичка збирка и дигитализирани ракописи од наши поранешни професори и донатори.
Чест ни е што дел од аудиоснимките и нивните преписи учествуваат во моделот „Буки“ и тоа со 40 проценти од неговиот тренинг. При нивниот избор се внимаваше тие да се од различни делови на Македонија, односно да се на повеќе дијалекти, со говорници од различен пол и различна возраст. Со тоа, во „Буки“ се индиректно вградени и архаизми и гласови на луѓе кои веќе не се меѓу нас. Така, преку овој производ се среќава технологијата на иднината со културното наследство на минатото, посочи Јакимовска.
Изработката на платформата „Буки“ ја поздрави министерот за дигитална трансформација Стефан Андоновски кој истакна дека е фасциниран од оваа иновација која инспирира со можностите што ги нуди. Нагласи дека е многу важно политиката сега да го препознае ова што го прави науката и, рече, да најдеме начин како да ја примениме вештачка интелигенција во дигиталната трансформација на општеството. Посочи и дека во светот на брзи технолошки промени, промоцијата и заштитата на македонскиот јазик е императив.
Ова е вистински патриотски чин што го правите вие како идејни творци и целата организациска структура околу проектот. Освен што е предизвик заштитата и промоцијата на македонскиот јазик, со дигиталните алатки сега станува и нова можност затоа што вештачката интелигенција има потенцијал таа можност да ја развива и да ја однесе на некои нови гранки, рече Андоновски.
Во однос на снимените ресурси кои со „Буки“ може да се транскрибираат, министерот рече дека ќе преземе обврска да искомуницира со МРТВ за, како што рече, „да видиме што се можеме да повлечеме од таму како материјал што вам би ви било од корист за развој на оваа алатка“. По промоцијата на моделот, УКИМ почна кампања „Донирај глас“ и секој кој сака да придонесе, ќе може да го донира својот глас – да прочита текст на македонски и да го прикачи на платформата Мозила. Линк до платформата: https://huggingface.co/Macedonian-ASR

The post Промовирана „Буки“ – новата дигитална платформа базирана на вештачка интелигенција за транскрипција на говор на македонски јазик, ќе биде бесплатна за сите appeared first on Република.

]]>
На УКИМ ќе биде презентирана „Буки“ – дигитална платформа базирана на вештачка интелигенција за транскрипција на говор на македонски https://republika.mk/vesti/kultura/na-ukim-ke-bide-prezentirana-buki-digitalna-platforma-bazirana-na-veshtachka-inteligentsija-za-transkriptsija-na-govor-na-makedonski/ Wed, 09 Oct 2024 09:23:43 +0000 https://republika.mk/?p=824473

Денеска во просториите на Ректоратот на Универзитетот „Св. Кирил и Методиј“ во Скопје, ќе се одржи промоција на „Буки“ – отворен дигитален модел за препознавање и транскрипција на говор на македонски јазик.

Моделот е креиран од Дејан Порјазовски, експерт за технологии на вештачка интелигенција за препознавање говор од Универзитетот „Аалто“ во Финска, како дел од активностите на Центарот за напредни интердисциплинарни истражувања (ЦеНИИс) при УКИМ, раководен од проф. д-р Ордан Чукалиев.

Моделот овозможува пренос – од усно изговорен, во напишан текст, кој содржи интерпункција, мали и големи букви. Во моментов функционира моделот за литературен јазик, но се работи и на втор, кој би ги препознавал македонските дијалекти. На промоцијата ќе се направи споредба помеѓу новиот Буки – Виспер (подобрена верзија на Виспер) и најголемите „опен сорс“ модели достапни во моментов – Виспер (OpenAI) и Мета (Фејсбук).

Во тренирањето на „Буки“ се употребени оригинални податоци од: Дигиталниот архив за етнолошки и антрополошки ресурси (ДАЕАР) на Институтот за етнологија и антропологија, Природноматематичкиот факултет при УКИМ; аудиоверзијата на меѓународното списание „ЕтноАнтропоЗум“ на истиот институт; аудио подкастот „Обични луѓе“ на Илина Јакимовска; научните видеа од серијалот „Наука за деца“, фондацијата КАНТАРОТ и македонската верзија на Mozilla Common Voice (верзија 18.0).

По промоцијата, дигиталниот модел ќе биде отворен за тестирање. Секој кој сака да придонесе, ќе може да го донира својот глас – да прочита текст на македонски и да го прикачи на платформата Мозила, за што на промоцијата ќе бидат споделени подетални информации. За таа цел, УКИМ ќе започне кампања „Донирај глас“.

Новата дигитлна платформа може да им биде од корист на сите кои работат со транскрипција на текст (интервјуа, предавања, теренски белешки, потсетници), на лица со хендикеп, транскрипција и анотација на македонското културно наследство, архиви, снимки во МРТВ итн.

Името „Буки“ произлегува од името на втората буква во глаголицата Ⰱ („буки“) – со значење буква или писмо. На англиски јазик, истото ќе биде транскрибирано со Bookie.

 

The post На УКИМ ќе биде презентирана „Буки“ – дигитална платформа базирана на вештачка интелигенција за транскрипција на говор на македонски appeared first on Република.

]]>

Денеска во просториите на Ректоратот на Универзитетот „Св. Кирил и Методиј“ во Скопје, ќе се одржи промоција на „Буки“ – отворен дигитален модел за препознавање и транскрипција на говор на македонски јазик. Моделот е креиран од Дејан Порјазовски, експерт за технологии на вештачка интелигенција за препознавање говор од Универзитетот „Аалто“ во Финска, како дел од активностите на Центарот за напредни интердисциплинарни истражувања (ЦеНИИс) при УКИМ, раководен од проф. д-р Ордан Чукалиев. Моделот овозможува пренос – од усно изговорен, во напишан текст, кој содржи интерпункција, мали и големи букви. Во моментов функционира моделот за литературен јазик, но се работи и на втор, кој би ги препознавал македонските дијалекти. На промоцијата ќе се направи споредба помеѓу новиот Буки – Виспер (подобрена верзија на Виспер) и најголемите „опен сорс“ модели достапни во моментов – Виспер (OpenAI) и Мета (Фејсбук). Во тренирањето на „Буки“ се употребени оригинални податоци од: Дигиталниот архив за етнолошки и антрополошки ресурси (ДАЕАР) на Институтот за етнологија и антропологија, Природноматематичкиот факултет при УКИМ; аудиоверзијата на меѓународното списание „ЕтноАнтропоЗум“ на истиот институт; аудио подкастот „Обични луѓе“ на Илина Јакимовска; научните видеа од серијалот „Наука за деца“, фондацијата КАНТАРОТ и македонската верзија на Mozilla Common Voice (верзија 18.0). По промоцијата, дигиталниот модел ќе биде отворен за тестирање. Секој кој сака да придонесе, ќе може да го донира својот глас – да прочита текст на македонски и да го прикачи на платформата Мозила, за што на промоцијата ќе бидат споделени подетални информации. За таа цел, УКИМ ќе започне кампања „Донирај глас“. Новата дигитлна платформа може да им биде од корист на сите кои работат со транскрипција на текст (интервјуа, предавања, теренски белешки, потсетници), на лица со хендикеп, транскрипција и анотација на македонското културно наследство, архиви, снимки во МРТВ итн. Името „Буки“ произлегува од името на втората буква во глаголицата Ⰱ („буки“) – со значење буква или писмо. На англиски јазик, истото ќе биде транскрибирано со Bookie.  

The post На УКИМ ќе биде презентирана „Буки“ – дигитална платформа базирана на вештачка интелигенција за транскрипција на говор на македонски appeared first on Република.

]]>