Skip to main content
НИКОЛА СТИКОВ, НАУЧНИК И ПРОФЕСОР НА ПОЛИТЕХНИЧКАТА ШКОЛА ПРИ УНИВЕРЗИТЕТОТ ВО МОНТРЕАЛ

Со „Буки“ ќе зачуваме дел од македонската историја во формат кој е лесен за пребарување

Ако пред многу години беше незамисливо, денес е реалност. Зборови, реченици изговорени на македонски јазик, а потоа транскрибирани, со мали и големи букви, со интерпункциски знаци овозможува „Буки“, новата дигитална платформа базирана на вештачка интелигенција за транскрипција на говор на македонски јазик. Тоа значи снимени разговори, интервјуа, емисии, аудио записи, лесно и едноставно да бидат транскрибирани на македонски јазик. Или кажано уште поедноставено, тоа што си го снимил, без да куцаш на тастатурата на компјутер, дигиталната алатка ќе го запише за тебе.

„Буки“ е како „измислена“ за олеснување на работата на научници, новинари, јазичари, истражувачи, луѓе од различни професии кои би ја користеле за да го скратат времето на чукање по тастатурата.

Моделот на „Буки“ го развија Дејан Порјазовски, експерт за технологии на вештачка интелигенција за препознавање говор на Универзитетот „Аалто“ во Финска, проф. д-р Никола Стиков, професор по биомедицински инженеринг на Политехничката школа при Универзитетот во Монтреал, проф. Ордан Чукалиев, раководител на Центарот за напредни интердисциплинарни истражувања во рамките на УКИМ и проф. Илина Јакимовска од Институтот за етнологија и антропологија.

Проф. д-р Никола Стиков, проф. д-р Билјана Ангелова, ректор на УКИМ, проф. д-р Илина Јакимовска, Стефан Андоновски, министер за информатичко општество и дигитална трансформација, проф. д-р Ордан Чукалиев

Стиков е професор по технички науки, негова потесна специјалност е магнетната резонанца, но пасија му се поп-културата, пишувањето, музиката. Со децении живее надвор од Македонија, се образувал и доусовршувал во странство, но секогаш има желба и идеја како она што го научил надвор да најде примена дома и да им помогне на сите кои тргнале по неговиот пат. Во интервју за „Република“ објаснува како дошол на идејата за „Буки“, неговиот личен мотив за креирање на оваа дигитална алатка и како „Буки“ ќе овозможи да се транскрибираат голем број на аудио и видео снимки кои се наоѓаат во архивите на македонските институции.

На тој начин ќе зачуваме дел од македонската историја во формат кој е лесен за пребарување. Но, потребно е да мислиме и на иднината и на тоа како новите технологии ќе ни го олеснат секојдневието, вели проф. д-р Стиков во интервју за „Република“.

Пред повеќе од еден месец УКИМ официјално ја пушти во употреба „Буки“, дигитална платформа базирана на вештачка интелигенција за транскрпиција на говор на македонски јазик. Од каде идејата за „Буки“? Дали можеби имаше и личен мотив кај Вас?

СТИКОВ: Идејата ја добив во 2019 година, кога си ја скршив раката и не можев да најдам алатка што ќе ми овозможи да диктирам на македонски. Сепак, не направив ништо по тоа прашање сѐ до лани, кога ненадејно почина татко ми. Татко ми, Александар Стиков, беше новинарот со најмногу изговорени минути на македонското радио, па посакав да ги транскрибирам неговите новинарски снимки за да создадам подкаст во негова чест. Тогаш сфатив дека и натаму немаме квалитетна алатка за транскрипција на македонски јазик. Ова ме мотивира лично да се ангажирам и да работам на решение за овој проблем.

Кој учестуваше во создавањето на „Буки“ и кому најмногу ќе му користи?

СТИКОВ: Главниот креатор на Буки е Дејан Порјазовски, наш докторанд во Финска кој работи на транскрипција со помош на вештачка интелигенција. Во проектот се вклучија и Илина Јакимовска и Ордан Чукалиев, професори на УКИМ кои ни овозможија пристап до драгоцени транскрипти во архивата на Институтот за етнологија и антропологија. Со овие транскрипти го истрениравме Буки и сега сите можат да го испробаат на следниов линк:

https://huggingface.co/spaces/Macedonian-ASR/Bookie-Whisper-Macedonian-ASR

На презентацијата на платформата беше кажано дека создавањето на платформата е висок патриотски чин, посебно важен за зачувување на македонскиот јазик и наследството.

СТИКОВ: Буки ќе ни овозможи да транскрибираме голем број на аудио и видео снимки кои се наоѓаат во архивите на македонските институции. На тој начин ќе зачуваме дел од македонската историја во формат кој е лесен за пребарување. Но, потребно е да мислиме и на иднината и на тоа како новите технологии ќе ни го олеснат секојдневието. Многу луѓе имаат потешкотии со куцањето, како на пример децата, пензионерите, и лицата со посебни потреби. За нив диктирањето е многу полесно, затоа што сите имаат телефони со себе. Новинари, стенографи, архивисти, доктори, прават аудио снимки и потоа чекаат некој да ги транскрибира снимките во текст. Буки ќе го направи тоа побрзо и поквалитетно.

Велите дека „Буки“ е првиот чекор кон зачувување на огромното богатство аудио материјал кој лежи во македонските институции, чуван несоодветно. Трениран е со само 60 часа додатен говор. Што значи тоа, може ли да ни објасните?

СТИКОВ: Буки користи јазични модели кои се развиени од големи компании како Мета и OpenAI. Овие модели работат одлично со главните светски јазици, но прават многу грешки со мали јазици, како што е македонскиот. За да се поправат грешките, потребно е да додадеме повеќе аудио и транскрипти на македонски. За првата верзија на Буки обезбедивме 60 додатни часа македонски говор, и тоа драматично ги подобри перформансите на моделите на Мета и OpenAI. Сега Буки е најдобрата алатка за транскрипција на македонски во светот.

„Буки“ ќе биде бесплатен, засекогаш, за сите. Како?

СТИКОВ: Секој може бесплатно да го симне Буки, но апликацијата не може да работи на обичен компјутер затоа што користи вештачка интелигенција и многу скапи графички картички. Во моментот Буки се хостира на платформата HuggingFace и трошоците ги покрива Фондација КАНТАРОТ. Сепак, на оваа платформа не можеме да прикачуваме големи фајлови, а и транскрибирањето е доста бавно. Затоа ни е потребен сервер за Буки, кој се надеваме дека ќе го обезбедиме преку донации.

На 26 декември е закажана промоцијата на „Буки“ 2.0. Што ќе се случува до тогаш?

СТИКОВ: Месецов имаме неколку паралелни активности. Најважна е кампањата за донирање глас, оти сакаме да стигнеме од 60 до 600 часа македонски говор со кој ќе го тренираме Буки 2.0. Исто така имаме и натпревар за дизајн на лого со кое ќе му дадеме на Буки помодерен изглед. Конечно, се надеваме дека до крајот на годината ќе имаме и моќен сервер за хостирање на Буки.

Како оди со донацијата на глас? Дали сте задоволни од одѕивот во јавноста? Чии гласови најмногу ви се потребни во моментов? Наидовте ли на некои проблеми?

СТИКОВ: Најмногу ни требаат гласовите на деца и на луѓе со нелитературен акцент (странци, дијалекти). Нема да знаеме колку е успешна кампањата сѐ до 15 декември, затоа што гласовите ги собираме преку платформата Mozilla Common voicе, а тие податоците ги споделуваат на секои три месеци. Затоа е многу важно секој да одвои 2-3 минути и да прочита неколку реченици на следниов линк:

https://commonvoice.mozilla.org/mk

Уште подобро би било ако се регистрирате на линкот и ако продолжите со читање реченици. На тој начин ќе бидете дел од ранг листата на донатори на глас, а за првите десет на таа листа имаме и специјални награди. Сите информации за кампањата можете да ги најдете на следниов линк:

https://qantarot.substack.com/p/5cd

Ентузијастички приоѓате на секој проект кој го работите во Македонија, иако со децении сте надвор од државата. Каква помош ви е неопходна во моментов за „Буки“ да се развива онака како што сте замислиле и да им биде од корист на граѓаните, научниците, новинарите?

СТИКОВ: Пријатно сме изненадени од ентузијазмот околу Буки. Во моментов најважно е што е можно повеќе луѓе да дознаат дека имаме алатка што е корисна, квалитетна и бесплатна. Кога ќе го испробате Буки, размислете за тоа како би ви користел и како би можеле да го подобриме. Споделете ја со нас таа идеја (info@kantarot.mk) и помогнете ни заедно да направиме нешто за Македонија и за македонскиот јазик.

Разговараше: Александра М. Бундалевска

Поврзани вести