• e shtunë, 28 dhjetor 2024

Лансирана нова верзија на „Буки“ - дигиталната платформа за транскрипција на говор

Лансирана нова верзија на „Буки“ - дигиталната платформа за транскрипција на говор

Скопје, 27 декември 2024 (МИА) -  Креаторите на новата дигитална платформа базирана на вештачка интелигенција за транскрипција на говор на македонски јазик – „Буки“, која овозможува унапредено користење на официјалниот јазик при креирање текстови во дигитална форма, ја пуштија во употреба новата верзија 2.0 која е побрза, поточна и овозможува транскрипција од аудио фајл.

Како што соопшти Универзитетот „Св. Кирил и Методиј“-Скопје, Дејан Порјазовски, еден од експертите кои работеа на создавање на алатката и кој истражува на Универзитетот „Аалто“ во Финска, вели дека придобивките од имањето на транскрипт, меѓу другото, е во тоа што е многу полесно да се пребарува содржината.

-Телевизиите имаат огромен број на архивиран аудиоматеријал којшто не е транскрибиран. Со помош на Буки-моделите, тој материјал може да се транскрибира. Во врска со образованието, доколку предавањата што се одвиваат онлајн се транскрибирани, тоа би им помогнало на студентите полесно да ја најдат содржината што им треба. Пример доколку некој студент сака да најде што е зборувано во врска со некое прашање, наместо да го слуша целото аудио, коешто може да трае еден час, ќе може многу полесно да го најде одговорот во транскриптот, истакнува Порјазовски.

Според ректорката Биљана Ангелова, имплементирањето и употребата на македонскиот јазик во дигиталниот свет е од исклучителна важност за негово негување и афирмација.

-Лансирањето на „Буки“ е од огромно значење за нашето општество и ќе овозможи олеснување на работењето во многу сфери, истакнува Ангелова.

Професорот Никола Стиков, од Техничкиот универзитет во Монтреал, Канада, кој е иницијатор за создавање на „Буки“, како што информира УКИМ, „посочи дека неговата цел била да се зачува македонскиот јазик и наследството, нагласувајќи дека илјадници часови снимени материјали се распаѓаат во влажните ќошиња на македонските институции чекајќи да бидат пребарани и индексирани“.

-УКИМ почна кампања „Донирај глас“ и секој кој сака да придонесе, ќе може да го донира својот глас – да прочита текст на македонски и да го прикачи на платформата Мозила, потсетува Стиков.

Презентирајќи ја практичната примена на оваа алатка, д-р Димитар Вељановски, специјалист радиолог и супспецијалист интервентен неврорадиолог, порачува дека „’Буки’ може да спаси живот“.

-Со ова алатка се отвора светла иднина во нашето радиолошко друштво, веќе сме на праг да станеме побрзи, повешти и поточни правејќи го нашето секојдневие посреќно, но и нашите пациенти. Точната и брза дијагноза е од суштинско значење во третманот на пациентот кој е наш приоритет. На тој начин, можеме да испишеме нова радиолошка историја која ќе биде темел на еден модерен здравствен систем кој луѓето ќе го препознаваат, ќе се чувствуваат сигурни, со тоа ќе се засилува довербата на народот во здравствените работници кои неуморно се борат да постават точна дијагноза која значи долг живот, а пак ние, радиолозите, ќе се гордееме затоа што и „радиобуки“ може да спаси живот“, потенцира Вељановски.

Од УКИМ информираат деја процентот на погрешни зборови (word-error rate) се намалил од 13.8 на 10.2 за моделот Buki-wav2vec2, кој сега има споредливи перформанси со Buki-Whisper (word-error-rate 10.5) но е далеку побрз.

-Стигнавме до 120 часа за тренинг на Буки 2.0, двојно повеќе од 60-те часа со кои го создадовме Буки 1.0. Имаме многу повеќе говорници и акценти, како и неколку часа снимени детски гласови. Ова е сѐ уште далеку од посакуваните 600 часа транскрибиран говор, но убедени сме дека во 2025 ќе ја оствариме и таа цел, наведуваат креаторите на платформата. 

Новата алатка е достапна на линкот: https://huggingface.co/spaces/Macedonian-ASR/Bookie-w2v2-Macedonian-ASR  хс/дма/

Фото: Универзитет „Св. Кирил и Методиј“ - Скопје 

QËNDRONI TË LIDHUR