Обработката на природен јазик (NLP) е многу популарна област на истражување за машинско учење, која исто така може да се користи нашироко во апликации кои се однесуваат на секојдневниот живот на луѓето. Во областа на македонскиот NLP, има забележителни напори во истражувањето на текст-во-говор, каде што ги имаме и Македонка, Маика и македонскиот дел на Mozilla заеднички глас.
Во овој проект се насочувам на анализа на македонските твитови поврзани со популарната тема во Македонија во моментов - штрајкот.
- Превземање и чистење на податоци
- Визуелизација на првиот твит и POS tagging
- Најчести појавувања на користени зборови
- Name entity recognition
- Заклучок
Овој проект може да се прошири со правење на анализа за hate of speech, потоа анализа за како би можеле да ги категоризираме овие твитови(позитивни/негативни) и слично. Со алатките кои сега се достапни за секој да ги користи, треба професионалците и студентите да бидат поттикнати да истражуваат во областа на македонскиот NLP. SpaCy е библиотека која може да се користи и за академско истражување и за комерцијални апликации.
Се надеваме дека со овој мал придонес ќе им помогнам на другите да развиваат и истражуваат повеќе во македонскиот домен на NLP - гранка која што допрва треба да се развива во нашата Македонија.