Skip to content

Задача для Хакатона Tatar.by в Казани, попытка дистилляции модели whisper-small в whisper-base

Notifications You must be signed in to change notification settings

daniil-dushenev/tatarby-2024

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 

Repository files navigation

Дистилляция модели whisper-small, дообученной на татарских аудио, в предобученную whisper-base

❓ Зачем?

На хакатоне Tatar.by в г. Казань мы работали над задачей распространения контента на татарском языке. Организаторы нам предложили попробовать улучшить модель распознавания речи на татарском языке. Мы нашли модель sanchit-gandhi/whisper-small-tt-1k-steps, которая в целом давала приемлемый для нас результат в распознавании речи (хотели реализовать субтитирование). Однако организаторы попросили нас каким-то образом сделать свою модель, а не использовать готовые, поэтому мы, ради опыта, решили попробовать дистиллировать эту модель в чуть меньшего размера - whisper-base.

💻 Вычислительные мощности и данные

Организаторы любезно предоставили нам 3 GPU V100 с 32Gb видеопамяти. Также организаторы нам предоставили данные на 2 Gb speech corpus, также мы нашли еще 2 Gb данных из другого датасета и 200 Gb данных датасет на hugging face.

🎉 Результат

По итогу нам не хватило времени обучения, смогли обучиться только на 10% данных от 4 Gb( Однако мы получили опыт в дистилляции моделей, работе с несколькими GPU и распараллеливанием вычислений. Лосс падал, метрики улучшались)))

About

Задача для Хакатона Tatar.by в Казани, попытка дистилляции модели whisper-small в whisper-base

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages