Дистилляция модели whisper-small, дообученной на татарских аудио, в предобученную whisper-base

❓ Зачем?

На хакатоне Tatar.by в г. Казань мы работали над задачей распространения контента на татарском языке. Организаторы нам предложили попробовать улучшить модель распознавания речи на татарском языке. Мы нашли модель sanchit-gandhi/whisper-small-tt-1k-steps, которая в целом давала приемлемый для нас результат в распознавании речи (хотели реализовать субтитирование). Однако организаторы попросили нас каким-то образом сделать свою модель, а не использовать готовые, поэтому мы, ради опыта, решили попробовать дистиллировать эту модель в чуть меньшего размера - whisper-base.

💻 Вычислительные мощности и данные

Организаторы любезно предоставили нам 3 GPU V100 с 32Gb видеопамяти. Также организаторы нам предоставили данные на 2 Gb speech corpus, также мы нашли еще 2 Gb данных из другого датасета и 200 Gb данных датасет на hugging face.

🎉 Результат

По итогу нам не хватило времени обучения, смогли обучиться только на 10% данных от 4 Gb( Однако мы получили опыт в дистилляции моделей, работе с несколькими GPU и распараллеливанием вычислений. Лосс падал, метрики улучшались)))

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
README.md		README.md
main.py		main.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Дистилляция модели whisper-small, дообученной на татарских аудио, в предобученную whisper-base

❓ Зачем?

💻 Вычислительные мощности и данные

🎉 Результат

About

Releases

Packages

Languages

daniil-dushenev/tatarby-2024

Folders and files

Latest commit

History

Repository files navigation

Дистилляция модели whisper-small, дообученной на татарских аудио, в предобученную whisper-base

❓ Зачем?

💻 Вычислительные мощности и данные

🎉 Результат

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages