tess4korean

In the first part, Tesseract will be trained from data generated using fonts. In the second part, Tesseract will be trained from text images provided from AI Hub.

Before you start…

Make sure you have Tesseract installed. See the last section from Tesseract Set Up page and install required packages for training Tesseract.

1. Set variables for training

Set variables before running this script.

sh 0_config.sh

2. Download necessary files for training

./0_setup.sh

3. Generate training data

./1_generate_data.sh

4. Extracting lstm model

./2_extract_lstm.sh

5. Evaluating

Running this script will cause Encoding of string failed! Failure bytes / Can't encode transcription errors. This means that the characters found in the training data are not in the unicharset.

./3_eval_initial.sh

6. Generate new traineddata

To solve the problem above, original unicharset will be merged into the current unicharset to make sure that all characters are included. Unicharset files will be combined to produce a new .traineddata.

./4_generate_traineddata.sh

7. Fine Tuning

./5_finetune.sh

8. Evaluating

Running this won’t give any encoding errors anymore. Try various --max_iterations to see changes in error rate.

./6_eval_check.sh

9. Combine trained model

Converting training checkpoint to .traineddata

./7_combine.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

tess4korean

Before you start…

1. Set variables for training

2. Download necessary files for training

3. Generate training data

4. Extracting lstm model

5. Evaluating

6. Generate new traineddata

7. Fine Tuning

8. Evaluating

9. Combine trained model

About

Releases

Packages

Contributors 2

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 24 Commits
fonts		fonts
0_config.sh		0_config.sh
0_setup.sh		0_setup.sh
1_generate_data.sh		1_generate_data.sh
2_extract_lstm.sh		2_extract_lstm.sh
3_eval_initial.sh		3_eval_initial.sh
4_generate_traineddata.sh		4_generate_traineddata.sh
5_continue_training.sh		5_continue_training.sh
5_finetune.sh		5_finetune.sh
5_training.sh		5_training.sh
6_eval_check.sh		6_eval_check.sh
7_combine.sh		7_combine.sh
LICENSE		LICENSE
README.md		README.md

License

whoareyouwhoami/tess4korean

Folders and files

Latest commit

History

Repository files navigation

tess4korean

Before you start…

1. Set variables for training

2. Download necessary files for training

3. Generate training data

4. Extracting lstm model

5. Evaluating

6. Generate new traineddata

7. Fine Tuning

8. Evaluating

9. Combine trained model

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages