TorchText TH

A (beta version) Thai word segmentation library built on PyTorch

Usage

>>> from typing import List
>>> from torchtext_th.tokenizer import get_tokenizer
>>> tokenizer = get_tokenizer("artifact/emb150_bilstm512_1layer.pt")
>>>
>>> input_text: str = "ลองทดสอบโปรแกรมตัดคำด้วย PyTorch ง่ายๆ จร้าาาา ถถถ"
>>> output: List[str] = tokenizer.tokenize(input_text)
>>> print("|".join(output))
ลอง|ทดสอบ|โปรแกรม|ตัด|คำ|ด้วย| |PyTorch| |ง่าย|ๆ| |จร้าาาา| |ถถถ

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
artifacts		artifacts
corpus		corpus
notebooks		notebooks
tests		tests
torchtext_th		torchtext_th
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
requirements-dev.txt		requirements-dev.txt
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

TorchText TH

Usage

About

Releases

Packages

Languages

License

phiradet/torchtext-th

Folders and files

Latest commit

History

Repository files navigation

TorchText TH

Usage

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages