shuf kazakh_latin_corpus.jsonl -o kazakh_latin_corpus.jsonl grep '\S' kazakh_latin_corpus.jsonl > clean_corpus.jsonl