Tokenizacja w przetwarzaniu języka naturalnego to proces podziału tekstu na mniejsze jednostki, znane jako tokeny. Mogą to być słowa, frazy, a nawet pojedyncze znaki. Tokenizacja jest krokiem wstępnym w wielu zadaniach NLP, umożliwiającym dalsze analizy i przetwarzanie tekstu przez modele językowe.