先ほどの投稿した後に思いなおしたのですが、やはり、「々ゝ〃仝」などの繰り返し文字は無視しては気がつかないバグの温床になりそうなので発言を撤回させてください。
以下のサイトのリストをお借りして
トークン分割に使えない文字を力技ですが調べてみました。
http://hp.vector.co.jp/authors/VA006522/soft/sjiskanji/s-jis.htm
カンマ区切形式
sk_kigou.txt 記号・英数
sk_kanji1.txt 第一水準
sk_kanji2.txt 第二水準
sk_kanji3.txt 第三水準
sk_ibmkanji.txt IBM漢字
sk_gaiji.txt 外字
データをダウンロードしてエラー監視命令を使ってエラーに掛かる文字調べてみました。
後半・のような記号が続きますが、バイナリダンプして見ると別々の文字コードのようなのでそのままコピペしてあります。
僕の知識では、毎度ファイルを開いた時に文字列検索等で一文字づつ置き換えるようなことしか出来そうにありませんが、データファイルの数が増えて大量になるとちょっと処理時間が掛かりそうです。
バイナリダンプで見ると使えない文字コードは連続して存在していることが多いので、なんらかの方法で効率よくそれらの文字をエスケープするようなことが言語側の機能として出来ないものでしようか。
●トークン分割でエラーが出た文字
゛゜´`¨ ̄ヽヾゝゞ〃仝々〆〇ー―‐\∥…‥‘“”〔〕〈〉《》「」『』±∞∴♂♀°′″℃¢£§☆★○◎◇◆□△▽▼〒↑↓〓・・・・・・・・・・・∈∋⊆⊇⊂⊃∪∩・・・・・・・・∧∨¬⇒⇔∀∃・・・・・・・・・・・∠⊥⌒∂∇≡≒≪≫√∽∝∵∫∬・・・・・・・ʼn♯♭♪†‡¶・・・・◯・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・