「なでしこv1」開発掲示板

↑ (#2344) トークン分割で使えない文字一覧 - AI (2014-10-05 09:16) /中未処理

先ほどの投稿した後に思いなおしたのですが、やはり、「々ゝ〃仝」などの繰り返し文字は無視しては気がつかないバグの温床になりそうなので発言を撤回させてください。

以下のサイトのリストをお借りして
トークン分割に使えない文字を力技ですが調べてみました。

http://hp.vector.co.jp/authors/VA006522/soft/sjiskanji/s-jis.htm
カンマ区切形式
sk_kigou.txt　　記号・英数
sk_kanji1.txt　　第一水準
sk_kanji2.txt　　第二水準
sk_kanji3.txt　　第三水準
sk_ibmkanji.txt　　ＩＢＭ漢字
sk_gaiji.txt　　外字

データをダウンロードしてエラー監視命令を使ってエラーに掛かる文字調べてみました。

後半・のような記号が続きますが、バイナリダンプして見ると別々の文字コードのようなのでそのままコピペしてあります。

僕の知識では、毎度ファイルを開いた時に文字列検索等で一文字づつ置き換えるようなことしか出来そうにありませんが、データファイルの数が増えて大量になるとちょっと処理時間が掛かりそうです。

バイナリダンプで見ると使えない文字コードは連続して存在していることが多いので、なんらかの方法で効率よくそれらの文字をエスケープするようなことが言語側の機能として出来ないものでしようか。

●トークン分割でエラーが出た文字
゛゜´｀¨￣ヽヾゝゞ〃仝々〆〇ー―‐＼∥…‥‘“”〔〕〈〉《》「」『』±∞∴♂♀°′″℃￠￡§☆★○◎◇◆□△▽▼〒↑↓〓・・・・・・・・・・・∈∋⊆⊇⊂⊃∪∩・・・・・・・・∧∨￢⇒⇔∀∃・・・・・・・・・・・∠⊥⌒∂∇≡≒≪≫√∽∝∵∫∬・・・・・・・Å‰♯♭♪†‡¶・・・・◯・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・

編集

■ トークン分割でエラーが出る / AI (2014-09-26 07:35) (#2340)/ 中未処理

　　Re: トークン分割でエラーが出る / うぇいく (2014-10-04 22:31) (#2342)/ 中未処理

　　 Re:Re: トークン分割でエラーが出る / AI (2014-10-05 01:14) (#2343)/ 中未処理

　　トークン分割で使えない文字一覧 / AI (2014-10-05 09:16) (#2344)/ 中未処理

→(#2344)へ返信する: