「なでしこv1」開発掲示板

なでしこv1のバグや要望を書き込む掲示板

(#2344) トークン分割で使えない文字一覧 - AI (2014-10-05 09:16) /中 未処理
先ほどの投稿した後に思いなおしたのですが、やはり、「々ゝ〃仝」などの繰り返し文字は無視しては気がつかないバグの温床になりそうなので発言を撤回させてください。


以下のサイトのリストをお借りして
トークン分割に使えない文字を力技ですが調べてみました。

http://hp.vector.co.jp/authors/VA006522/soft/sjiskanji/s-jis.htm
カンマ区切形式
sk_kigou.txt  記号・英数
sk_kanji1.txt  第一水準
sk_kanji2.txt  第二水準
sk_kanji3.txt  第三水準
sk_ibmkanji.txt  IBM漢字
sk_gaiji.txt  外字

データをダウンロードしてエラー監視命令を使ってエラーに掛かる文字調べてみました。

後半・のような記号が続きますが、バイナリダンプして見ると別々の文字コードのようなのでそのままコピペしてあります。

僕の知識では、毎度ファイルを開いた時に文字列検索等で一文字づつ置き換えるようなことしか出来そうにありませんが、データファイルの数が増えて大量になるとちょっと処理時間が掛かりそうです。

バイナリダンプで見ると使えない文字コードは連続して存在していることが多いので、なんらかの方法で効率よくそれらの文字をエスケープするようなことが言語側の機能として出来ないものでしようか。


●トークン分割でエラーが出た文字
゛゜´`¨ ̄ヽヾゝゞ〃仝々〆〇ー―‐\∥…‥‘“”〔〕〈〉《》「」『』±∞∴♂♀°′″℃¢£§☆★○◎◇◆□△▽▼〒↑↓〓・・・・・・・・・・・∈∋⊆⊇⊂⊃∪∩・・・・・・・・∧∨¬⇒⇔∀∃・・・・・・・・・・・∠⊥⌒∂∇≡≒≪≫√∽∝∵∫∬・・・・・・・ʼn♯♭♪†‡¶・・・・◯・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
トークン分割でエラーが出る / AI (2014-09-26 07:35) (#2340)/ 中 未処理
  Re: トークン分割でエラーが出る / うぇいく (2014-10-04 22:31) (#2342)/ 中 未処理
   Re:Re: トークン分割でエラーが出る / AI (2014-10-05 01:14) (#2343)/ 中 未処理
  トークン分割で使えない文字一覧 / AI (2014-10-05 09:16) (#2344)/ 中 未処理

(#2344)へ返信する:

👆お手数ですが、いたずら防止のために、「真夏」の読み方を記入してください。

編集時に使うキーを入力(省略可能)

画像ファイル(最大300KB)を添付可能