[
新規
] - [
ツリー
] - [
スレッド
] [
未解決
] [
緊急
] - [
優先
] - [
検索
] - [
なでしこTOP
]
「なでしこv1」開発掲示板
なでしこv1のバグや要望を書き込む掲示板
→
書き込み(
#2344
)を編集する:
名前
タイトル
本文
先ほどの投稿した後に思いなおしたのですが、やはり、「々ゝ〃仝」などの繰り返し文字は無視しては気がつかないバグの温床になりそうなので発言を撤回させてください。 以下のサイトのリストをお借りして トークン分割に使えない文字を力技ですが調べてみました。 http://hp.vector.co.jp/authors/VA006522/soft/sjiskanji/s-jis.htm カンマ区切形式 sk_kigou.txt 記号・英数 sk_kanji1.txt 第一水準 sk_kanji2.txt 第二水準 sk_kanji3.txt 第三水準 sk_ibmkanji.txt IBM漢字 sk_gaiji.txt 外字 データをダウンロードしてエラー監視命令を使ってエラーに掛かる文字調べてみました。 後半・のような記号が続きますが、バイナリダンプして見ると別々の文字コードのようなのでそのままコピペしてあります。 僕の知識では、毎度ファイルを開いた時に文字列検索等で一文字づつ置き換えるようなことしか出来そうにありませんが、データファイルの数が増えて大量になるとちょっと処理時間が掛かりそうです。 バイナリダンプで見ると使えない文字コードは連続して存在していることが多いので、なんらかの方法で効率よくそれらの文字をエスケープするようなことが言語側の機能として出来ないものでしようか。 ●トークン分割でエラーが出た文字 ゛゜´`¨ ̄ヽヾゝゞ〃仝々〆〇ー―‐\∥…‥‘“”〔〕〈〉《》「」『』±∞∴♂♀°′″℃¢£§☆★○◎◇◆□△▽▼〒↑↓〓・・・・・・・・・・・∈∋⊆⊇⊂⊃∪∩・・・・・・・・∧∨¬⇒⇔∀∃・・・・・・・・・・・∠⊥⌒∂∇≡≒≪≫√∽∝∵∫∬・・・・・・・ʼn♯♭♪†‡¶・・・・◯・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
優先度
低
中
高
緊急
状態
未処理
詳細求む!
調査中
議論中
修正中
確認待ち
再修正依頼
解決
---
重複
---
アイデア
感想
告知
感謝
確認キー
👆お手数ですが、いたずら防止のために、「真夏」の読み方を記入してください。
編集キー
編集時に使うキーを入力(省略可能)
添付ファイル
🎁
ファイルを選択...
画像ファイル(最大300KB)を添付可能