「なでしこv1」開発掲示板

[低] [調査中]

@419■ (#1309) 文字コード変換時に文字列末尾に余計な半角スペースが付く - ひなげし (2009-11-08 21:21) /低未処理

【症状】文字コード変換時に文字列末尾に余計な半角スペースが付く
【再現方法】
＃
文字列１は「フフフそちは」。
文字列２は文字列１を「sjis」から「utf8」へ文字コード変換。
ファイル１は「1.txt」。
ファイル２は「2.txt」。
文字列１をファイル１に保存。
文字列２をファイル２に保存。
終わる。
＃
とすると、1.txtの末尾には半角スペースは付いていないが、
2.txtの末尾には半角スペースが付いている。
【要望】余計な半角スペースが付かないようにして頂きたいです。
【バージョン】確認したバージョンversion 1.5322 & 1.5323

編集

↑ (#1412) もしかして、こちらの件も - ひなげし (2010-01-09 18:07) /低未処理

もしかしてこちらの件も
他の方のPCでは再現されていないのでしょうか？
そうでしたら本件も解決ということにさせて頂きますが、
いかがでしょうか？
ちなみに、私のPCでは1.5325でも
再現されます。

編集

↑ (#1413) 私の環境でも - ばびぶべぼん (2010-01-09 19:11) /低未処理

私の環境でも再現されますね。
同じく1.5325です。

どうやら文字コード変換で文字コードを変換すると末尾にNULLが付加されてしまいます。

とりあえず、現段階の回避策として、
「文字列２は文字列１をUTF8変換」
といったように個別の変換命令を使うことですかねぇ。

編集

↑ (#1414) ありがとうございます - ひなげし (2010-01-09 19:22) /低未処理

ばびぶべぼんさん、ご教示ありがとうございます。

「UTF8変換」を使えば大丈夫みたいですね。
助かりました、ありがとうございました。

編集

↑ (#1420) r224で修正 - クジラ飛行机 (2010-01-12 01:02) /低確認待ち

ご報告に感謝します。
修正致しました。
-「文字コード変換」命令で文字列末尾に余計な#0が付くのを修正(r224)(@419)

編集

↑ (#1425) 2点ほどご確認を - ひなげし (2010-01-12 21:37) /低確認待ち

ご対応ありがとうございます。
1.5326で動作を確認しましたが、気になる箇所が2点ほど。

＃
文字列１は「ジョワジョワヌワヌワ」。
ファイル１は「{デスクトップ}1.txt」。
ファイル２は「{デスクトップ}2.txt」。
ファイル３は「{デスクトップ}3.txt」。
ファイル４は「{デスクトップ}4.txt」。
ファイル５は「{デスクトップ}5.txt」。
ファイル６は「{デスクトップ}6.txt」。
文字列１をファイル１に保存。
文字列２は文字列１を「sjis」から「utf8n」へ文字コード変換。
文字列２をファイル２に保存。＃文字コードutf8n
文字列３は文字列２を「utf8n」から「jis」へ文字コード変換。
文字列３をファイル３に保存。＃文字化け？

文字列４は文字列１を「sjis」から「utf8」へ文字コード変換。＃文字コードutf8n？
文字列５は文字列１をUTF8N変換。＃文字コードutf8n
文字列６は文字列１をUTF8変換。＃文字コードutf8
文字列４をファイル４に保存。
文字列５をファイル５に保存。
文字列６をファイル６に保存。

終わる。
＃
(1)
「UTF8N変換」命令使用時テキストエディタで文字コードを確認すると
文字コードがUTF8Nになっている。
「UTF8変換」命令使用時テキストエディタで文字コードを確認すると
文字コードがUTF8になっている。
ここまではよいのですが、
「文字コード変換」命令を使用してたとえば
「(任意の文字コード)」から「utf8」へ文字コード変換すると、
テキストエディタでは
文字コードがUTF8ではなくUTF8Nになっているようです。

(2)「utf8n」から「jis」へ文字コード変換したものを
テキストエディタで開くと文字化け（？）しているようです。

他のケースは問題ないようでしたが、
上記2点、お手数ですが
ご確認願います。

編集

↑ (#1427) 「文字コード変換」の動作を再確認 - クジラ飛行机 (2010-01-13 23:33) /低調査中

ひなげし様詳細な報告ありがとうございます！

編集

↑ (#1430) 上記以外のケースに関しては修正を確認 - ひなげし (2010-01-16 15:16) /低調査中

上に挙げた
「(任意の文字コード)」→「utf8」と
「utf8n」→「jis」
以外のケースに関しては、
文字列末尾に余計な#0が付く現象が修正されていることを
確認しております。

こちらを先に書くべきでした。
申し訳ありません。

編集

↑ (#1431) ちょっと補足を… - ばびぶべぼん (2010-01-16 15:31) /低調査中

「utf8n」から「jis」では文字化けする、
とありますが確認してみたところ、正常に変換できているようです。
恐らく、Windows付属のメモ帳はJISに対応していないため
「$B%8%g%o%8%g%o%L%o%L%o」のように表示されると思います。

度々突っ込んできてすみません(^^ゞ

編集

↑ (#1432) 了解です - ひなげし (2010-01-16 16:51) /低調査中

そういうことですか。
そもそも、
「(utf8n以外の文字コード)」→「jis」や
「utf8n」→「(jis以外の文字コード)」は
正常に変換できているのに
「utf8n」→「jis」の場合だけ変換できていない、
というのは理屈から考えておかしな話ですよね。
私も「何か変だな」と思いつつ、一応ご報告しておきましたが、
「utf8n」→「jis」も問題なし、ということで承知いたしました。

ありがとうございました。

編集

↑ (#1452) やはりテキストエディタ側の問題 - ひなげし (2010-01-23 15:42) /低調査中

(#1425)に書いているファイルを開く際、
某テキストエディタでは2.txtは正常に表示され、3.txtは文字化け。
また別の某テキストエディタでは2.txtは文字化け、3.txtは正常に表示される。
という感じで、テキストエディタによって対応している
文字コードがまちまちなのですね。
いずれにせよ、「utf8n」→「jis」はなでしこの問題ではありませんね。

OpenOfficeのWriterはあまり多くの文字コードに対応していないようで
文字化けすることが多いですね。逆にWord(2003)は大体正しく
文字コードを判別してくれるようです。

編集

→(#1309)へ返信する: