TOP > ネタ・話題・トピック > note > 絵文字がある種の...

絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama|note

164コメント 登録日時:2017-11-13 09:49 | noteキャッシュ

UnicodeのUTF-16エンコーディングではほとんどの文字(コードポイント)は2バイトで表現されるが、Unicodeに後から追加収録された文字の多くは4バイトで表現される。4バイト文字がうまく扱えないプログラムというのはわりとよくある。しかし世界中で広く使われるようになった絵文字がよりによって4バイト文字であるせいで、そのような文字が扱えない問題がよいペースで解決に向かいつ...

Twitterのコメント(164)

分かりやすいなぁもぉ。
- 「絵文字がある種のUnicodeバグを世界から一掃しつつある」、ASCIIとかLaten1しか通らない時代に、JISとかの対応をしたような。
思わぬ副作用!放置されていたUnicodeのバグが、日本の絵文字によって解決される @rui314
UTF-16とかUTF_32ってなんなのだろう?とは思ってたけどこれ読んで違いがわかった、なるほど。非常に有用だこれ。というのを今更読んだ。でも絵文字は死滅してほしい。文字じゃねえもん。 / "絵文字がある種のUnicodeバグ…"
必要は発明の母だねぇ
おー。なるほどな。 :
これも一種の「ソフトパワー」なのだなぁ。興味深い。
ueyamaさんのnoteはすんすん読めて楽しい
これも良い話だ。
世界標準な絵文字。ガラケー時代が懐かしい過去に。 -
UTF16ってなんで使われないんだろうと思ったらこういうことだったのか
"絵文字は後からUnicodeに収録された文字としては異例に利用頻度が高いので、いろいろなシステムにある種のストレステストを強いることになり、" / "絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui…"
こういう話すごく好き♪( `д´)σ →
面白いなぁ。UTF-16が欠点だらけ(UTF-8の方が良い)とか、MySQLの自称utf8とか中にちりばめられたお話も含めて面白い。 /
(ノート) 絵文字ってそんな勢いで増えてるのか
AAも流行ってくれないかなー海外の顔文字横だから読みにくいんだよなー
メモメモ:感動的ですらある。
勉強なった。エンコーディングはいまだにようわからん。UTF-8とかUTF-16ってあれ最小単位を示してるってのがもうfuckなんだけどな。。
絵文字が世界で使われた結果、Unicode への認識が変わった話かな
英語圏のエンジニアからしたら大変になったって感じなのかな? ⇒
JK由来の絵文字文化が世界を動かした? /
逆に絵文字文化が欧米圏含めここまで普及するとは思っていなかった派。
もうファイルの先頭に「美乳」って書かなくてよくなるんだ! /
まさか絵文字がサロゲートペアを救うとは!この勢いで色指定とかバーガー🍔の具の順番でIVSも広めちゃおうぜ /
『絵文字がある種のUnicodeバグを世界から一掃しつつある件について』 アルファベットしか見ない1バイトコード圏の開発者が認識を改めるきっかけになったのなら僥倖
絵文字ってサロゲートペアを使ってたのか! Macで作った日本語がウィンドウズだと変な表示されててイラッとさせられることでお馴染みのサロゲートペアを!! / "絵文字がある種のUnicodeバグを世界から一掃しつつある件について|…"
確かに面白い流れ👀 :
面白い記事だわ。日本のガラパゴった環境のお陰でUnicodeが世界平和って事か。
始めてUTF-8とかUTF-16の違いを理解した気がするぞ…って気のせいか。まあなんとなく »
"絵文字のバグを直すと必然的にマイナーな漢字などもきちんと扱えるようになってしまう。これは絵文字の普及の意図せぬ副作用と言えるだろう。" /
何十年間いろいろ対応を渋ってきた欧米が、まさか絵文字でホイホイ動くとは。確かに感慨深い >
"というわけで、絵文字は後からUnicodeに収録された文字としては異例に利用頻度が高いので、〜〜 結果として世界的にプログラマの認識の改善とプログラムの品質向上に貢献することになったといえる。"
10年後ぐらいに「絵文字なんてものがなければこんなことには…」って言ってそうなので誰かそうしてください( ´ ▽ ` ) /
おもしろい。歴史的経緯というものの厄介さを垣間見た。/
8と16と32についてちゃんとわかってなかった。/
UTF32なんて気にしたこともなかった。/ 絵文字はドコモのiモード時代のシンプルなやつが好きだったなー。 /
「これはなかなか面白い話だと思う。」というとても面白いお話。

>絵文字がある種のUnicodeバグを世界から一掃しつつある件について|
いい話だった。 /
当事者になって初めて問題点を認識、改善するってのは社会的にはありふれた話だけど、Unicodeの世界でそれをもたらしたのが「絵文字」ってのが面白い / "絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Ru…"
サマータイムも世界で導入されたらこういうのが起こるのかな
絵文字は後からUnicodeに収録された文字としては異例に利用頻度が高いので、いろいろなシステムにある種のストレステストを強いることになり、結果として世界的にプログラマの認識の改善とプログラムの品質向上に貢献することになった。
IVD/IVS、結合文字も絵文字絡めばよくなるん? /
いつものように本論とはまるで関係ないけど、WCSTOMBS()とかいうクソ関数を思い出した。 ☞
"MySQLの自称"utf8"エンコーディングなど"
なんと。絵文字なんて文明をまた象形文字へ回帰させる気かガラパゴス携帯の負の遺産ではないかとあまり良くは思っていなかったら、それはとても近視的価値観であったか。なるほどね。 / "絵文字がある種のUnicodeバグを世界から一掃し…"
たいへんにいい話であると同時にもはや障壁もアドバンテージもない平坦な地に我々は放り出されているというその事実
「UTF-16ではなく最初からUTF-8を使う方がいいじゃないかという認識が以前より広まった」 マジですか絵文字最強だな 昔孫さんがジョブス説得してiPhone日本版に絵文字を積んだのは真理だったのか / "絵文字がある種のUn…"
面目次第もございません"サロゲートペアの文字を最初から使えないことにしている手抜きシステムもよくあった"
絵文字がある種のUnicodeバグを世界から一掃しつつある件について|プログラミング|note(ノート)
おもしろい。ある意味Unicodeに絵文字を持ち込んだGoogleのおかげかも /
さふぁ: - ウケル
面白い話!>
IrfanViewがようやく重い腰を上げてUnicodeに対応したのはもしかしてこれが理由なのでは…

(ノート) なるほどねえ。
泣ける /
勉強になる /
私たちがガラケーで絵文字を使いまくったおかげなのか! >
多様性の名の下に、異体字セレクタとかの合成文字のサポートも進んじゃうよね。環境に依ってキレイに表示できないのをバグ扱いされる未来が想像できる。👦🏻🇯🇵 / "絵文字がある種のUnicodeバグを世界から一掃しつつある件について|…"
>Unicodeに追加された絵文字は、その後数年で日本語に関係なく世界中で…
そういえば普段IM使わない地域では、絵文字ってどうやって入力するんだろう?
via
今までほったらかしにしていたバグを、使用頻度が高い絵文字(UTF-16で4バイト)のために否応なく修正せざるを得なくなったなり。>
4バイトコードになっていること自体知らなかった(^^;
i-mode絵文字が20年近くかけてシフトJISを殺してるのかも。
日本語にマトモに対応していないOSSとか市販コンポーネントが結果的に減りそうではある
面白い。狙ったものではないとはいえ北風と太陽感ある /
サロゲートペア周りは仕様がよくわからなくてなんとなくでテスト仕様を通してしまったものがないこともない。
(ノート)
ちょっとしたもの(エモーション、星座、トランプ、麻雀、宗教系などなど)は絵文字でなんとかできるからねぇ…
``コンピュータの歴史上で初めて、英語圏ですらASCIIの範囲内では日常的に文字が足りないという状況になった" そうかとうとうそういう時代が来てしまったのか
"4バイト文字がうまく扱えないプログラムというのはわりとよくある。しかし世界中で広く使われるようになった絵文字がよりによって4バイト文字であるせいで、そのような文字が扱えない問題がよいペースで解決に" / "絵文字がある種のUn…"
(ノート) なるほど絵文字ねぇ
絵文字の世界的な普及によって英語圏の人が協力し始めてくれたということかー
絵文字が4バイトコードを救った話。 /
utf-8も中に入るのは31bitまでなので、それより長くなる日が来る可能性が。 ー
イイハナシダナー/
うんこが世界を動かす(違

"絵文字のバグを直すと必然的にマイナーな漢字などもきちんと扱えるようになってしまう"
ふむふむ →
面白い。ガラパゴス種が世界に広まって生態系変えたみたいな(変な例え)。
絵文字奥深いな
要するに、ようやっと欧米圏の人たちがマルチバイト文字を利用する必然性ができた、ということか。必要は発明の母。 /
良記事だにゃ。僕もUTF-16は大嫌い。LEとかBEとか「バカじゃろ?」としか思えん。
昔はLinuxでEUCとSJISの変換ライブラリを自前で作ったりとかしてたなぁ、とぼんやり思い出した。
あー、なるほどやなー。絵文字のおかげってのは体感ある。utf8mb4な。 :
絵文字は(中略)どの言語でも極端に利用頻度が高い
> 絵文字のバグを直すと必然的にマイナーな漢字などもきちんと扱える
影響が少なかった文字列バグがほったらかしにされてた(特に英語圏)けど、急に表面化して慌ててるという状態なのねw
:「絵文字がある種のUnicodeバグを世界から一掃しつつある件について」
「ここ数年でコンピュータの歴史上で初めて、英語圏ですらASCIIの範囲内では日常的に文字が足りないという状況になった」 /
「Unicodeバグ」なんてトレンド入りしてるから重大なバグが見つかったと思ったらバグが減る方向に進展したのか
(ノート)

…先日、ツイッタの文字制限と全角・半角文字について話したら、今度は絵文字のおかげでバグが次々修正されていってるって話。
ある意味ガラケーが文字エンコーディングに革命をもたらしたという話 /
(ノート)

確かに言われて見ると表示できない文字とかを見ないようになったな・・・・
UTF-32は初めて聞いた。へぇ。
なるほど。めちゃくちゃ面白い。。
"2 バイト固定長" というシンプルなアイデアは 1996 年の Unicode 2.0 で放棄されてしまったけれど,絵文字というサブカルチャーの力が Unicode の実装を改善している / "絵文字がある種のUnicodeバ…"
ここ数年の絵文字の需要急増でASCII圏の人間がようやくマルチバイト文字を真面目に扱いだしたということか。
なんでもUTF-8がいいという話になるのかどうかが今ひとつ。。そもそも絵文字の場合はUTF-16のサロゲートペアとかよりは、UTF-32ベースでの文字数と表示する文字数が違うという方が問題として大きいような。
結果として UTF-8 でOKってことかw
(ノート) 携帯電話由来の絵文字、使わないようにしていたけどいつのまにか世界的に普及していたのか…しかも良い副作用を伴うなんて面白い
UCS-2→UTF-16で仕様が方針転換しマルチバイト系の不具合が多く出たが、優先度が低く放置されてきた。近年絵文字が人気で対応が進み、結果として件の不具合の修正が進んだ、と。ありがとう絵文字さん😊 / "絵文字がある種のUni…"
なるほど。
(ノート)

面白い話だなぁ
自分が感じていたことが文章化されていて感謝しかない /
(ノート) いい話だなぁ
(ノート)

英語圏の人はマルチバイト文字なんて知らんってスタンスだと思ってたけど、絵文字のおかげで知らん顔できなくなったと。
(ノート)
「絵文字の普及の意図せぬ副作用」
DTP的には馴染みにくいが大変得心のいく話
なーるほど!2バイト文字文化圏だけの困りごとが絵文字のおかげでグローバルになったんだ。 /
最新の絵文字を使うためにiOS11に上げるって、どこかで読んだな(まだ上げてない)。絵文字にそんな効用があったとは。
"
絵文字、すごい! /
(ノート) ふむ。まあエンジニアは大変だろうけど基本的にはよいこと。
UTF-8の勝利
(ノート)  納得
ただ、シフトJISの苦難を知っている者にとって、UTF-8もまた…
絵文字対応でサロゲートペアのコード書いたな数年前。当時はここまで普及するとは思ってなかった。 /
なるほど。絵文字のおかげで、世界規模でマルチバイト文字操作に需要が生まれたのか。結果ユニコード系のバグばみるみる直ってると…風が吹けば桶屋が儲かるだなぁ。
絵文字が、英語圏の人達にとって誰かの問題だったマルチバイト対応を、自分達の問題にしたってことか… /
(ノート)

ふむふむ
とりあえず文字エンコーディングはよくわからんが、1~4バイト可変長のUTF-8が最強ということはわかった
そしてまた近い将来に絵文字を含めて固定バイトで統一しようという流れになって悲劇は繰り返すと。。 /
(ノート) 面白い
絵文字自体は日本生まれなのにunicode化で3キャリアが自発的に動かなかったのが悲しくてな -
(ノート)
EUCJPのサイトはどうにかしてくれ
非漢字圏のUnicodeの普及がこんな所から進んでいたのか。
(ノート) UTF-8が特に普及したのはファイル名の絡みかなあって思ってた。正規化の問題はそれでも残るけど…
なるほど~。確かにここ数年急速にASCII文字圏の人たちのマルチバイト対応が進んできた実感。
UTF-16ってそんな面倒いことになってたんだ…UnicodeといえばUTF-8って感覚だったから知らなんだ。
これは指摘されるまで気が付かなかった /
Emoji.js でお茶を濁した WordPress には鉄槌が下ってほしい
これ、おそらくUTF-8でもDB内で3バイトまでに対応していたものが4バイト(BMP外の文字)に対応が進んでいる理由の一つではないかと /
これはその通りかも…じっさいnehan.jsも絵文字のためにver5.5.0からサロゲートペアに対応しました。というわけで、もちろん縦書き文庫でも絵文字は利用できます。
ぬこちゃんカワユス← Σ(゚ロ゚)o゙

Unicodeバグ
同じようなこと思っていた( ´・‿・`)ZWJとかでさらに面倒した面もあるけど。
アメリカのカンファレンス行くと、emojiが出てくる頻度がやたら高い。デモアプリとかに大体emoji出てくる。みんなemoji大好き😌
>これはなかなか面白い話だと思う。
最後の1文に全く同感。この視点はなかったけど、実際そうなのだろうと思う。
非常に興味深い内容でした
絵文字が急速に普及した結果、海外の開発者で、ユニコード改善の優先順位が上がり、改善が進んでいるという話。
経験上、nanaでもInstagramでも海外の人ほど絵文字を多用する傾向にある印象🤠
写メにしろ絵文字にしろ、JKが好きなものってオッサン的にはまったく使わないと思ってたのに、それで世界が変わっていくのだねえ /
おもしろい>
みてれぅ:
(ノート) 面白い。需要があれば不具合も解消されていくことの典型だ
いい話の方のいい話 /
マルチバイト文字の問題は CJK 文化圏の人間しか対処できないって言われてたのが絵文字のおかげでどうにかなっていってるのアツい。

re:
文字コード面白い
世界中で広く使われるようになった絵文字がよりによって4バイト文字であるせいで、そのような文字が扱えない問題がよいペースで解決に向かいつつある。 / "絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Ru…"
絵文字はUTF-16ではサロゲートペアで表現されるため、これまでUTF-16でサロゲートペアをうまく扱えなかったバグが直され、結果的に非ASCII文字でサロゲートペアで表された文字についても直っちゃう、と / "絵文字がある種の…"
ガラケー時代の絵文字は3キャリアで互換性が無くて(特に拡張絵文字)プログラマ泣かせだったけど、Unicode絵文字はそんなことになっているのか。 / "絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui…"
もう、ruiさんのばらばらに散らばったエッセイをまとめてRui on Softwareとして本にしてほしい。 /
いいね UnicodeのUTF-16エンコーディングではほとんどの
肌の色みたいなより高度(で面倒)な技術も「小学生の娘が自分の絵文字が使えないと泣いています」と開発者(と、マスコミに)言えば最優先で対応してもらえるしな / "絵文字がある種のUnicodeバグを世界から一掃しつつある件について…"
UTF-8 でまるちばいとな文字も普通に受け入れてくれるのが増えたのはうれしいけど絵文字が一役買ってるのかぁ・・・ 確かに自分たちで使わない機能って後回しにしがちだよね・・・ (・x【みかん
面白い副作用 /
絵文字なんかいらないだろ、と思ってたら、まさかこんなことになるとは。しかし外国でも使われてるんですね
UTF-8は最大6バイトでは?「絵文字を入力する」ユースケース対応でIME対応が進むことも期待できる。 :
説得力が満ち溢れてる。
:
UnicodeのU+10000からU+10FFFFの文字の扱いが絵文字のおかげでかなりよくなりましたよね、というエッセイを書いた。
以上

記事本文: 絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama|note

関連記事

画像で見る主要ニュース