TOP > IT・テクノロジー > 「Yahoo!知恵袋」の不快な投稿、見えないところへ わずか1日で6億件を処理 ヤフー社内で何が起きたのか (1/2) - ITmedia NEWS

「Yahoo!知恵袋」の不快な投稿、見えないところへ わずか1日で6億件を処理 ヤフー社内で何が起きたのか (1/2) - ITmedia NEWS

197コメント 登録日時:2018-11-02 08:13 | ITmediaキャッシュ

Q&Aサービス「Yahoo!知恵袋」は長い間、不快な内容だが規約違反ではなく削除できない「グレーな投稿」に悩まされてきた。解決するための処理には約9カ月かかると思われていたが、わずか1日強で完了したという。何が起きたのか。 (1/2)...

Twitterのコメント(197)

ヤフーがスパコンで愚かな人間を何かしてる話を思い出したが知恵袋のこれだった
徐々にヤフー周辺の賢者がいなくなって、彼らの消息をしらべたらシビュフーシステムに同化されててショックをうけるはず。
もはやゲスい質問しかないという印象だったけど、変わるかもしれないなー
「どこで聞けばいいんだろう?」という質問に便利なサイトだからね
====
スパコンにAIを載せたのね。次は量子コンピューターにAIを載せる、だね。Yahooのお金があれば出来るよね。
でKUKAIってPezyのお友達なの?
自分は自作自演で占いとかトンデモに誘導する投稿が不快です
「Yahoo!知恵袋」不快投稿の検出,形態素解析ではうまくいかず「文を文字単位に分解して扱う深層学習的な処理を導入」,社内向けガイドラインから「正解データ」を作成,液浸スパコンkukaiで1日強で学習
マシンパワーと技術力で全力で殴っててすごい。機械学習をスーパーコンピュータで走らせて「もともと約9カ月かかると想定していた処理時間を、約200分の1に短縮」>
いやいや、全然まともに判定できてないから。ほんと真面目な人がブロックされたりしてるから。ヤフークオリティ最低。 /
うわあ、知恵袋の「不適切な内容が含まれている可能性があるため、非表示になっています。」の諸悪の根源ってコレだったのか。何が問題なのか全く分からないものまでコレのせいで不適切扱い。最悪すぎて。しかもその判断の正誤はユーザー任せ。終わってるなヤフー。
ヤフー知恵袋の不快な投稿、見えないところへ - わずか1日で6億件を処理、 (ITmedia)
差別投稿にも適用されることを期待したい!
「蓄積された約6億件の投稿をまとめて処理するには、既存のサーバを使った環境では約9カ月かかるという試算が出たのだ。そこで清水さんは考えた。「kukaiの出番だ」と」 /
ヤフー知恵袋にここまで投資する意味ってあんのかね
Microsoft Edge から共有:
AIに負けるも何も
Twitter上のツイートと、それに対する返事(リプライ)をペアにしたデータ数千万件を使った学習モデル,強そう
凄いよなぁ、これ。Twitter側にもフィードバックしてくれないかなぁ
見てる →
アンチが罵るだけのコメなんか早急に対応してほしいレベル。特にcarview。
これ、すばらしい🤖⭕❌
『 ヤフー社内で何が起きたのか』
「Yahoo!知恵袋は長い間、不快な内容だが規約違反ではなく削除できない「グレーな投稿」に悩まされてきた。解決するための処理には約9カ月かかると思われていたが、わずか1日強で完了したという」ほ〜〜
kukaiは、ちゃんと役に立ってるのね。
総合Q&Aランキング欄、以前と何も変わっていないのだが...
AI活用の模範解答って感じ
消してしまうと角が立つけど、「目立つところでは非表示」という選択は賢い。

【 NEWS】
ヤフーのスパコンkukai
ツイッターでも誹謗中傷とかマウンティングとかクソリプとか不快な投稿を処理するのに使ってくれないかな。
気になる記事ですね。
▼ ヤフー…
kukai初めて知ったけど、液浸方式だと、凹型に成るんだね液体が入ってるから当たり前だけど、新鮮!
ディストピアと一昔にSF材料にされていたものが、よもや現代病理への投薬になるなんて皮肉だな
ナナカヒナサタサアナカヒチフハヘ543*65
kukaiすごい
いろいろと改善されているのでしょうが、そもそも答えが間違っていることが多いですね。 →
その技術、ヤフコメのクソコメを削除するのに使ってほしい

- ニュースパス
「正解データ」を作るのが最大の難関では:
- ニュースパス
「だが「グレーな投稿の中には日本語の体をなしていないものもある。形態素解析ではうまくいかなかった」」
単純な判定では日本語がおかしい狂人は弾けないのか・・・
AI + スパコンの威力。
ディープラーニング+スパコン"kukai"
ニュースと関係ないけど、伊集院光のラジオのコーナー「Yahooクソ袋」まだやってるのかな。あれ好きだった│
わずか1日で6億件を処理、という記事。
記事の中では難しい事が書いてありますが、要は
・AI
・スーパーコンピューター
で投稿で自動チェックをしたということですね。
いつか宛メもAIを使うときが来るのだろうか・・・
「文を文字単位に分解して扱う深層学習的な処理を導入し、文の全体や文脈を踏まえて(内容を)判断する、パワフルなモデルを作った」
PEZYのグループ会社、エクサスケーラー社の液浸冷却技術を使ったスパコンが思いがけない大活躍!
――
「。。。っていう話、Yahoo知恵袋に書いてあったよ」ってよく言ってたw。。。グレーゾーンのを探求したい。。。
これはSEO的にも上位表示しているページの質が上がることに繋がりそう。ますます機械だな。
次はどんどん削除するようにしてくれないかね→
「液浸」。 -
「kukaiのリソースの半分(40nodes/80GPU)を使用~完了までにかかった時間は1日強。もともと約9カ月かかると想定していた処理時間を、約200分の1に短縮」

っょぃ
あっ某社のスパコンの話じゃん!!!(´・_・`) /
スパコンと機械学習のおかげで鬱陶しい知恵袋の投稿が減るなんて、なんか未来に生きてるみある
知恵袋ほんとに酷い。表示させないで欲しいっていうか存在しないで欲しいくらい。
6億件て。仮に10万ユニークアカウントでも平均6,000件。bot投稿の練習場にでもなってるのでは /
すごい!最新鋭の技術がちゃんと役に立つ事に使われてる!
ここで知恵袋読みにってみたら・・・う、うん
知恵袋はともかく、 のコメント欄は闇。 /
Yahoo!知恵袋をどこまで信用しているのかね?リテラシー力どうこうではなく、様々な情報が溢れてる社会であるからYahoo!側が対応をおこなってくれるのは非常にありが...
知恵袋自体サービス終了しろ
質問への回答をAIで自動化してくれ。
いらない何も捨ててしまおう…
あそこは日本語の通じない場所じゃなかったの(今更感)
「電気を通さない特殊な液体に直接ハードウェアを漬け込む『液浸』という効率的な冷却方法」!?:
『 ヤフー社内で何が起きたのか』 不快な投稿だけじゃなく、トンチンカンな回答やあまつさえそれがベストアンサーに選ばれているようなやつをどうにかしてほしい。害悪といっていい。
そもそも日本語としての体をなしていないツイートや投稿は、こういうのを避ける意味もあったのか(いや、多分違う
ツイッターに続き、掲示板まで汚い本音より綺麗な建前を求め出したか。そりゃ、掲示板も客商売だから当たり前か。と言うことは、内容がくだらないってこと。
低品質な人間と高品質な機械との戦いか。
おー、このビジュアルは、、 /
とある相談についてのやり取りを検索しても出てこなかったのはコレで消されたのか?なんの問題もないやり取りだったのに。処理すればいいってもんでもないだろうに。
「kukaiの出番だ」
これ凄すぎる!!
スパコンでディープラーニングぶんぶん回す力技だけど、すごい成果。
普通に質問しているのに、なんであんなに上から偉そうに回答(にもなっていない)をする奴がいるのかと本当に不快になることがありましたからね、英断です。
やっぱスパコンはすげぇや
「これまで社内でパトロールを行うなど対応してきたが、同サービスの投稿は約6億件にものぼり、全てのグレーな投稿を見つけ出すことは難しかった」
さすがYahooだ、、、!
クソみたいな質問は深夜の馬鹿力にネタ投稿を /
数ヶ月掛かっていた処理を、
1〜2日終わらせる事が出来るのは素晴らしい。

AIによって、人間が適切な場所に配分される事を望む。 /
不快な投稿より説教とか「私もわからないです」とか意味不明な回答を何とかしろ
自動判定で「白」「グレー」「黒」に分類。「黒」もさることながら、「グレーな投稿の中には日本語の体をなしていないものもある」そうで形態素解析では難しかったと|
やる気なさ過ぎだろと思ってたけどやる気あったのね。見直したわ
@kyuukanba SNSまではいかんですが、これとか。
(怖いもの見たさでちょっとだけ仕分けされたものを見てみたいようなそうでもないような?)Oo(-ω【みかん
スパコンと機械学習の話 /
はたらくAI /
>約6億件を処理するには、既存サーバでは約9カ月かかるという試算
>「kukaiの出番だ」

何そのツリーダイアグラム
ディープラーニング×スーパーコンピュータを使って6億件を1日で処理したとかすごい。
草しか生えない。
色々すごいww

"グレーな投稿の中には日本語の体をなしていないものもある。形態素解析ではうまくいかなかった"

"演算処理能力は、GPUサーバを使った同社のディープラーニング環境と比べて理論上約255倍という"
Twitterのツイートとそのリプライを学習データにするの面白い。 /
「低品質」をどう定義するか。また、非表示にする根拠は「ユーザー規約」なしでやっているようだが、いいのかなあ/
はてブ民コメはキツイけど、あれだけの規模となると専用が必要になるってことなんだろうな
食うかい?Now Browsing: -
中の人、OK webじゃないんだ?
kukai、プロダクションに載ってるのか。いいですね -
Yahoo!知恵遅れに不快じゃない投稿とかあったんか…?:
この記事面白い!→だが
AIの目をかいくぐる表現で不快な投稿をトップに上げる選手権が始まりそう /
知恵袋の不快な投稿をAIの力で非表示に、すごい
“グレーな投稿の中には日本語の体をなしていないものもある。形態素解析ではうまくいかなかった” /
すげええ //
えきしんのすぱこんですか。
Yahoo!知恵袋って検索で上位にくるから業者の宣伝投稿も多いんだけど、ちゃんと質問に正しく答えてる上に日本語も正しいから業者に有利な状況になってそう。 /  わずか1日で6…”
もこっちの生きた証が…
AI(とスパコン)の良い活用例ですね。いろいろと騒がれすぎなAIですがこういった現実的な実利がもっと注目されるといいな。
本屋とかでのエロ表紙ゾーニング提言に切れ散らかしてる人は、ヤフーが「規約違反ではないけど不快な投稿をトップから見えないようにしたこと」をどう思うんでしょう。「不快な投稿」ってめっちゃ主観だしね
液浸をはじめとするテクノロジーがスパコンの演算能力を下支えしており、その結果として今まで時間の制約で出来なかったような演算を出来るようになったんで...
Yahooってスパコン持ってたのか /
まずヤフコメじゃないかな? ヘイトスピーチの巣窟よ。 /
休日、深夜の違反投稿を投げっばなしジャーマンの人力検索よりはマシだわな。 /
「ヤフー初のスーパーコンピュータ…スパコンの省エネランキング「GREEN500」では世界2位を獲得」←ハードから開発したのか。すごいな。「もともと約9カ月かかると想定していた処理時間を、約200分の1に短縮できた」 / “「Ya
すげーマニアックな(セクシャルな)フェチの持ち主がマニアックすぎるが故に世の中に情報・コンテンツが無さすぎて知恵袋で質問を連投してる様をたまたま見てしまったとき、ここはヤバい場所だと思った。 / “「Yahoo!知恵袋」の不快な
質問の形を装ったプロパガンダも多いので、その撲滅にも期待したいです。 /
"電気を通さない特殊な液体に直接ハードウェアを漬け込む「液浸」という効率的な冷却方法を採用しており" 実物見たいなこれ
急に始まる説教もなんとかして欲しいなー…そういうのがベストアンサーになってるのを見ると質問者じゃないのになんだか悲しい気持ちになる /  ヤフー社内…”
ゴミ投稿は本人にしか見えない形で不可視化していって欲しい。削除すると気づいて対策してしまうので本人は書き込んだつもりにさせておこう。 /  ヤフー社…”
こんなシステムが作れるならば、正しい答えが書けるんじゃないか? /
リアル空海「投稿者の池の水を枯らしました」
サービス停止で全部解決。 /
kukaiは、2017年6月に発表されたヤフー初のスーパーコンピュータ。電気を通さない特殊な液体に直接ハードウェアを漬け込む「液浸」という効率的な冷却方法を採用しており

↑イメージが湧かない
すげーな。
Yahoo知恵袋って、変な投稿ばっかだと思ってたけど
今見ると変わってるのかな /
「日本語として成り立っていないので自然言語処理が使えなかった。そのためディープラーニングを活用した。」

日本語が成り立っていないってTwitterとかでも起きる現象。機械が文章をちゃんと認識できる日は来るのか!?(笑)
こりゃスゴい。
この活用はすごいな。9ヶ月という時間を1日に短縮できた経済効果は大きい。

相当な利益を会社にもたらしたわけだもんな。

次なる一手に期待するなー / 「Yaho...
ExaScaler のスパコンみたいですね。
スパコン×機械学習SUGEEEE案件
>Twitter上のツイートと、それに対する返事(リプライ)をペアにしたデータ数千万件を使った学習モデル

Twitterがこうやって活用されてるのか😲
「ツイートと、それに対するリプライをペアにしたデータ数千万件を使った学習モデル」←ツイッタ役に立ってるw QT @itmedia_news: 「Yahoo!知恵袋」の不快な投稿、見えないところへ わずか1日で6億件を処理
タイトル見てヘイト投稿対策かと思った。まあ、その気になればヘイト投稿対策も可能になるってことだな。 / - ITmed…”
伊集院のラジオのヤフークソ袋のコーナーkukaiに改名しそうだな。 ヤフー社内で何が起きたのか(ITmedia NEWS)
「中身があり質問への回答になっている受け答え」の教師データとして、ツイートとそれに対する返事を選ぶのは適切なのか?中身の無さは知恵袋とそう変わらなくない? /  わずか1日で…”
ディープラーニングで「グレー」な投稿を見分けて「目立つところ」では表示しないようにするという手法を取ったとのこと。 /  ヤフー社内で何が起きたのか…”
日本語の体をなしてないものは人間にも読みにくいので弾く対象にする→形態素解析でも十分→スパコン使う必要なかった みたいな話になっちゃわないかな /  わずか1日で6億件を処理…”
そういえばGyaoのアニメ欄も子供向けが上に、放送中作品は展開しないと見れなくなってた。ヤフーが変わる?:
グレーな投稿の中には日本語の体をなしていないものもある。形態素解析ではうまくいかなかった

ディープラーニング(深層学習)の活用だ。
いろいろと勉強になってはいたんだけど^_^ しかし液浸すげー
いいやつ。サービス内検索結果からもコントロールしたい…
すごい時短だ……考えればきっとこういう時短が生まれるのだろうな
ふふww6億件すごw
スパコンで機械学習させて、クソリプを消すとかヤフー頑張ってる。入社希望者増えそう
これはさすがに笑う “グレーな投稿の中には日本語の体をなしていないものもある。形態素解析ではうまくいかなかった” /
いい話

> グレーな投稿の中には日本語の体をなしていないものもある。形態素解析ではうまくいかなかった
こういうのまさしくAIの活躍領域だなー
"だが"
なんか感動した。
/「Yahoo!知恵袋」の不快な投稿、見えないところへ わずか1日で6億件を処理 ヤフー社内で何が起きたのか (1/2) - ITmedia NEWS
こんなん笑う→“「グレーな投稿の中には日本語の体をなしていないものもある。形態素解析ではうまくいかなかった」(ヤフーの清水徹さん)” /  ヤフー社…”
深層学習でのブレイクスルーではなく最後はスパコンという物理で殴るとwww /
不快な投稿とともに不快なコメントもなんとかするべき。
Amazonも、しょーもない中華メーカーの異様に高い評価をディープラーニングで排除してほしい。
スーパーコンピューター、クーカイ・・・徳エネルギーで動くコンピューターかな? 徳のみだれをふせぐためにサーバールーム内はマニ車禁止、坊主禁止、合掌禁止。
Webの全体的な傾向として、2000年初頭から15年位は「誰もが投稿できる(情報発信するための技術ハードルを下げる)」事に注力していたが、ここ数年はそれによって発生した問題を考える時期になっているのだろうか。 / “「Yahoo
あれでも減っているのか。 /
望ましい回答も自動生成されるようになり、やがて質問も生成され初めて人類が滅んだ後も続くサービスに / - ITmedi…”
kukai聞いたことあると思ったらPEZY社製のスパコンか
正解データどうやって作ったんだろ。大変そう。ディープラーニングを活用したと書いてあるが、どうやって適用したのか具体的にはこの記事だけだと分からないな。詳細も教えて欲しいけど、まぁ秘密だろうな・・ / “「Yahoo!知恵袋」の不
今年話題になったPEZY社のスーパーコンピュータKukaiの出番。きちんと仕事してるよ
NEWSグレーな投稿には、中身がなく質問への回答になっていないものや、アダルトカテゴリーではないのに年…
知恵袋の裏ではこんな知恵が…:
スパコンってすげぇなっていうのと課題を大量のデータを用いた技術で解決したいって人はヤフーみたいなところは楽しいんだろうと思った
ヤフコメとはてブはこれどうにかして欲しいな。Twitter で好意的なコメントしか見えなくても、ひどい内容ばっかり。中の人の努力に期待。
形態素解析を使わずにいけるのか。強い。 /
へぇ〜実際はどうなのか?
見てみよう。
掲示板にも導入して欲しいな。
↓スパコンkukaiでグレーな投稿を非表示に
”Twitter上のツイートと、それに対するリプをペアにしたデータ数千万件を使った学習モデルも作成。Yahoo!知恵袋の投稿内容を解析するモデルと組み合わせ「ある発言に対して、適切な返事を見つけられるよう学習させていった」”
運営の常識を超えるレベルの話で草
なんか残念だ…僕らの求めているものが消されていく>
わざわざスパコン使うくらいどから何か狙いがあるんですよね。きっと。
必読ですね
▼ ヤフー社内で何が起きたのか…
笑うしかない /
質問に説教で答えるとか、自分で調べろとかいう、クソリプはちゃんとフィルタリングされるのだろうか。 /
研究用途のスパコン持ってるんだ
液浸のkukaiだが、アルゴリズムとかハイパーパラメーターチューニングの話はどこかに無いのだろうか? >>
Yahoo!知恵袋久し振りに覗いてみようかな
>スパコン kukaiのリソースの半分(40nodes/80GPU)を使用し、投稿判定システムを起動。すると、完了までにかかった時間は1日強。もともと約9カ月かかると想定していた処理時間を、約200分の1に短縮できた。 / “「
明らかに偏差値の低いユーザ投稿を素材にスゴい賢いことしてる……。
28: たいへんに興味深いのだけれど具体的にグレーな投稿がどのように見える状況になったのかがこの記事からはよくわからなかった。 /  ヤフー社内で何…”
ヤフーがスパコン作ってたのビックリした /
“文を文字単位に分解して扱う深層学習的な処理を導入し、文の全体や文脈を踏まえて(内容を)判断する、パワフルなモデルを作った” character-level CNNかな。 / “「Yahoo!知恵袋」の不快な投稿、見えないところ
マシンパワーの正しい使い方やな
スーパーコンピュータ「kukai」(クウカイ)が導入されるまでは全てのグレーな投稿を見つけ出すことは難しかった。
“だが「グレーな投稿の中には日本語の体をなしていないものもある。形態素解析ではうまくいかなかった」(ヤフーの清水徹さん)という。そこで別のアプローチを採用した。ディープラーニング(深層学習)の活用だ。” / “「Yahoo!知恵
ディープラーニングとスパコンの使い方の良い事例 /
kukaiで天元突破する話だった
契約違反の投稿を何年も文句を言っても消さないくせに、AIを使ったらグレーのも消せるって、ただサボってるだけじゃねえのか。
だから日本のYahoo!は信用できんのだよな。
スパコンで機械学習
文字単位まで分解してから文意を再構築ってすごいなー |
知恵袋がKENZEN化したら知恵袋じゃなくなるYO!
「日本語の体をなしていない」日本語ってどんなのだろう。
「意味が通じない」日本語よりも、さらに上なんでしょうね。

>グレーな投稿の中には日本語の体をなしていないものもある。形態素解析ではうまくいかなかった
これが最適化されたらまた使いはじめます。
以上

記事本文: 「Yahoo!知恵袋」の不快な投稿、見えないところへ わずか1日で6億件を処理 ヤフー社内で何が起きたのか (1/2) - ITmedia NEWS

関連記事