TOP > IT・テクノロジー > 「Yahoo!知恵袋」の不快な投稿、見えないところへ わずか1日で6億件を処理 ヤフー社内で何が起きたのか (1/2) - ITmedia NEWS

「Yahoo!知恵袋」の不快な投稿、見えないところへ わずか1日で6億件を処理 ヤフー社内で何が起きたのか (1/2) - ITmedia NEWS

197コメント 登録日時:2018-11-02 08:13 | ITmediaキャッシュ

Q&Aサービス「Yahoo!知恵袋」は長い間、不快な内容だが規約違反ではなく削除できない「グレーな投稿」に悩まされてきた。解決するための処理には約9カ月かかると思われていたが、わずか1日強で完了したという。何が起きたのか。 (1/2)...

ツイッターのコメント(197)

ヤフーがスパコンで愚かな人間を何かしてる話を思い出したが知恵袋のこれだった
徐々にヤフー周辺の賢者がいなくなって、彼らの消息をしらべたらシビュフーシステムに同化されててショックをうけるはず。
もはやゲスい質問しかないという印象だったけど、変わるかもしれないなー
「どこで聞けばいいんだろう?」という質問に便利なサイトだからね
====
スパコンにAIを載せたのね。次は量子コンピューターにAIを載せる、だね。Yahooのお金があれば出来るよね。
でKUKAIってPezyのお友達なの?
自分は自作自演で占いとかトンデモに誘導する投稿が不快です
「Yahoo!知恵袋」不快投稿の検出,形態素解析ではうまくいかず「文を文字単位に分解して扱う深層学習的な処理を導入」,社内向けガイドラインから「正解データ」を作成,液浸スパコンkukaiで1日強で学習
いや、すごい。
マシンパワーと技術力で全力で殴っててすごい。機械学習をスーパーコンピュータで走らせて「もともと約9カ月かかると想定していた処理時間を、約200分の1に短縮」>
いやいや、全然まともに判定できてないから。ほんと真面目な人がブロックされたりしてるから。ヤフークオリティ最低。 / (…”
うわあ、知恵袋の「不適切な内容が含まれている可能性があるため、非表示になっています。」の諸悪の根源ってコレだったのか。何が問題なのか全く分からないものまでコレのせいで不適切扱い。最悪すぎて。しかもその判断の正誤はユーザー任せ。終わってるなヤフー。
ヤフー知恵袋の不快な投稿、見えないところへ - わずか1日で6億件を処理、 (ITmedia)
差別投稿にも適用されることを期待したい!
「蓄積された約6億件の投稿をまとめて処理するには、既存のサーバを使った環境では約9カ月かかるという試算が出たのだ。そこで清水さんは考えた。「kukaiの出番だ」と」 /  …”
ヤフー知恵袋にここまで投資する意味ってあんのかね
Microsoft Edge から共有:
「グレーな投稿の中には日本語の体をなしていないものもある。形態素解析ではうまくいかなかった」  AIに負けるも何も
Twitter上のツイートと、それに対する返事(リプライ)をペアにしたデータ数千万件を使った学習モデル,強そう
凄いよなぁ、これ。Twitter側にもフィードバックしてくれないかなぁ
見てる →
アンチが罵るだけのコメなんか早急に対応してほしいレベル。特にcarview。
これ、すばらしい🤖⭕❌
『 ヤフー社内で何が起きたのか』
「Yahoo!知恵袋は長い間、不快な内容だが規約違反ではなく削除できない「グレーな投稿」に悩まされてきた。解決するための処理には約9カ月かかると思われていたが、わずか1日強で完了したという」ほ〜〜
kukaiは、ちゃんと役に立ってるのね。
総合Q&Aランキング欄、以前と何も変わっていないのだが...
AI活用の模範解答って感じ
消してしまうと角が立つけど、「目立つところでは非表示」という選択は賢い。

【 NEWS】
ヤフーのスパコンkukai
ツイッターでも誹謗中傷とかマウンティングとかクソリプとか不快な投稿を処理するのに使ってくれないかな。
気になる記事ですね。
▼ ヤフー…
kukai初めて知ったけど、液浸方式だと、凹型に成るんだね液体が入ってるから当たり前だけど、新鮮!
ディストピアと一昔にSF材料にされていたものが、よもや現代病理への投薬になるなんて皮肉だな
ナナカヒナサタサアナカヒチフハヘ543*65
kukaiすごい
いろいろと改善されているのでしょうが、そもそも答えが間違っていることが多いですね。 →
その技術、ヤフコメのクソコメを削除するのに使ってほしい

- ニュースパス
「正解データ」を作るのが最大の難関では:
「だが「グレーな投稿の中には日本語の体をなしていないものもある。形態素解析ではうまくいかなかった」」
単純な判定では日本語がおかしい狂人は弾けないのか・・・
AI + スパコンの威力。
ディープラーニング+スパコン"kukai"
ニュースと関係ないけど、伊集院光のラジオのコーナー「Yahooクソ袋」まだやってるのかな。あれ好きだった│
わずか1日で6億件を処理、という記事。
記事の中では難しい事が書いてありますが、要は
・AI
・スーパーコンピューター
で投稿で自動チェックをしたということですね。
いつか宛メもAIを使うときが来るのだろうか・・・
「文を文字単位に分解して扱う深層学習的な処理を導入し、文の全体や文脈を踏まえて(内容を)判断する、パワフルなモデルを作った」
PEZYのグループ会社、エクサスケーラー社の液浸冷却技術を使ったスパコンが思いがけない大活躍!
――
「。。。っていう話、Yahoo知恵袋に書いてあったよ」ってよく言ってたw。。。グレーゾーンのを探求したい。。。
これはSEO的にも上位表示しているページの質が上がることに繋がりそう。ますます機械だな。
次はどんどん削除するようにしてくれないかね→
「液浸」。 -
「kukaiのリソースの半分(40nodes/80GPU)を使用~完了までにかかった時間は1日強。もともと約9カ月かかると想定していた処理時間を、約200分の1に短縮」

っょぃ
あっ某社のスパコンの話じゃん!!!(´・_・`) /
スパコンと機械学習のおかげで鬱陶しい知恵袋の投稿が減るなんて、なんか未来に生きてるみある
知恵袋ほんとに酷い。表示させないで欲しいっていうか存在しないで欲しいくらい。
6億件て。仮に10万ユニークアカウントでも平均6,000件。bot投稿の練習場にでもなってるのでは / -…”
すごい!最新鋭の技術がちゃんと役に立つ事に使われてる!
ここで知恵袋読みにってみたら・・・う、うん
知恵袋はともかく、 のコメント欄は闇。 /
Yahoo!知恵袋をどこまで信用しているのかね?リテラシー力どうこうではなく、様々な情報が溢れてる社会であるからYahoo!側が対応をおこなってくれるのは非常にありが...
質問への回答をAIで自動化してくれ。
いらない何も捨ててしまおう…
あそこは日本語の通じない場所じゃなかったの(今更感)
「電気を通さない特殊な液体に直接ハードウェアを漬け込む『液浸』という効率的な冷却方法」!?:
『 ヤフー社内で何が起きたのか』 不快な投稿だけじゃなく、トンチンカンな回答やあまつさえそれがベストアンサーに選ばれているようなやつをどうにかしてほしい。害悪といっていい。
そもそも日本語としての体をなしていないツイートや投稿は、こういうのを避ける意味もあったのか(いや、多分違う
ツイッターに続き、掲示板まで汚い本音より綺麗な建前を求め出したか。そりゃ、掲示板も客商売だから当たり前か。と言うことは、内容がくだらないってこと。
低品質な人間と高品質な機械との戦いか。
おー、このビジュアルは、、 /
とある相談についてのやり取りを検索しても出てこなかったのはコレで消されたのか?なんの問題もないやり取りだったのに。処理すればいいってもんでもないだろうに。
「kukaiの出番だ」
これ凄すぎる!!
スパコンでディープラーニングぶんぶん回す力技だけど、すごい成果。
普通に質問しているのに、なんであんなに上から偉そうに回答(にもなっていない)をする奴がいるのかと本当に不快になることがありましたからね、英断です。
素晴らしいな
やっぱスパコンはすげぇや
「これまで社内でパトロールを行うなど対応してきたが、同サービスの投稿は約6億件にものぼり、全てのグレーな投稿を見つけ出すことは難しかった」
さすがYahooだ、、、!
クソみたいな質問は深夜の馬鹿力にネタ投稿を /
数ヶ月掛かっていた処理を、
1〜2日終わらせる事が出来るのは素晴らしい。

AIによって、人間が適切な場所に配分される事を望む。 /
不快な投稿より説教とか「私もわからないです」とか意味不明な回答を何とかしろ
自動判定で「白」「グレー」「黒」に分類。「黒」もさることながら、「グレーな投稿の中には日本語の体をなしていないものもある」そうで形態素解析では難しかったと|
やる気なさ過ぎだろと思ってたけどやる気あったのね。見直したわ
(怖いもの見たさでちょっとだけ仕分けされたものを見てみたいようなそうでもないような?)Oo(-ω【みかん
スパコンと機械学習の話 /
はたらくAI /
>約6億件を処理するには、既存サーバでは約9カ月かかるという試算
>「kukaiの出番だ」

何そのツリーダイアグラム
ディープラーニング×スーパーコンピュータを使って6億件を1日で処理したとかすごい。
草しか生えない。
「グレーな投稿の中には日本語の体をなしていないものもある。形態素解析ではうまくいかなかった」
色々すごいww

"グレーな投稿の中には日本語の体をなしていないものもある。形態素解析ではうまくいかなかった"

"演算処理能力は、GPUサーバを使った同社のディープラーニング環境と比べて理論上約255倍という"
Twitterのツイートとそのリプライを学習データにするの面白い。 /
「低品質」をどう定義するか。また、非表示にする根拠は「ユーザー規約」なしでやっているようだが、いいのかなあ/
はてブ民コメはキツイけど、あれだけの規模となると専用が必要になるってことなんだろうな
食うかい?Now Browsing: -
中の人、OK webじゃないんだ?
kukai、プロダクションに載ってるのか。いいですね -
Yahoo!知恵遅れに不快じゃない投稿とかあったんか…?:
この記事面白い!→だが「グレーな投稿の中には日本語の体をなしていないものもある。形態素解析ではうまくいかなかった」
もっと見る (残り約97件)

記事本文: 「Yahoo!知恵袋」の不快な投稿、見えないところへ わずか1日で6億件を処理 ヤフー社内で何が起きたのか (1/2) - ITmedia NEWS

いま話題の記事