AIデータ時代のネットワークとセキュリティについて

SoftBank AI部Advent Calendar 20199日目の記事です!Junya@akatsubakij)と言います。 Software DesignのイベントでAI部創設者(@kmotohas)さんに「書きましょう!」と言われ、折角ですし書いてみました。

自分について簡単にプロフィールを。

  • 2019年度新卒。仙台にある国立牛たん大学の情報学修士を取得し入社。
  • 現在は全国基地局の新設で扱うWebアプリケーションを作りつつ、本部内でKaggleとかやってます。
  • 10月のSB AIハッカソンで準優勝しました(Advent Calendar発案者のコミさんがいたらしいですが、ネット情報に疎いもので...いつか会えたら嬉しいです)

大学院ではヘルスケア×ネットワークをやっていました。セキュリテイもまぁそこそこ詳しい方です。 本記事では、昔の専門を絡め

AI時代やデータ時代におけるネットワーク・セキュリティとの向き合い方

を綴っていこう思います。

【前置き】自分の浅はかな知識のもとに綴っていきますので御了承ください

Communication Infrastructure on the Life

そもそも大学で情報通信の基礎って今習うんでしょうか?TCP/IPや情報通信理論(シャノン・ハートレーの定理)とか。このご時世そんなの知らなくてもスマホ繋がるし!という感じでしょうが、私達のインターネット時代を支える大事な分野です。興味ある人はマスタリングTCP/IPを読んでみてください。

ネットワークと聞いてほとんどの人が興味あるのはIoTでしょうか。計算機小型化によってRaspberry Piなどが登場してからは、すっかりIoTという言葉が世間に定着しました。 ネットワーク分野ではよくエッジネットワークと呼ばれたりします。クラウドコンピューティングの「データを吸い上げて中央集権的に処理する」という考えに反して、「末端のデバイスの計算機リソースも活用しよう」という考えから生まれたものです(フォグコンピューティングというクラウド、エッジの中間に位置するレイヤーもありますが今回は割愛します)。

また、ネットワークの話をする時に外せないのがセキュリティです。こちらも大学の講義で最近はやってないんですかね...?自分は研究室時代にenPiTと呼ばれる、文科省の高度情報人材育成プロジェクトに関わらせていただきセキュリティの知識を伸ばしました。「セキュリティってハッキングとか勉強するんでしょ!」って昔の自分も思っていましたが、sそれはあくまでネットワークセキュリティの一分野であり、ほとんどは暗号化、データに関する法制度、プライバシなどの話の方が個人的には多い印象でした。法律の話ってしんどい。

AI and Network

AI部向けの記事ということで、AIとネットワークの関連性について触れたいと思います。

まずは2020年商用開始と宣言されている5G。研究界隈では結構AI活用化が進んでたりします。 Yaoらの研究では、5Gを構成する重要な3要素のMassive MIMO、超ミリ波技術、超高密度ネットワークをDeep Learningにより最適化しようとする記述があります。

arxiv.org

(2019 IEEE Communications Magazineという情報通信系のトップジャーナルへ採録

ネットワークの研究で一番注力されるのは「ネットワークリソースを有効活用する」ことです。Twitterしか見てないのにAmazon Prime Video並みにネットワークを圧迫していたら即パンクしてしまいます。QoSというキーワードをベースに、これまでいくつもの最適化研究が行われてきましたが、DNN(Deep Neural Network)の登場により、その最適化機構へ機械学習を活用していく動きが出てきています。特に無線ネットワークであれば、電波の衝突やシグナルの最適化を、時系列に強いであろうRNNを活用したりできるという意見もあります。

また、高密度ネットワーク(ultra dense networkと言います)もAIの技術を掛け合わせればもっと良いものになります。高密度ネットワークは、いわゆるイベント会場のような無線電波が密集したような空間です。自分も研究でそのような環境を再現してましたが、電波干渉がひどくパケットロスも大きいです。IoT環境では端末数が増大するので、こうした懸念点を解消する必要があります。解決方法としては様々ですが、ネットワーク全体でスケジューリングアルゴリズムを適用したり、Deep LearningとBeamforming(特定箇所での電波受信強度が最大化するような技術)で電力効率を最大化したりするのがここ数年の動向だなと自分は捉えています。

一方で、ネットワークへのAI適用はまだまだ課題があります。 1つ目、まずどの文献でも出てくるのが「セキュリティとプライパシ」です。ネットワークは私達の生活を支えています。チャンネルのハイジャックもそうですが、AI時代で恐れているのは、意図しない学習やデータを与えることです。もしAIがそのような攻撃をされてしまえば、セル(無線ネットワークの最小単位)を乗っ取ることも可能です。私達は、AIが最適化するようデータを与えつつ、AIが誤った方向に学習しないよう制御しなくてはいけません。セキュリティの話は次節でまた詳しく述べます。

2つ目、エッジAIの可能性です。最初に述べた末端デバイスでいかにAIを適用していくかです。スマートフォンはだいぶ進化したものの、IoTデバイスはまだまだ計算機リソースが貧弱です。半永久的に動作し続ける未来はまだまだ先でしょう。とは言え全てのデータをクラウドに集中させるのは、レイテンシと汎化性能という面では適していないと考えています。データの処理フローへどのようにAIを活用化させるかは、今後も課題となっていくでしょう。

3つ目、これはAIはあまり関係ないですが標準化という問題です。皆さん、Raspberry PiiPhoneArduinoを繋げてみてくださいと言ったら、Wi-Fiルータ経由しか今は思いつかないでしょう(他の方法が思いついたあなたは天才です!!)。今は、何かしらの端末がゲートウェイ的役割を果たす必要がありますが、今後色んなデバイスを柔軟に直接的に接続していくプロトコルも必要ではないかと考えています。iPhoneAirDropなんかは独自規格ですが、クラウド経由せずiPhoneでダイレクトにやり取りをする規格です。このようなプロトコルがIoT界隈に出てくると、世界はグッと変わるんじゃないかと思います。

AI and Security

以前、米国Open AIでパンダの画像にノイズを加えるとテナガザルとして判定されるという話が話題になりました。もしルパンみたいな人が世の中に実在したら突破されてそうですね!

openai.com

もう一つ興味深い研究で、AI学習に対するポイズニング攻撃があります。 ポイズニング攻撃とは、その名の通りポイズン=毒を仕込むことで、意図しない動作を狙う典型的な攻撃手法です。

DNSキャッシュポイズニンングという攻撃手法をちょっと紹介します。皆さんは普段、google.com のようにURLを踏んでサイトに飛ぶわけですが、ネットワークでは 1.2.3.4 みたいにIPアドレスに変換をかけます。これがDNSの仕組みですが、普通はこれをDNSサーバを経由してIPを取得します。しかし、毎度のようにDNSサーバへ問合せをかけるとサーバに負荷がかかるので、DNSキャッシュサーバを用意しておきます。こうすると、中のネットワークからインターネットに出る時に、キャッシュが残っているので瞬時に名前解決でき期待通りのサイトへアクセスできます。DNSキャッシュポイズニングでは、このキャッシュサーバへ攻撃を仕掛けることで、ユーザが定期的に踏みにいくようなIPアドレスを悪意あるサイトへ誘導しようとする攻撃です。

この文献では、機械学習でも同じようなポイズニング攻撃ができることを述べています。 簡単に要約すると、学習モデルを認知しているという前提で、そのモデルが学習していく過程で特定のデータのみ間違ったラベル付けをするように学習を誘導していくという手法です。他のデータの学習精度をなるべく下げることなく実現可能です。2018年に出たものですが、DeepFakeなども話題になっていますし、日本語記事も増えていきます。詳しい解説をみたい方はそちらを(ここで数式解説とかすると長くなります)。

arxiv.org

今後、AI社会やデータ社会が浸透してくるにあたり、考えるべき課題を述べます。

1つ目は、データの信頼性です。実はこれネットワークとも関わってくる部分があります。「いつ、どこから」来たデータを今後見極めていかないと、学習が全てのデータに対応しようとしmalliciouswareを仕込まれてしまいます。IoT環境整備してデータ集めてオンライン学習(逐次学習)やろうとしても、その環境内に脅威的なノードを仕込まれた場合、学習が気づかぬうちに悪い方向へ収束していくかもしれません。

2つ目は、プライバシです。AIが進化しようと、データ時代が来ようと、人間は生き続けます。AさんがTwitterで裏垢を使ってたとすると、AIの技術が進化して本来秘匿化したいはずのAさんの裏垢が、Aさんの属するコミュニティに暴露されたらどうでしょう。それくらい、データ相関を見るのはコンピュータは得意ですし、Aさんのそうした情報は守っていかなければなりません。AI部 Slackでも話題になっていたので言及しますが、データの譲渡・売買に関してはこれからも課題になっていくでしょう。悪意ある人間は、常にその瞬間を狙っています。近年ではNTT研究所が暗号化情報でも深層学習可能なモデルを開発したということで話題になりました。 データを秘匿化しつつ、AIも最適化していく。永遠の課題でしょう。

www.ntt.co.jp

Conclusion

拙い文章でしたが、ネットワークとセキュリティに関わってきた自分が、「これからはAI時代」と謳う企業に入って何を感じているかを簡単にまとめました(本来はきちんとサーベイした後にまとめるべきでしたが…)。

自分がこうしてネットワークについて言及するのは、それが現実空間とサイバー空間を往き来するための架け橋となる技術だからです。自分は「仕事を0にプライベートを100に」できるような世の中にしたいなと思っています。AIであろうと、他のコンピュータサイエンスの技術がどんなに発展しようと、あちらの世界へ触れるにはネットワークというものが必要不可欠です。内輪の話ですが、この会社に属する皆さんだからこそ、きちんとネットワーク・セキュリティに守られた上で新しいソフトウェアを生み出していけることに少しでも感謝していただけたらなと思います。

一応AI部ということで、こんな記事も書いてますのでよろしければご一読ください。 良いお年を。