「GAFAの次の新時代へデータテックがもたらすデータ解放革命」 皆さんこんばんは。AOSリーガルテックの代表の佐々木です。「データテック」という書籍を出しましたので、どういう内容を書いたかということを私と志田の方からご説明させていただきます。「GAFAの次の新時代へデータテックがもたらすデータ解放革命」についてご説明します。 こちらは、今年に2月に掲載された日経新聞の記事です。なぜ動かないAIが続出するのかとありますが、今は、毎日、新聞を見るとAIの記事が出ない日がないくらいですが 実はAI利用者の6割くらいがデータに悩まされている。「データはあるが使えない」企業が35%、「そもそも収集出来ていない」企業が18%、「どんなデータが必要なのかが分からない」企業が3%、「十分にそろっている」という企業は、10%とのことです。殆どの企業は、データは使える状態になっていないということです。私も本を書くにあたりいろいろなAIプロジェクトの状況がどうなっているかを調べたのですが、実は驚いたことがあって、AIで利益を上げている会社は驚くほど少ない。IT活用の延長として、合理化を実現して成果を上げている会社はありますが、これは、賢いAIではなく、作業効率化の意味で、ITの延長線上で成果を上げている会社です。しかし「賢いAI」というのは、人間のような知能があるように動作して、いわゆる、人工知能を活用して、成果を上げている会社というのは恐ろしく少ない。取材させていただいたら、多くの企業が失敗しているか、コストがかかり過ぎて途中で断念していることがわかりました。これは一体何が問題なのだろうという問題関心が起こりました。 私たち自身、AOSグループも実は日本No.1のAIクラウドバックアップを持っていて、6ペタバイトくらいデータを持っています。いまAmazonのAWSを使っているのですが、日本で指で数えられるくらいの上位の企業として、多くのデータを預けています。 現在、60万人のフルデータを預かっています。それをAIにかけたら何が起こるかということですね。有料サービスをやっているのですが、お客様から頂いている料金では値段では合わないくらいにコストがかかってしまいます。これだけの規模でやっているのに利益が上がらないというのは、どういうことなのだろうと思いました。我々はリーガルテックという会社もやっているのですが、そこで大量のデータを証拠として調べるという作業もやっています。最近、品質偽装の問題やデータ改ざんなどの事件が多発しています。こういう事件が起こると、時には、何百万通というメールを調べることになります。しかも、第三者委員会が立ち上がっています、訴訟になっていますという状況で非常に短い時間で調べないと いけない。人を雇うわけですけれども、人間が機械的にやるだけでは到底終わらないので、人工知能の技術を活用して対応しています。しかし、ものすごいお金がかかってしまうわけですね。有事だからいくらかかってもしょうがないということで、対応しますが、平時で普通に収益を上げながらやるという場合には、到底成り立たないくらい膨大なコストがかかります。なぜこんなにコストがかかるのでしょうか? 一方で今我々はどういう時代にいるのだろうということですが、いま、第四次産業革命が始まったと言われています。その前の時代は何だったかというと、第三次産業革命はコンピュータによる自動化です。いわゆるIT革命です。その前の第二次産業革命は、電力による自動化。その前の第一次産業革命は蒸気機関による自動化。今、我々はどこにいるかというと第4次産業革命の入り口に立っているということです。 これは経済産業省の資料ですが「新産業構造ビジョン」。このまま現状ルートを行くとジリ貧になってしまう。しかしここで転換すると世界のリーダーになれると書いてあります。ですから政府は、データ駆動型社会とか言っていますが、新しい社会を作るのにデータが大事ですよと言っています。しかし、データをそのまま使おうとするとコストばかりかかって上手く使えない、これは一体何が起きているのか?という問題です。 第四次産業革命のキーワードというのがあって、我々は「ICBM-5BAA」というキーワードで定義しています。産業革命が起こるときは、実は社会的な状況だけで革命が起こるわけではなくて、技術革新によって革命が起こるのです。例えば蒸気機関が生まれたことにより第一次産業革命、電気という技術が生まれて第二次産業革命。コンピュータやITが生まれたことで、第三次産業革命。第四次産業革命を起こすのもやはりテクノロジーなんですね。テクノロジーのキーワードは何か?「ICBM-5BAA」。I:IoT、C:Cloud、B:Bigdata、M:Mobile、5:5G(第5世代通信ネットワーク)、B:Blockchain、A:API、A:AI。これが革命を引き起こすテクノロジーです。 もう一つ重要なことは、これらの解決策を使ってデータをどう活用するか?ではこれからデータをどうやって使うのか?今まではデータをどのように使ってきたのか?それをまとめたのがこの表です。最初はファイルシステム。1960年代から70年代。データがだんだん増えてきて、1970年代にデータをどこかにまとめて入れられないかということで初期のデータベースが生まれました。今度はだんだんデータが増えてくるので、それをうまく参照 しやすいようにということで、RDBが登場しました。これが1970年代の半ば。第四世代になるとオブジェクト指向やRDBの拡張版が出て来ました。その次に出てきたのが、1990年代からXML。実はもうXMLが出てから20年ほど経過していますが、思ったような効果を発揮していません。「それ」が何かというのがこの本のテーマでもあるのですが、XMLをうまく活用できないボトルネックが何かを紐解いてゆくと、次の時代のXMLをベースにした新しい社会が生まれるのではないかというのが本書のテーマです。 なぜXMLが必要かというと、世の中のデータは大きく分けると構造化データと、非構造化データに分かれるのですけれども、構造化データというのはデータベースです。非構造化データは何かというと、実は一番典型的な非構造化データは「紙」です。紙じゃないとしても.PDFとか、ワープロのデータ(ワードデータ)、パワーポイントのデータです。あと動画データとか、写真データ。非構造化データとは、そのままだと人工知能が処理できないデータ。これを人工知能やビッグデータとして解析できるようにするためには、この非構造化データを、構造化データに変えないといけない。そうしないと人工知能とかで上手く処理でき ない。なんでデータ加工にコストがかかるかというと、世の中にあるほとんどのデータが非構造化データだからです。 この話は実はとっても面白い話なんです。今はGAFAの時代と言われますが、検索して出るデータも実はこの構造化データなんですね。世の中のデータのうち、検索して出てくるのは実は3%くらいと言われています。残り97%のデータは実は検索しても今は出てこないデータです。ではどのようなデータかというと、我々の健康の情報というのは、これは検索しても出ないです。そちらがもっと大事なのに。一般的な病気になったらどうなるという情報はありますけれども。それぞれの個人の健康データというのは実際に検索しても出きません。我々がお金をいくら持っているのか?これも検索しても出てこない。それ以外にも法律データ、実は裁判のデータもほとんど出てこないのです。 そういったものが今は非構造化データになっていて、97%のデータがそのままでは活用できないデータなんです。だから今、GAFAと呼ばれる巨大企業が大量にデータを所有していて、もう勝負がついたように言われていますが、実はまだ勝負はついていないのです。 残り97%のリアルデータはまだ使えるような状態になっていない。これをどのように活用できるようにするかということが、データ革命なんですね。我々日本人は、もともとJapan as No.1と言われた時代がありましたけど、これはなぜ成功したかというと実は製造革命。電気や自動化で、一瞬世界の頂点に立ったようなものなんですね。その時は日本が一番すごいと言われていました。ところがIT革命というのが起きて日本の製造業は、皆ボロボロになってしまいました。我々は、どこで間違えたんだということですが、目に見えるものづくりで成功した国が日本。目に見えないIT革命が起こった時に、この流れにうまく乗れなかった。ITをうまく活用できなかったから成長が出来ずその間に他の国がどんどん成長した。なぜ成長できなかったのか?それは前時代の覇者だったから。革命が起こった時に前の時代の覇者が次の時代の覇者になった例は歴史的には一件もありません。また、どんなに栄えた文明も必ず衰退して行く。これは生命のライフサイクルと同じで避けられません。だから、前時代に成功したものが次の時代で成功するということは、革命が起こるときには、そうならないという構造的な話です。既得権益者が次の時代への移行を阻むからです。いまも過去に製造業で成功した人たちは、俺たちはいいものを作れば、また、成功できる、という人がたくさんいますが、今、大きく成功している企業は、ものをほとんど、自分たちで作っていないですよね。ただ、再びもう一回チャンスが来ました。これから先のデータをどのように利活用するかという勝負について、まだ決着がついていないのです。あと「革命」と言っているんですね。前時代の覇者は実は次の時代の覇者にはなれないという法則が成り立つかどうかというのが面白い点です。 つまりデータを構造化させる必要があるということなのですが、ここでちょっとお題なんですが。データを構造化するためにはタグをつけていかなければならない。これが実は大変な作業で、XMLデータを作るというのは実はプログラマでなければできない。それが実は膨大な手作業になります。これを分かりやすく言うと、「紙を何回折ると、月に届きますか?」ということで理解することができます。紙の厚さが0.1mmだとして、1回たたむと、厚さは、0.2mm、次は0.4mm、次は0.8mm、どんどん畳むとどんどん厚くなります。では何回畳んだら、月まで届くのか?実は計算上は、42回たたむと、月に届きます。結構少ないんですね。これとXMLでデータを作ることとは似ているのですが、答えは、42回。計算すると本当にこうなります。思ったより少ないということです。逆にやってみれば 分かります。絶対に紙は、42回たためません。紙を42回畳んだら、月まで届きますから。これがパラドックスなんですけれども。XMLのデータを作るときに、プログラマにあなた42階層のデータを作れますかというとできると言う人がいますが、実際にやってみると、いつまで経っても出来ない。 計算すると45億年かかってもできない。つまり地球がもう誕生するぐらいの時間をかけても出来ないくらいの作業量となります。AIのプログラムがなぜ失敗するかというと、ちょっとしたデータの加工までは手作業で出来る。しかし、本格的にビッグデータを活用してAIで処理させようとすると、いつまで経っても終わらないということになってしまいます。 これが実はAIが失敗する一番の理由となります。 では、そのビッグデータを活用する、市場、マーケットはどこにあるか?その市場は価値のあるデータを持っています。高いデータ、価値のあるデータを持っているのは市場は、どこか?いろいろありますが、絞っていうと3つになります。一つは法律データ。法律データは幅が広い。訴訟データ、契約者データなどもあります。そして、さっき申し上げた医療データ。後は金融データ。この3つの市場が一番大きなマーケットを持っています。ここがデータテックのメインターゲットとなる市場です。 例えば現状の医療の話をしますと、ご存知の通り今、医療費が膨張してこの国がつぶれそうになっています。何をしなければならないかと言うと、医療の効率化をしないといけない。効率化を図るための課題は何かというと、医療データの利活用が必要です。しかし、実際には、カルテ情報の半分は、まだ、紙の状態です。電子化が進まないという問題と、せっかくデータベースに入れていても、それを解析するのに時間がかかる。そして、自由にやり取りが出来ない。我々の健康情報はカルテになって、病院に格納されているわけですが、他の病院には持ってゆかないですよね。制度上は、患者さんが要求したら必ず出さなければならないということになっていますが、実際にそれをやっている人はほとんどいない。例えば、毎年健康診断を受けますが、実際に病気になった時に健康診断の結果を病院に持ってゆく人はほとんどいません。そうすると病院に来て、また検査する訳です。しかも、今は、大病院は、初診をほとんど受け付けない。まず、町のクリニックに行くことになります。それでクリニックで手に負えないと、紙の紹介状をもらって大病院に行きます。紹介状がないと受け付けてくれない。そうするとまた検査をやります。その時にデータを持って来る人はほとんどいないので、また、再検査になります。ですから、その都度の検査費用がかかるということになります。その結果医療費が膨れる。医療費が高騰すると、結局、この国がつぶれるかどうかというところまで、来てしまいます。これは何とかしなければならない。そこでXMLをベースにした次世代の医療システムというのを作ることが必要になります。 なぜ、XMLか?もともと医療業界にはXMLでデータベースを作るという約束事になっています。まだまだ紙の利用が多く、XMLに変換されて、それを自由に交換するという世界に行けない。何かが阻んでいるんです。それと解決しないと次世代の医療システムは作れません。従来の医療システムと次世代の医療システムと何が違うかというと、今の医療システムは入力が中心。入力することに中心があって、それをどう活用するかに重心が置かれていない。活用するところまで行っていない。あと非構造化されたデータが多いので、例えば動画データや写真のデータですね。そのままでは人工知能が処理できない。構造化データに変えないといけない。あとテキストデータも非構造化データ。お医者さんのカルテは実は普通の人が見ても分からない。意味が分からない。実は人工知能の最大の弱点は、言葉の意味が理解できないということ。人間は読むと一応分かります。それでもカルテに書かれている内容は、理解が難しいです。現状では、また、言葉の意味が理解できる人工知能を作った人はいません。どうしたらいいのか?一個一個意味を付けたらいい。それがXML。これは血液型のデータです。つまりこれは血液型のデータですというタグが付いていたらA型が血液型だと分かるのです。しかし、タグが付いてなければ香港A型なのか、血液型のA型なのか分からないのです。読み間違えてしまうととんでもないことになります。そういう状態だと、まだ、まだ、人工知能を医療で本格的に使うことが出来ません。だから必ず構造化されたデータが必要になるのです。 あともう一つ重要な点は、ブロックチェーン。健康情報の著作権は、我々の体の情報なので私たちに著作権があります。お医者さんが作成するので、自分のものになっていない。かといってそのままお医者さんが公開しても問題が起こってしまうので、どこかでこの流れを変えないといけないのですが、基本的にはブロックチェーンを使って自分の健康データをどう管理するかが、今後の医療改革のキーワードです。ところがブロックチェーンの記事をしょっちゅう見ますけれども、実はビットコインをはじめとして、本当に実用的なブロックチェーンで世界中の人たちが実際に使っているものを作った人がまだいないんです。いろいろな人が挑戦していますけれども。ではどこがボトルネックになっているのか?この話は、後で志田が話しますので、これくらいでやめておきますが。 あとは法律データですね。これはですね。我々はスマート電子契約について発表しましたが、何をやったかというと、ブロックチェーンの契約書。ブロックチェーンの契約書は改ざんが出来なくなる。あと法律検索も、我々は実際やってみたのです。次世代の法律検索エンジンを作りました。これは、データベースをほとんど使っていないです。そうするとものすごく高速で動きます。しかも、非常にローコストで作れました。 最後は金融のデータをどうするかということですが、ご存じない方もいらっしゃるかも知れないですが、XML電文というものがスタートしているんです。今までの振り込みデータというのは固定長データ。振り込み先というとカタカナしか出ないじゃないですか。いま時、何故、漢字がなんで入れられないかというと、固定長で短い文字でしかデータを入れられないからです。自由にデータを書き込めなっかった。ところがちょっとこれではマズいと いうことで、国が指導してXMLデータ化がスタートしました。2020年には完全には、振込データは、XMLデータに移行する予定です。それで、何ができるようになるかというと、振り込みデータ、いままで固定長だったやつが、XMLデータという可変長になり ます。何が違うかというと、いろんなデータが入れられる。伝票番号だってタグをつけて入れられる。そうすると振込データの自動消し込みが出来るようになります。そうなると何がうれしいか?いまは日本中の企業が、月末だというと、なぜ皆が忙しくなるかというと、お金を振り込みましたというと入金確認しないといけないからですね。日本中の企業が月末になると、この確認作業を手作業で行っています。これが、自動化できれば、随分楽になります。振り込まれる筈のお金が、口座に振り込まれていないと、相手先に電話をかけて、入金確認しましたが、お金が入っていませんという連絡を入れます。そうなると、あっ、忘れていましたと言って、入金手続きをすると、また電話をして、確認してくださいとなる。 少なくとも中小企業レベルでは毎月こういうことが行われています。XML電文にすると何がいいのか?というと、付加情報が入っているので自動消込ができます。これだけでも ずいぶん省力化できる、だから政府が主導して、XML電文化を進めているのです。 ところがこれだけでは不完全です。何が問題かというと、元の契約書とか伝票が紙では、人間じゃないと読めません。そうなると結局人間の作業は無くならないのです。では逆に、契約書や伝票がXMLデータならどうなるでしょうか。ワープロのデータの場合は、甲、乙と契約書に書いてあっても、人工知能は、亀の甲羅なのか、取引先のことなのか意味が分からないのです。しかし、XMLのタグが付いていればこれは取引先だと分かります。例えば仕切り60%と書いてあり、それに支払い期限というタグが付いていると、60%が取引条件でいつまでに処理すればいいということを人工知能が理解できるようになります。これが大事なんです。人工知能が読み取れて、その取引をほとんど自動化出来るようになるので、単純に言うと契約書をXMLの契約書に変えるだけで、法務と経理の仕事の8割、9割は自動化出来る可能性があります。それをやろうとしているのが、スマート電子契約。こちらも、このあとは志田の方からご説明させていただきます。