みなさん、こんにちは。GCI チュートリアルへようこそ。本チュートリアルでは、GCIで研究を行うために必要な基本的なデータ分析の技術について解説します。
ただじっと読むだけではなく、実際に手を動かして課題に取り組むことで着実に技術を修得することができます。ぜひ、実際にコードを書きながら進めていきましょう。
GCI チュートリアルの冒頭である本項では、データサイエンスについて説明します。
何気なく生活していても、ふと周りを見渡すと私達の身の回りにはデータにあふれていることに気付かされます。
たとえば、さっきスーパーで買ったペットボトルのお茶とおにぎり。私達にとってはただの買い物、難しく言えば消費行動ですが、この間にもたくさんのデータが生成されています。「誰が」「いつ」「どこで」「何を買ったのか」といったデータがレジを介して収集されているのです。
もしポイントカードがあったら、「何日ぶりにこのスーパーに来たのか」「いつもどのくらい買っているのか」といったデータも紐付けられるかもしれません。何気ない一つひとつの行動がデータを生み出しているのです。
あなたがスマホで見ている Twitter のつぶやきももちろん立派なデータです。誰がどんなことに興味を持っているのか、いつ何が起きたのか。ユーザの気持ちや行動を表したデータです。
このようにして周りを見てみると、リアル、ウェブ関わらず私達は日常生活を通してデータを生み出していることがわかります。何かを消費しているのにデータを生み出している。ちょっと不思議ですね。
このように私達の生活の周りにはデータがあふれています。
ただ、データはデータのままだと何も役に立ちません。
数字や文字の羅列を見せられても、私達が頭で覚えられる量には限界があります。
数字と文字の羅列を眺めて何か意味を見出すのも、私達にとっては難しい作業です。
明日からの私達のアクションを変えるには、データをデータのままとらえるのではなく、データから情報を得る必要があります。
データは客観的事実を記述したものである一方、情報は知覚したひとの思考や行動を変えるものと定義されます。
データから得られた情報を知覚した人の行動が明日から変わってこそ、データサイエンティストがデータを扱う付加価値があるのです。
データサイエンスとは、データから情報を抽出し、人の思考または行動を変化させることということができます。
データから情報を抽出することは、とても簡単に出来る行為です。
たとえば、あるカフェで働いているのなら、毎時間のお客さんの数をノートに記録するだけでデータを集めることができます。
そして集計した結果、平日よりも休日の方がお客さんの入りが良いという情報がわかるかもしれません。
そこで試しに休日は外にも椅子とテーブルを出せば、もっとたくさんのお客さんがコーヒーを楽しめるようになり、売上があがるかもしれません。
しかし、近年ウェブとリアルで集められるデータはとても紙と鉛筆だけで太刀打ちできる量ではありません。
そこで大きな武器となるのがコンピュータです。
コンピュータは私達人間とは違い、ミスなくデータを処理してくれます。疲れることもありません。
データを扱う上では、必ずミスをしてしまう人間よりも圧倒的に向いています。
この強力な召使いとなるコンピュータに、正確に間違いがないように指示を与えるための方法がプログラミングなのです。
プログラミングができるようになることで、この強力な武器を使いこなして我々のまわりに溢れるデータから情報を抽出できるようになるのです。
ここまででなぜデータサイエンスが重要なのか、なぜプログラミングを学ぶ必要があるのかを理解していただけたと思います。
では、本節の最後に GCI での研究のすすめかたについて簡単に説明したいと思います。
まず、研究を通して達成したいことを設定します。GCI での企業との共同研究では、実際に企業が抱えている問題を対象にすることが多いです。たとえば「ユーザにもっと良い商品を推薦したい」「商品の競合関係について知りたい」などでも良いでしょう。
ここで重要な事は、研究成果がビジネス上のアクションにどう結びつくのかを考えることです。ここは十分に議論を重ねて課題を共有し、研究の目標を設定します。
とはいえ、目的が定まったところでいきなり解決策が浮かぶわけではありません。まずは対象となる問題の概要をつかむところから始めると良いと思います。たとえば、どんなにわかりきっていることでもいいから、データの統計情報を出してみる。性別、年齢、購入日、登録日、商品カテゴリ、様々な角度からデータを眺めてみる。そうすることでこれから戦おうとしている戦場の概形が見えてきます。
ここで重要なことは、肌感を合わせるということです。ビジネス上有用な知見を出すにはデータが扱えるだけでは十分ではありません。データを取り巻く環境・文脈について十分に理解した上で分析に取り組まない限り、同じ数字でもそこから汲み取る意味が変わってきます。実際に対象となるウェブサービスを使ってみる、対象となるユーザ層で人気の本を読んでみる、実際に対象となるイベントに足を運んでみる。そういった取り組みを通して、データの裏にある肌感覚を習得していきましょう。
データの概観がわかり、その文脈についても理解したら、いよいよ実際の分析のフェーズに入ります。ここまででデータの概観がつかめていれば、「もしかしてこの問題には〇〇が関係しているんじゃないか」という仮説が浮かんでくるはずです。そこで実際に手を動かしてプログラムを書き、その仮説を検証する。そこからわかることを考察し、次の仮説を考える。このサイクルを繰りかえしていきます。
本節は以上です。お疲れ様でした。
次に、プログラミングをはじめるための準備について説明します。