スモール・データ活用ラボ

普通のビジネスマンがいろんな勘違いでデータサイエンス部門へ異動になり四苦八苦。自己学習で学んだことをブログにまとめます。

今勉強していること

職場でデータ分析の仕事をしているとはいえ、かなり偏ったタスクをこなしてきたために、土台となる基礎が安定していないのが悩みです。とても、自分のことを「データ・サイエンティストだ!」ということなどできません。

そのため、今更感はあるのですが、もう一度古典的な統計学を学び直しているところです。単にデータを機械学習につっこんだり、適当に重回帰分析をするのではなく、例えば、

  • 各種検定手法はどのように選択し、どのように応用するのか。
  • 統計モデルはどのように組み立て、チューニングしていくのか。
  • テキストマイニングの前処理ではどのようなことに気をつける必要があるのか。

ということを、基本的な参考書を元に勉強しています。つまり、統計的なものの見方をもう一度固めているところです。

しかし、工学系の出身のため、数式だらけの基本書を読んでも、サッパリ頭に入ってきませんしモチベーションも上がりません。やはり、「どんな風に役に立つのか?」ということがクリアに分からないと何とも面白くなありません。しかも、ビジネス経験の方が長いので、商売目線(とくに製品マーケティング的な話が好物)での旨味を探しがちです。

そんな風に思いつつ、よいテキストはないかと探してきました。理想は、ビジネス的な観点で語られていて、実ビジネスを思わせるデータを使いながら学べる本です。なかなか見つけることができませんでしたが、最近よい本が幾つか出版されてきました。

続きを読む

データ分析環境

今日は、私のデータ分析環境の話です。

職場ではlinuxサーバをブン回しながら仕事をしていますが、自宅に自己学習用のマシンは持っていませんでした。今回勉強のために用意した環境は以下のようなもので、大変リーズナブルです(予算があまりない…)。

実質的に、1万円以下で構築した環境です。仕事で使っているマシンと比較すると数十分の1のスペックですが、スモール・データを扱うには十分かと。なるべくRだけで完結できるように勉強したいです。どうしても前処理はPerlPython頼みになってしまうので。

余裕ができたらSSDに交換して、ubuntuCentOSデュアルブートで入れたいなぁ…。

 

ビッグデータ vs スモールデータ

昨年あたりからビッグデータという言葉が氾濫するようになりました。関連業界内ではもっと前から言われていたと思いますが、マス的に広がったのはこの1~2年でしょうか。統計やR、機械学習に関する書籍も乱立するようになりました。

ビッグデータというと単に大量データを指すのではなく、大量、多様、高頻度なデータのことを意味するようです。ITやネットワークの発展で、こうしたデータが蔓延しているから活用しよう!…という話がメジャーになりつつあります。例えば、ビッグデータと言えば、電子マネーによる購買データや、Web広告に関するデータ、TwitterなどのSNSデータなどが連想されます。確かにこうしたデータを活用できれば、「何か」新しいことができそうな予感がしますね。

しかし、上に挙げたようなデータは一部の企業が有するデータであり、そう簡単に入手することはできません。また、仮にデータリセラーに高額を払って入手したとしても、「どうやって活用して元を取るのか?」ということを考えても、多くの企業はピンとこないのではないでしょうか。私も異動前の職場の同僚に「データ分析してるんだよ」と言っても、それ美味しいの的な反応が返ってくる程度です。多くのビジネスにとっては、ビッグデータバズワードに見えるかもしれません。

しかし、元ビジネスマンとして、

   データ・サイエンスをバズワードとして片付けるのはもったいない!

と思います。データビジネス最先端で扱う「ビッグデータ」がなくても、どのビジネス現場にもあるありふれたデータ…いわばスモールデータを上手く使うことで、仕事がもっと楽になるのではないかと思っています。データ・サイエンスに詳しい方には笑われるかも知れませんが、現職場に異動し、同僚が機械学習を操る姿を見て「魔法使いかよ!」と何度思ったことか…。

ビジネスデータの「分析」は実は古くからあるテーマなのですが、オープンソースであるRが登場して統計的処理が手軽に行えるようになったり、機械学習が実用レベルになったりしたことで、より身近になってきたと思います。また、仕事の多くがITシステムを利用するようになり、売上や在庫情報、クレーム内容といった情報が電子化されているというのも大きな要素です。

そこで、私自身、身近にあるデータをもっと上手く使うための勉強をしています。なので、このブログではビッグデータというより、スモールデータの活用を念頭において進めていこうと思います。

 

 

何をしている人?

自己紹介を少し。

現在、私は某企業のデータ・サイエンスに関連する部門に所属して、日々データと格闘しています。

もともと統計学とかデータ分析を専門に学んだ経験はなく、今の部門に異動してから仕事を通じてデータ・サイエンスを学ぶことになりました。異動前は、普通のビジネスマン(SE)でした。SEといっても、コーディングなどはほとんどせず、製品の企画やプロマネ、プリセールス中心の日々を送っていました。

しかし、あるときにデータサイエンス部門に異動になり職種もチェンジ。いろんな人の、いろんな勘違いが重なった結果でしたが、以後は激動の日々を過ごすことになりました。何せ当時の私の技術スペックは…

  • トウケイガク何それ?状態。工学系出身だけど、統計学の講義は記憶なし。
  • ITツールといえば、パワポとエクセルと秀丸! 設計書は全部エクセルだよね。
  • コーディングは学生以降ほとんど経験せず。新人の頃にCOBOLを触ってた。システムはif-thenの組み合わせ(=ルールベース)という認識。

…だったのです。自宅の本棚にはマネジメントや経営戦略の本が並び、技術書はまったくないという状況でした。

それが異動になってから、Perlでテキスト処理をし、英語の論文を読み、Rでデータ分析をやることになりました。更に、言語処理や機械学習も必要になりました。こうさらっと書くと何でもないようなことに思えますが、異動してすぐの頃は「現代にタイムスリップした江戸時代の農民」の如く、強烈なカルチャーショックを受けたのでした。(今でも慣れきっていません…)

 たった20行程度のPerlの魔法のようなコードを読むのに1週間かかり、スクリプト言語正規表現のパワーに驚き、初めて聞く「ゆーい差」という言葉に戸惑う日々。。気がつくと、統計学の本やオライリーの技術書に埋もれていました。

それから数年が経過し、ようやくデータ・サイエンスを楽しめるようになってきました。また、元ビジネスマンの立場で考えると、「この手法はビジネスに使える!」と思うことも多々ありました。そこで、ビジネスとデータ・サイエンスの両方の経験を活かし、自分の勉強も兼ねつつ、このブログを書くことにしたのです。

 

このブログについて

はじめまして。ku2chanといいます。

このブログでは、データ・サイエンスをビジネスに活用するためのやり方や考え方を記事にしていきます。といっても、私もまだまだ修行中の身であり、自分の勉強のために記事を書いています。そのため、稚拙な内容かもしれませんが、少しずつでも知識を高めていきたいと考えております。

よろしくお願いします!