行列のできる?共分散構造分析(SEM)その2


めでたく第2回目である。前回は共分散式t=At+uを求めるところまでを示した。
この式と実際のデータを比べて各パラメータを推定してやるのが目的である。さてどうするか。
まずはtイコールの式にまとめてみよう。
Aは行列なので単位行列を使って、
 
t(I-A)=u
t=(I-A)^-1+u
 
ここでI:単位行列、括弧内は逆行列となる。構造変数が平均偏差化された変数であるとすると、
tとtの転置行列t’を掛けあわせて変数の数で割ると分散共分散行列を求めることができる。掛けてみよう。
 
tt’/n = (I-A)^-1 uu’ [(I-A)^-1]’/n
 
uu’/nは外生変数の分散共分散行列そのものであるからΣuと式を書き換えると(少し式が複雑になってきたのでLaTexを使う)
 
\frac{1}{n} tt' = \sum = { (I-A)}^{-1} {\sum }_{u}{(I-A)}^{-1'}
 
ここで左辺のΣはtに関する分散共分散行列(tt’/n)を書き換えたものである。
ここでtt’の中身を少し見てみよう。もともとtはfとxから成り立っていたので、tt’を求めた時には行列の内積を計算すると大雑把に以下のように分けられるのがわかると思う。LaTexを使おう。

\sum = E[tt'] = E \begin{bmatrix}  \begin{bmatrix}  f\\   x  \end{bmatrix} &   \begin{bmatrix}  f' & x'  \end{bmatrix}  \end{bmatrix}  = E\begin{bmatrix}  ff' & fx'\\   xf' & xx'  \end{bmatrix}  =\begin{bmatrix}  \sum ff & \sum fx \\   \sum xf & \sum xx  \end{bmatrix}

ここでΣxxに着目してみよう。そもそもxは実際に観測した変数、データである。よってこれらの分散共分散は実データと比較することができるのでこれを計算すればパラメータを推することができる。
実際にこの分散共分散を求めるにはこの部分を切り出してやれば良い。
切り出すには行列の右下をくり抜くように取り出してやる必要がある。しかしながら行列計算のちょっとしたテクニックによりこれをくり抜くことができるのである。
フィルター行列というがこれを左右から掛けてやる。フィルター行列をFとし、左側からFを、右側から転置行列であるF’をtの分散共分散行列(一番上のLatex式)に挟み撃ちのように掛けてやるとΣxxを「切り抜く」ことができる。

{\sum}_{xx} = F \sum F' = F{ (I-A)}^{-1} {\sum }_{u}{(I-A)}^{-1'}F'

実際のデータで見てみよう。
 
 
 
、、、と思ったが少々長くなったので続きは第3回目に記そう。このシリーズ、少なくとも3回は行けそうである。

(データ)サイエンティストになれる人なれない人

まあここでいうサイエンティストは所謂人手不足になりつつあるデータサイエンティストを対象にして言及するわけですが、勿論アカデミックなサイエンティストも当てはまるでしょう。このサイエンティスト=科学者、研究者ですが、往々にして向く人向かない人がいるわけです。最近の記事ではこの辺りなど参考にすると良いです。

学歴でもスキルでもない――優れたデータサイエンティストとしての素質を見きわめる6つのチェック項目 – Y!ニュース BUSINESS http://newsbiz.yahoo.co.jp/detail?a=20130507-00010001-biz_it_mk-nb

の中に、

1.物事を知る・認知するということに対して敬虔な態度を持ち、すべてにおいて、より深い理解を得ようと調べる姿勢があること

2.行動の動機は「創造的であること」であり、単なるソリューションを求めるよりも、そこにエレガントさを追求する創造性を持ちたいと思っていること

3.「正しい方法で物事を処理したい」という強い思いを持ち、周囲の人にもそうであるように奨励すること

4.品質や標準に対する感覚、細かいところにも目を向ける感覚を持ち、他人に対しても、しばしばこうした視点で評価すること

5.感情を抑制し、寡黙になる傾向があり、チームや社内ミーティングの場でも、質問されたり、自分視点で重要なトピックについて話し合われたりしていなければ、ほとんど言葉を発しないこと

6.事実やデータ、潜在的な可能性を思慮深く分析した後にのみ、計算や経験に基づいてリスクを取り、また感情に流されることなく、事実やデータ、ロジックを通じ、細心の注意を払ってチームの他メンバーを説得できること

 

という6つの指摘点が述べられています。さんざん訓練されてきた私としましては当然なわけですが(いや時々、、、なこともありますが)、これができずに大学での勉強をあきらめて就職した方も多いと思います。感情的に(でなくても)恫喝したり怒ったり叱ったりは論外なわけです。

世の中には頭の良い方は確かにいらっしゃいます。しかしながら明晰な頭脳を持ちながらも、いまいち社会で受けいられない方々もいらっしゃいます。その中の一つが「高機能自閉症スペクトラム」、いわゆるアスペルガー症候群の方です。

彼らはある点において突出した才能を持つことがしばしばあります。その場でコンシステントでない感情的なディシジョンを嫌い、論理を貫きます。その特徴ですが以下の様な感じです。

興味の対象に対して、きわめて強い、偏執的ともいえる水準での集中を伴う、社会一般の興味や流行にかかわらず、独自的な興味を抱くケースが見られる。

また一般的に、順序だったもの、規則的なものを魅了する。

それらと逆に、予測不可能なもの、不合理なものは嫌う対象となる。突然のアクシデントや、論理的に話し合いのできない感情的な人間なども、その例である。

彼らはしばしば非常に洗練された知性、ほとんど頑固偏屈とも言える集中力、一見些細に見える事実に対する膨大な(時に、写真を見ているかのような詳細さでの)記憶力などを示す。

症候群という表現は、アスペルガーの人は障害者(異常)で、その他の者は定型発達者(正常)というように感じる。しかし、特徴の見かたを変えると、客観的で、事実を正確に理解して表現することに長けているともいえる。 以下に挙げられている「言葉を額面どおりに受け取る」や「些細なことにこだわる」という特徴も「厳正に規則を守る」と言い換えることができる。 例えば、パソコンのように順序だったものや規則的なものに興味を持てば、才能を開花させることも可能である。

アスペルガー症候群 – Wikipedia http://ja.wikipedia.org/wiki/%E3%82%A2%E3%82%B9%E3%83%9A%E3%83%AB%E3%82%AC%E3%83%BC%E7%97%87%E5%80%99%E7%BE%A4 より

 

とこんなかんじでしょうか。勿論ネガティブな面もあるのだが、今回はサイエンティストに向くのでは、という側面を炙りだしてみました。このように2つを比較すると共通点が多く、非常に類似しているのがわかると思います。

彼らは常々この社会は生きづらいと考えており、周りがバックアップする必要があると考えます。去年だかのNHKのあさイチ!でも特集が組まれており、よりよいマッチング、周囲の理解が必要であると考えます。

その中でも今後必ず社会に役立つデータサイエンティストはひとつの選択肢になりうるのではと思います。アカデミアの方はもう人事的に絞りきってますし、日本を再び盛り上げる意味でも意義深いのではないでしょうか。

 

小売における統計解析・マイニングツール導入の可能性と展望

昔から言われていることかもしれませんが、一応言及しておきます。

データマイニングについては昔からその活用が指摘されていて本にもなっています。2004年くらいでしょうか。その頃の書籍もたくさんあったと思います。図書館に行けば少し古めの本がおいて有りそうですのでたやすく見つけることが出来ると思います。

しかしながらその頃はまだビッグデータ的な概念や技術、インフラもなかったので簡単な統計手法を用いて簡単に予測する程度にとどまっていました。まあこれでもやってない業種はいまだに有って、この手法だけでも改善の余地は大いにあるわけですが。

そして現在、標記に関するニュースですがインドの製造、小売業がSASの統計ツール導入、というニュースです。インドでSASであるからニュースになるのか、インドで初であるからニュースになるのかその辺の経緯は不明ですが、とにかく先進的であることには変わりないでしょう。

製造ITニュース ビッグデータ:インドの宝飾品大手がSASのデータ分析関連ソフトを導入――サプライチェーン合理化に活用 – MONOist(モノイスト) http://monoist.atmarkit.co.jp/mn/articles/1306/28/news069.html

一方で日本ではどうか、SAS導入は大企業や医学部を中心とした大学、と言った程度に留まっています(非常に高価なのももちろんあるのですが)。特に上述のように小売業に最もこの手法には強みがあると思います。特に食品などのデッドラインが定まった商品ではいかに瞬時に売りさばくかがクリティカルになってきます。その意味での在庫管理はもっと合理化がなされてしかるべきなわけです。現在の状況から鑑みても食品廃棄及びロスの際立った多さからは、そのような合理化はなされているとはいえず、まだまだ改善余地は大いにあると思っています。

しかしながらそのようなアナリティクスに関するニュースは表立って出て来ません(ニュースになると優位性がなくなるのでみんな黙っているだけかもしれませんが…いやそうでもないか)。

とにかく日本では一部を除いて後進的であると言わざるを得ません。結局表立つような経営者は前の記事でも述べたように体育会系ヤンキー気質の人達が多いからでしょう。未だかつて論理的思考に基づいた経営者は本当に数十人と言った感じです。経営者の皆さん、もっとクレバーになって論理的思考に基づいたディシジョンをしてみませんか?

以上手前味噌なステマでした。良い週末を。

 

データ処理ワンストップサービスTips集(概論)を掲載しました

上記Tips集の取っ掛かりとしてまずは概論を掲載いたしました。比較的多くの業種に当てはまるような書き方にしています。本論の後には各論的なものを書いていきたいと考えています。

下記にも同じ物を掲載しておきますのでご覧ください。本ページはこちら

http://scientific-global.net/データ処理ワンストップサービスtips集概論/

よろしくお願いいたします。

データが少なくても、ビジネス解決の糸口があります

Scientific-Global.netが提供する

 

データ処理,統計解析,化学分析-報告書,パワーポイントスライド、

プレゼン資料作成ワンストップ・サービスのご案内

をぜひご利用ください。

概ね小売の全てに販売データが有るはずです。会員カードを作成している場合は顧客データもあるかと思います。その多くが季節性により売れ筋が決まるといっても過言ではありません。食品についても旬の美味しいもの、また花も季節性があるのは当然です。アパレルについても夏服、冬服があり、季節性は当たり前に存在します。

しかしながらその季節性の要素以外に販売増加につながるものはないだろうか、特定商品を仕入れたときは別の商品を仕入れるべきか否か、などの命題を解くというのが我々のタスクになります。温度、湿度などの要因を始め、時間帯、商品同士の相性 (顧客ニーズ)、行動パターン、様々なファクターによって人々の行動は変化するはずです。どのような条件の時にどのお菓子が最も売れるのか、どのようなレストランのメニューが好まれるのか、またこれまでのケースからどの程度売れる可能性があるのか、が定量的に議論可能になります。

threeDContour
Fig.1 商品アイテム数100種類の売上に関する相関行列の3Dコンタープロット

商品の売上例を用いて相関マトリクスの3Dコンター(等高線)図を作成してみました。調査期間は1ヶ月、アイテム数100種類です。概ね商品の売れ行きは相 関係数が高く(~0.95、赤色部分)売れ方は類似しています。しかし商品番号75番前後が他に比べて相関係数が低い(~0.7、凹んでいる黄色い部分) 結果を得ました。これらは他の売れ行き動向に対して比較的時期に無関係に売り上げていることを示しています。このアイテムは売上もコンスタントに上がっていることから定番商品となっており、特に販売不調の時に重宝されるアイテム、また販売数予測が可能であるという結論が得られます。

もう一つ、シンプルな例として1998-2003年での円ドル相場に対してフーリエ解析を行いました。左の図になります。5年間ですので大きな周期は見ることはできませんが短周期 (30日前後)から120日前後までのピークが観測されました。これは周期として卓越していることを示しています。よって30日、120日前後の周期で売 買の可能性が利益をもたらす、ということになります。また70日前後の周期も認められ、人の噂も、、、とこの期間においてはことわざ通りとなるようです。

これらの予測手法はひいては過去数年分の販売データ等から、季節性以外の新たな販売予測が立てられることを意味し、製作や仕入れ予測が立てられる可能性が展開されます。

period

 

上記はほんのシンプルな一例で、他にも通常の売上推移解析の他、様々な統計解析が我々は可能です。少数精鋭ながらも博士研究者による経験豊かな人材が信頼の統計解析を行います。また報告書やプレゼン資料等も作成依頼もお受け致します。このようにワンストップ・サービスが可能となっております。是非この機会に本サービスをご利用いただければ幸いです。

最後までお読みいただき、ありがとうございました。

学術論文を用いた統計解析Tips予定

Scientific-Global.netでは近々学術論文を用いた統計解析のTips集を公表いたします。ここで着目するのはその学問分野ではなく、統計解析がどのようなときに使われているのか、を重点的に解説しようと思います。その使い方をマスターすれば他の分野でも応用がいくらでもきくのでは、と思われます。

今後数回にわたって不定期ですが解説して行きたいと思います。よろしくお願いします。

 

トップページを更新しました20130418

データ分析、統計解析コンサルティングに関する、以下の文言を加えましたのでどうぞご活用ください。

「企業の皆様には博士研究者の能力を余すところ無くご利用ください。我々はデータ収集、分析、各種統計解析から報告書、プレゼンなどの資料作成まで行うワン ストップサービスも行なっております。本来研究者はこのような論理的思考力に長けており、説得力のある事実に基づいた報告書作成は当たり前のように数々こなして参りました。そんな我々が行う実績多数の「データ処理,統計解析,化学分析-報告書,プレゼン資料作成ワンストップ・サービス」を是非ともご活用ください。」

今後とも宜しくお願い申し上げます。

Scientific-Global.net

本日のサイエンティフィックニュースは海洋生物に関する2件20121107

本日のサイエンティフィックニュースは海洋生物に関する2件です。

 

死んだプランクトンが餌=ウナギ完全養殖、産業化に前進―東大など(時事通信) – Y!ニュース
http://headlines.yahoo.co.jp/hl?a=20121107-00000026-jij-soci

うなぎの完全養殖化が少しですが一歩進みました。昨今の減少問題で価格高騰となっているウナギですがこれまで卵からかえっても育たない問題がありました。これについてプランクトンの死骸であるマリンスノーが解決してくれそうです。ウナギは深い海から来るわけですから、植物プランクトンはいません。食べられる可能性のある生物としてはバクテリアの類です。しかしながらバクテリアは食べるには小さすぎるので調度良い大きさの、しかもある程度分解が進んだマリンスノーを捕食するということはなんとなく想像がつきます。このマリンスノーの成分はこれまで分析されていますので人口餌の開発が進めばまた一歩完全養殖化に向けて進むことになります。

 

<調査捕鯨>解体した鯨肉を直接販売へ 事業の収益改善で(毎日新聞) – Y!ニュース
http://headlines.yahoo.co.jp/hl?a=20121107-00000013-mai-soci

これはどうなんでしょうか?調査捕鯨が独り歩きしているように見えるのはワタシだけでしょうか?法的には問題ないのかもしれないですが、擬似調査捕鯨(http://www.whaling.jp/qa.html#04_03)といえばそれまでです。科学的根拠といってもクジラを捕食する国(日本)にとっては根拠となるデータを有利なものとするでしょう。クジラを保護したい大方の国にとってはネガティブなデータを論拠とするのは間違いありません。これは政治だけの問題ではなく、調査するサイエンティストも同調する傾向があるものと思います。どうにかしてクジラの生態を完全に捉えたいところなのですが、それは現在では難しい問題なのでしょうか。専門家からのアドバイスを仰ぎたいところです。

 

さて今日はおまけを付けます。ツイッターでもリツイート回数がウナギ登りな素因数分解に関するグラフィックです。綺麗なのでデスクトップの背景にしたいくらいです。

Animated Factorization Diagrams – Data Pointed
http://www.datapointed.net/visualizations/math/factorization/animated-diagrams/