割算値はなぜダメなのか?他

先週、先々週?の話題になりますが、割り算値をどうするか、という議論が湧いていました。

「データ解析のための統計モデリング入門」6.6章 割算値はなぜダメなのか? #みどりぼん – Mi manca qualche giovedi`? http://d.hatena.ne.jp/n_shuyo/20140730/glm

統計モデルに観測値と観測値の割り算値を入れても問題ない: ニュースの社会科学的な裏側 http://www.anlyznews.com/2014/07/blog-post_31.html

統計モデルに観測値と観測値の割り算値を入れたときのバイアス – 餡子付゛録 http://d.hatena.ne.jp/uncorrelated/20140802/1406949321

 

ほか、13件となります。

データの相関係数の推定法について発表しました – ほくそ笑む http://d.hatena.ne.jp/hoxo_m/20140714/p1

“統計的変化点検出の手法” http://qiita.com/kokumura/items/e4c17d989aa3c34c6dd0

分布から見た線形モデル・GLM・GLMM http://heartruptcy.blog.fc2.com/blog-entry-154.html

受理・棄却法 – 人工知能に関する断創録 http://aidiary.hatenablog.com/entry/20140712/1405165815

レストランのパフォーマンスをRで解析する – ワザノバ | wazanova http://wazanova.jp/items/1408

【Ruby】住所から都道府県を正規表現で取り出す【正規表現】 – Qiita http://qiita.com/mktakuya/items/572232fb4eeabe50a0c5

あなたの県はどの分類?–都道府県をメディア接触の特徴で7グループに分類 | マイナビニュース http://news.mynavi.jp/news/2014/07/21/072/

機械学習とかに使えそうなデータセット – pixyzehn blog http://rikei-webmemo.hateblo.jp/entry/2014/07/20/114031

寿司屋バイトからデータサイエンティストへ。異色な経歴のがんこフードサービス副社長が描く「200年後のレストラン」が面白い – エンジニアtype http://engineer.typemag.jp/article/gankofood

PyMCがあれば,ベイズ推定でもう泣いたりなんかしない http://ja.slideshare.net/shima__shima/2014-mtokyoscipy6

 

 

日本ではデータサイエンティストがクローンな理由、他

日本では何でもかんでもデータサイエンティストと名乗ってしまい陳腐化してしまったことが原因の一つですね。それに日本のサラリーにしろ人材にしろとにかく正規分布の分散が非常に小さいという特徴を持っています。スーパーな人を嫌う性質、異質なものを排除しようとする性質、いい加減勘弁して欲しいです。許す、という文化もないですよね。結局小さく固まっているという昔ながらの良くも悪くも伝統を引きずっている、ということです。ということで、この記事はごく一部の人材以外は日本以外に当てはまる、ということです。 ASCII.jp:データサイエンティストが高給取りな理由 http://ascii.jp/elem/000/000/918/918386/

Python 非常に統計解析界隈ではファミリアな言語です。しかしちょっと癖もあるようで。自分もPythonはわかりますが、コンストラクタとかかなり微妙な感じです。それらの他言語にはない特徴がうまくまとめられています。 Pythonを書き始める前に見るべきTips – Qiita http://qiita.com/icoxfog417/items/e8f97a6acad07903b5b0

 

ほか、本日4件です。

ニュース – ヤフーとトレジャーデータが提携、国内でビッグデータ分析のクラウドサービスを提供:ITpro http://itpro.nikkeibp.co.jp/atcl/news/14/072500216/

2014年最もイケてるBigData領域でのスタートアップ10社 – データ分析の会社で働く人の四方山話 http://rindai87.hatenablog.jp/entry/2014/07/28/220036

 

 

高度専門職に対する取り組み方、他

近年、データサイエンティストなどの高度専門職につく人材が増えてきました。そのためのより良い運営などについてドラッカー氏が議論しています。 ドラッカー、専門職に「根拠のないプライド」は不要  :日本経済新聞 http://www.nikkei.com/article/DGXNASFK26016_W4A620C1000000/

 

これも面白いですね。サッカーネタが続きますが国代表とクラブチームの対決シミュレーションです。 Could the World Cup Champion Beat the Best Club Team in the World? | FiveThirtyEight http://fivethirtyeight.com/features/could-the-world-cup-champion-beat-the-best-club-team-in-the-world/

 

つい最近大規模な個人情報流出事件が起きました。それについての一考察です。 ベネッセとジャストシステム : 外から見る日本、見られる日本人 http://blog.livedoor.jp/fromvancouver/archives/52388741.html

 

ほか、レポーティングや解析系の記事合わせて5件です。お楽しみください。

【連載】今こそ! ヒートマップ:第1回 ヒートマップ入門――データ・ビジュアライゼーション時代に対応したWebアクセス解析で意思決定とアクションを高速化 (1/5) – ITmedia マーケティング http://marketing.itmedia.co.jp/mm/articles/1407/02/news009.html

分布から見た線形モデル・GLM・GLMM http://heartruptcy.blog.fc2.com/blog-entry-154.html

Cloud Dataflow: MapReduce後継の機能が続々と、など

MapReduceの後継、大容量一括処理だけではなくて、ストリーム処理やリアルタイム処理も実装されているとのことです。最近はJubatusやSparkなどの新技術も続々と開発されているので本家Googleも、、、といったかんじなのでしょう。エクサバイト級とのことですが、個人で遊ぶ分にはそこまでのデータはないでしょう。でもとりあえず注目の”Cloud Dataflow”と言えるかと思います。 ニュース – グーグル、MapReduce後継のビッグデータ処理サービス「Cloud Dataflow」を発表:ITpro http://itpro.nikkeibp.co.jp/article/NEWS/20140626/566922/

本日ほか、Rstudioを使ったPDF文書作成、時系列入門などトータルで6件の記事があります。お手すきの時にでもどうぞ。

 

マス/デジタル別々に分析している場合じゃない! 全体最適を可能にする分析手法とは? (1/3):MarkeZine(マーケジン) http://markezine.jp/article/detail/20293

データサイエンティストって名乗るのが恥ずかしくない人は要注意!! – チャランポランナーの独白 http://copiz.hatenablog.com/entry/2014/06/25/135058

ビッグデータ処理性能のスパコンランキングで日本勢が二冠 – PC Watch http://pc.watch.impress.co.jp/docs/news/20140625_654944.html

ITエンジニアのためのデータサイエンティスト養成講座(9):時系列分析I ――ARMAモデルと時系列分析 (1/4) – @IT http://www.atmarkit.co.jp/ait/articles/1406/30/news005.html

RStudioを使ったPDF文書の作成(for RStudio 0.98.932+) – Qiita http://qiita.com/uri/items/d9e50e8e5a37217a3f5d

 

The DATA Web版 20140626 プロチームにもデータサイエンティスト

巷はワールドカップで盛り上がってますが(日本は勝利がないのでいまいちですが…)スポーツのデータサイエンスに関する記事が多い印象です。MLB, NBAなどのスポーツデータに関する紹介ですが、もう少し詳しい説明がほしいところ。記事中にもありますが意思決定者になかなか伝わらないのはデータを扱う人たちにとっては宿命のようなものです。如何に良い具体例が示されるかが肝要なのではないでしょうか。 野球、バスケチームがデータサイエンティスト確保へ――スポーツデータ分析最前線 - TechTargetジャパン データ分析 http://techtarget.itmedia.co.jp/tt/news/1404/18/news04.html

W杯の試合分析データは、こうしてつくられる:イタリアの統計分析企業 « WIRED.jp http://wired.jp/2014/06/21/fifa-statistics/

 

ほか合計5件です。

ビッグデータ活用で「バンキング2.0」を掲げるスコットランド銀行 - TechTargetジャパン データ分析 http://techtarget.itmedia.co.jp/tt/news/1406/11/news01.html

ビッグデータに対する10の幻想–適切な取り組みなくして実現せず http://japan.zdnet.com/cio/sp/35049490/

団地再生にオープンデータ生かす NHKニュース http://www3.nhk.or.jp/news/html/20140621/t10015404151000.html

 

The DATA Web版 20140521 ビッグデータソフト市場予測他

国内のビッグデータソフト市場は2012年の話ですね。試算も出ています。今年は約二倍となっているようですがもっと欲しいところですね。また市場に含まれるものの定義ですが、

  • DataOrganization & Management:データの収集、保存、通信を行うテクノロジー基盤
  • Analytics & Discovery:収集したビッグデータの分析、解析を行うテクノロジー基盤
  • Decision Support & Automation Applications:シナリオに基づいた分析/解析、自動化されたルールベースのトランザクション解析などを行う

等が含まれているようです(本HPより)。

 

それとウェブサイトのコホート分析はユニークですね。ただ著者の方もおっしゃっているようにもう少し母数が増えると良いですね。

 

本日は10件です。

 

国内のビッグデータソフト市場、2012年は48億円に――IDC Japan調査 – ITmedia エンタープライズ http://www.itmedia.co.jp/enterprise/articles/1405/15/news143.html

対数変換と一般化線形モデル – DTAL(旧RCEAL)留学記録 http://d.hatena.ne.jp/mrkm-a/20140513/p1

データマイニングで理想の彼女をGetだぜ! – 発声練習 http://d.hatena.ne.jp/next49/20140514/p1

「ダジャレの構造」をビジュアルで14分類 重なり、加減、倒置、など2語の関係が見える|分類王・石黒謙吾の「発想を広げるインフォグラフィック思考」|ダイヤモンド・オンライン http://diamond.jp/articles/-/52845

フォードのデータサイエンティストに聞く–ITとビジネスのギャップを埋める方法 http://japan.zdnet.com/cio/sp/35047616/

Rでネットワーク分析。指定Twitterユーザーのフォロー関係を可視化する。 – Qiita http://qiita.com/nezuq/items/75235f2139370cd8166c

日本はもっとビッグデータの活用に取り組むべきだ -英『エコノミスト』誌 データエディター ケネス・クキエ氏 判断意見:PRESIDENT Online – プレジデント http://president.jp/articles/-/12479#gunosy

グーグルアナリティクスで、コホート分析をやってみた【初心者用に解説プラス】 – 鈴木です。 http://suzukidesu23.hateblo.jp/entry/2014/05/07/%E3%82%B0%E3%83%BC%E3%82%B0%E3%83%AB%E3%82%A2%E3%83%8A%E3%83%AA%E3%83%86%E3%82%A3%E3%82%AF%E3%82%B9%E3%81%A7%E3%80%81%E3%82%B3%E3%83%9B%E3%83%BC%E3%83%88%E5%88%86%E6%9E%90%E3%82%92%E3%82%84%E3%81%A3

すかいらーく、全国3000店舗のデータ分析基盤をクラウド使い3カ月で再構築 | IT Leaders http://it.impressbm.co.jp/articles/-/11300

分析時間9割減、希少生物の生息数把握にもビッグデータ  :日本経済新聞 http://www.nikkei.com/article/DGXNASFK2100H_R20C14A4000000/

 

OPEN METIのサイトが凄い、ウィスキーのクラスタリング他

今回は個人的に気になる記事満載です。まずはウィスキーのクラスタリング、中身のテキストファイルを見てみましたがあまり変わったパラメーターはないようなのでまあ妥当なクラスタリングになるのでは、という印象でした。しかし興味深いのは確かです。

データヴィジュアライゼーションで2点、日本のOPEN METIでは日本初のオープンデータ活用を目論んだ経産省のサイトです。これはかなり気合い入ってます。すごいですよ。ちょっとしばらく見てみたいですね。間違いなくオススメです。でもすぐ公開中止になったサイトもありましたがここはそんなことはないですよね?ね?

次はSCOOP IT!のGEO VISUALIZATION,見ているだけで楽しくなるサイトでした。温度アノーマリーは興味深いです。

本日6点です。ENJOY!

 

Hierarchical Clustering of Whiskeyhttps://rpubs.com/seaneff/HierarchicalWhiskey

Rの中で環境を使い分ける – Qiita http://qiita.com/rai_suta/items/b24ec8e742c5b9e9d35e

複数のクラスタリング手法を組み合わせる – langstat blog http://langstat.hatenablog.com/entry/20140503/1399081962

インターネット広告の目標設定における統計学の活用例:ライフタイムバリュー(LTV)|インターネット広告代理店で働くデータサイエンティストのブログ http://ameblo.jp/cyberanalyst/entry-11819955628.html

OPEN METI http://openmeti.go.jp/

Geo-visualization | Scoop.it http://www.scoop.it/t/geo-visualization