GoogleAnalyticsの数値を足したり割ったり掛けたりしてはいけない

こんにちは。GoogleAnalyticsに限らない話ですが、Webブラウザ上で収集したデータが、かなり大きな意味のある数字として、発表されることも多いように思います。時にそれ自体に金銭的な価値がついたり、事業的な判断を左右する数値として扱われることもあるように思います。
そんな中で、発表される値に関して、個人的にはかなり懐疑的にみていた方が良いと感じています。なぜなら、GAのようなBeacon型のトラッキングデータは、非常に曖昧で、不正確なものであり、また簡単に壊れてしまうからです。

例えば、何か機能の割り当てられたbutton要素のようなもので、クリックするたびにシステムの挙動に関係なくイベントを送信しているものを、少なくない頻度で見かけるように思います。その数値を見る人間は、きっとそんなこともしらずにそのxlsに落として、何かしら考察をするのでしょうが、実際問題、その労力には何の意味もなくなってしまいます。なぜなら、それは実態とまったくかけ離れた、間違ったデータだからです。

また、流入元を特定するために、campaignクエリのようなものを使用する場合に、よく理解せずに使ってしまうと、セッションの集計データを破壊してしまうことがあります。具体的にいえば、同ドメイン内のページ遷移のリンクに、その値を設定してしまうことです。campaignクエリで流入元が変化すると、新規セッションとして扱われてしまうため、やけにセッションあたりのページビューが少なく、1ページだけ見て離脱しているかのように見えてしまいます。その数値を元に広告枠を売ったりしたら、なかなか困ったことになりそうです。

正しい集計をしていても、計測後の数値の取り扱いで失敗するケースもあります。別の方法で集計されたデータを同じ意味として捉えて計算してしまうことです。例えば、とあるページAに遷移する導線にクリックイベントを設定し、ページAのpaveViewからその数値を引き算した場合、理論上は「とある導線」以外からページAを閲覧された数がわかるように思いますが、実態としてページ遷移のクリックイベントはhitCallBackで処理をしないと確実に送信されなかったり、また何度もクリックされた場合に、過剰に送信されることがあります。これをより正しく集計する方法は、「とある導線」からの遷移時にurlにクエリを付与して、pageView同士を引き算することです。

以前、GoogleAnalyticsと、同じような仕組みのまったく別の集計システムを同時に走らせたことがあります。グラフにして俯瞰してみた場合同じような曲線を描くことができましたが、実数値としては5%-多くて10%ほどの開きがありました。別々のアナリティクスの値を掛け合わせることはそうそうないかと思いますが、つまり同じ実装であっても集計にブレが生じる場合があるということです。5%-10%の開きは、傾向が同じであれば計算した時にさほど問題になりませんが、実数値に比べて10%多くなってしまっている数値と、10%少なくなってしまっている数値を掛け合わせてしまったりすると、不幸な勘違いが生まれてしまうこともあります。

様々な企業が公式に発表するデータは、Webに関して言えばそういったかなり危うい環境で集計、算出されているものが多いように感じます。そして、信用ならないと思う理由のひとつに、Web上のトラッキングが不正確ではない、というところを全員が理解しているが故に、そのデータの文脈を理解しないまま、ざっくばらんに扱われることが多いという現状がある一方で、他に実情を知る方法がないために、重要な指標として扱われてしまう、というギャップがあるからです。

最終的に何が言いたいかというと、Webという狭い範囲で言えば、そういった問題を根本的に解決したり、新しい水脈を発見できるとすれば、データ加工する側でもなく、見る側でもなく、作る側たる僕たちだけなのではないでしょうか。とういところで、集計の実装は一見直接的にUXと関係のない、面倒なものにも思えるけれども、考えてみれば面白い分野なのではないかと、思ったりしている次第です。