直近三ヶ月のアクセスログからIPバージョンを集計してみた
- 投稿日:
Google Analyticsを廃止してMatomoを導入してみた結果、SQLでログを読めるようになったので、Apacheのログをインポートした結果から、来訪ユーザーのIPバージョン比率を集計してみた。
集計期間は2025年5月13日~2025年8月14日。
サイト別のIPバージョン比率
国内と国外からのアクセスのうちIPv4, IPv6の比率。
サイト | 国内IPv4比 | 国内IPv6比 | 国外IPv4比 | 国外IPv6比 |
---|---|---|---|---|
lycolia.info | 68.93% | 31.07% | 95.61% | 4.39% |
ブログ | 99.22% | 0.78% | 100.00% | 0.00% |
Webツール置き場 | 100.00% | 0.00% | 100.00% | 0.00% |
ECO-Wiki | 42.86% | 57.14% | 77.14% | 22.86% |
平均 | 77.75% | 22.25% | 93.19% | 6.81% |
サイト別のIPバージョン数
サイト別のIPバージョン比率の導出に使った元ネタ。各項目のユニークIPの個数。
サイト | 国内IPv4数 | 国内IPv6数 | 国内累計 | 国外IPv4数 | 国外IPv6数 | 国外累計 | 総計 |
---|---|---|---|---|---|---|---|
lycolia.info | 5,420 | 2,443 | 7,863 | 3,746 | 172 | 3,918 | 23,562 |
ブログ | 1,654 | 13 | 1,667 | 60,277 | 0 | 60,277 | 123,888 |
Webツール置き場 | 73 | 0 | 73 | 545 | 0 | 545 | 1,236 |
ECO-Wiki | 24 | 32 | 56 | 54 | 16 | 70 | 252 |
集計 | 7,171 | 2,488 | 9,659 | 64,622 | 188 | 64,810 | 148,938 |
ECO-Wikiの統計
ECO-WikiのIPv4とv6の数と比率。Googleからまともにインデックスされてないからか、かなり実際のユーザーの数に近い値が出たため、特別に取り上げている。
このサイトは1日のPVが200前後あり、集計期間が93日であることを考えると18.6kほどのPVがあったと思われるが、IPの本数としては非常に少なく、ほとんど固定ユーザーで回っていることが伺える。
国 | IPv4数(比率) | IPv6数(比率) | TOTAL |
---|---|---|---|
日本 | 24 (42.86%) | 32 (57.14%) | 56 |
タイ | 14 (70.00%) | 5 (25.00%) | 20 |
香港 | 13 (100.00%) | 0 (0.00%) | 13 |
中国 | 7 (63.64%) | 1 (9.09%) | 11 |
インドネシア | 9 (90.00%) | 1 (10.00%) | 10 |
韓国 | 5 (62.50%) | 3 (37.50%) | 8 |
台湾 | 2 (28.57%) | 5 (71.43%) | 7 |
シンガポール | 1 (100.00%) | 0 (0.00%) | 1 |
雑感
自宅サーバーに移行する場合、IPv6シングルスタックとなるわけだが、この割合だとかなり厳しい。特にメインコンテンツである、このブログのIPv6率が1%すらないのは極めて致命的だ。
むしろ特に価値のないlycolia.infoは31%ほどあり、比較的まともだ。ECO-Wikiに至っては57%を超えており、IPv6率が顕著に高い。
ただECO-Wikiはアクセスするユーザーが固定されていると考えており、大半が常連であるためこういう結果になっているのだとは思う。対してこのブログには恐らく常連はいないか、いても全体の1%いるかどうかだと思われる。
つまり常連が全員IPv6だとしても精々1%になるわけだ。
とはいえ、日本国内のIPv6対応状況はGoogleによると56%ほどあるとされており、来訪者が完全にランダムだとしても1%未満というのは異常すぎる。意味があるかは不明だが、念のためにaレコードより先にaaaaレコードを配置してみた。間違いなく意味はないと思う。
このままでは移行しても実質私以外見れないことが予想されるため、Matomoのカスタムディメンジョンを使ってIPv6に対応しているがIPv4でアクセスしているユーザーを調べることにした。
カスタムディメンジョンというのはアクセスログを取るときに追加のパラメーターを設定する機能だ。AAAAレコードしかないhttps://ipv6.lycolia.info/というドメインを切り、ここに疎通するかどうかを記録することにしている。1~3月くらい収集して、Matomoの生ログに以下のクエリを打てばおおよその比率は分かるだろう。
SELECT
SUM(CASE WHEN LENGTH(location_ip)=4 THEN 1 ELSE 0 END) AS ipv4_count,
ROUND(SUM(CASE WHEN LENGTH(location_ip)=4 THEN 1 ELSE 0 END)/COUNT(*)*100, 2) AS ipv4_ratio,
SUM(CASE WHEN LENGTH(location_ip)=16 THEN 1 ELSE 0 END) AS ipv6_count,
ROUND(SUM(CASE WHEN LENGTH(location_ip)=16 THEN 1 ELSE 0 END)/COUNT(*)*100, 2) AS ipv6_ratio,
SUM(CASE WHEN LENGTH(location_ip)=4 AND custom_dimension_1='v6ok' THEN 1 ELSE 0 END) AS ipv4_v6ok_count,
ROUND(SUM(CASE WHEN LENGTH(location_ip)=4 AND custom_dimension_1='v6ok' THEN 1 ELSE 0 END)/COUNT(*)*100, 2) AS ipv4_v6ok_ratio
FROM
matomo_log_visit
WHERE
custom_dimension_1 IS NOT NULL;
またApacheのログとGoogle Analyticsの内容に著しい乖離があったため、Apacheのログの信頼性も怪しい部分がある。というのはBOTの類が相当入っている可能性があり、BOTによるアクセスで比率が狂っている可能性も否定できない。とはいえ、本ブログではv6のIPが13個しか検出されてなかったので、BOT以前の問題だろう。
サーバーログとGoogle Analyticsとの乖離内容としてはシンガポールからのアクセスIP数が33kもあり、アメリカからも4kで、日本からのはたった1.5kしかなかったのだ。Google Analyticsのユーザーベースでは同じ期間で日本4.7k、シンガポール92、アメリカ29だったため、あからさまに異なる。これは恐らく多くのBOTはJSが動かない環境で動いており、GAのカウントから外れるのが大きいだろう。ApacheのログからはじけるBOTは精々UAに丁寧に書いてくれているか、ブラウザのバージョンが極端に古い典型的なものくらいで、まともに偽装しているやつは識別しようがないのでどうしようもない。
再三にはなるが本ブログではv6のIPが13個しか検出されてなかったので、それ以前の問題であることは明白なのだが…。
あとがき
MatomoのDBに入ったApacheのログが余りにもノイズなので消した。余りにも新規で取れるデータと内容に乖離がありすぎて、アクセス数が-300%みたいに出るし、通常運用では混入しない膨大なBOTアクセスログが見えるのが嫌だった。
消した時の行動としては、まずSSHで/path/to/matomo
に移動し、./console core:delete-logs-data --dates=2025-04-01,2025-08-14
のように削除したい期間を指定してコマンドを叩く、これでvisit系テーブルのデータが根こそぎ消える。次にmatomo_archive_blob_
とmatomo_archive_numeric_
で始まるテーブルをすべて消し、/console core:archive --url=<Matomoの設置URL>
を叩いたら綺麗になった。
DROP TABLE matomo_archive_blob_2025_08;
...
DROP TABLE matomo_archive_numeric_2025_08;
...
visit系テーブルのデータを消しただけだと日別アクセス数は消えないので、これを消すために日別のレポートを記録しているテーブルを消し飛ばし、更にレポートのキャッシュをクリアする必要があった。
最近仕事で全然SQL打たないので、今回の一連の作業(統計出しを含む)はなんとも新鮮だった。