近日看到了Google的BigQuery技术,用类似SQL的语言来做一些数据的分析。而Github也加入了进来。闲来无事,就去体验了一把。 这是相关文章的地址。

BigQuery语法

整体的语法都和SQL非常接近,鉴于点进来的人很多都是冲着“有趣”这两个字来的,就不过多介绍代码了。这段代码的作用是找到github仓库中,使用Python语言的仓库中,前10个被引用的库。

SELECT
  package,
  COUNT(*) count
FROM (
  SELECT
    REGEXP_EXTRACT(line, r' ([a-z0-9\._]*)\.') package,
    id
  FROM (
    SELECT
      SPLIT(content, '\n') line,
      id
    FROM
      [bigquery-public-data:github_repos.sample_contents]
    WHERE
      content CONTAINS 'import'
      AND sample_path LIKE '%.py'
    HAVING
      LEFT(line, 6)='import' )
  GROUP BY
    package,
    id )
GROUP BY
  1
ORDER BY
  count DESC
LIMIT
  40;

BigQuery的界面也非常有Google风……

github_20160702000047.png

这是通过刚刚的分析做出来的前几名的Python库的列表。 a5037d6edd3b9ca5 (2).png

a5037d6edd3b9ca5 (3).png

一些其它有趣的事情

例如大家都在用什么协议来发布作品,有接近150万个仓库使用MIT协议来发布。 a5037d6edd3b9ca5 (4).png

关注tensorflow的人都在关注什么? a5037d6edd3b9ca5 (5).png

最受欢迎的语言 1-_uxwTTOd1oRXjmloZ5Qi0g.png

提交次数和时间的关系 1-Ud8ZAz1xoVWK9DfiX6_hBg.png

余下全文(1/3)

本文最初发表在blog.askfermi.me,文章内容属作者个人观点,不代表本站立场。

分享这篇文章:

请关注我们:

发表评论

电子邮件地址不会被公开。 必填项已用*标注