Visualizing the World’s Top Plastic Emitting Rivers

这是一个全球塑料主要排放河流的可视化作品。每年大约有 800 万吨塑料进入海洋——相当于每分钟一垃圾车的废塑料。有的掩埋在地下的塑料会流入河流,有一些通过水循环从城市进入大洋。塑料排放在大型河流的大型人口中心尤其明显,特别是在中国,印度尼西亚和尼日利亚等快速城市化的地区。

屏幕快照 2019-06-28 下午3.43.59.png屏幕快照 2019-06-28 下午3.43.29.png

中国最大的河流长江养育着超过4亿人口,是地球上最多产的塑料废物排放河。中国政府已经认识到这个问题,要求在近 50 个城市进行垃圾分类回收,并制定到 2020 年回收率提升到 35% 的目标。

by @青湳(qingnan)


WHEN THE TOO-EARLY BIRD SINGS

国家地理发布了一个作品,将的是光污染对鸟类的影响。通过非常巧妙、美观而又直观的可视化设计,传达了在有人工光照干预的情况下,部分鸟类会在一年中叫早的时间开始频繁鸣叫。大家可以感受一下这种既科学又美观的信息图表设计。国家地理到底是国家地理啊!

LoVD-Part61a.jpg

by @步茗Neo(neowang)


Rappid-Powerful Visual Tools

Rappid是一款强大的可视化工具,可以定制界面上的每一部分,并且可嵌入任何页面中,支持通过Ajax和JSON与后端通信。我们先来直观的感受一下:

editor-1.gif

editor-1.gif

editor-1.gif


使用Rappid可以做什么呢,下图就完整的展示了它的能力。

image.png


你是不是觉得以上这些工作都只能在PC上面完成,No,No,No,Rappid支持PC、平板及手机端,所以,我们可以随时随地完成上面的工作。

image.png

除此之外,它还兼容主流的前端框架及类库,支持jQuery、AngularJS、React及Backbone.js。最后,Rappid还支持Plugin机制,通过Plugin,可以极大地丰富Rappid的能力。

by @聚则(moyee-bzn)


解决文本避让的聚类算法比较

Deck.gl 中解决点要素文本避让问题时,使用到了一种聚合算法 HDBSCAN(Hierarchical Density-Based Spatial Clustering of Applications with NoiseComparing Python Clustering Algorithms一文详细介绍了为什么要使用「HDBSCAN」这种聚合算法。

image.png


sklearn.cluster 中包含了十几种不同的聚合算法,如何选择合适的算法呢?如果我们了解数据集的详细信息,那就很方便选择了,如果我们想聚合文本数据,那就应该选择文本聚合算法。但如果我们无法获悉数据的详情呢?例如在做探索性数据分析 exploratory data analysis (EDA) 时,该如何选择呢?


首先要了解 EDA 场景下一个好的聚合算法应该满足哪些条件:

  1. 不能错误聚合。既然是探索性数据分析,聚合应当是谨慎的,没有结果好过错误的聚合结果,因为这会误导后续的研究方向。而大多数聚合算法并不是这样考虑的。
  2. 聚合的参数应当是直观的。既然我们对数据知之甚少,在选取聚合的参数上就不能和数据详情强相关。
  3. 聚合结果是稳定的。如果在调整参数过程中发现聚合结果差别巨大,显然就是不稳定的。
  4. 高性能。用大数据集中的小样本运算是无意义的。


接下来比较了几种不同的聚合算法的结果,按照上述 4 条标准评估,很明显 HDBSCAN 效果最好

算法名

是否满足探索性分析场景

聚合效果

原始数据集

未聚合

K-Means

常见的分类算法

  1. 无法指定聚合范围,全局范围内聚合效果不佳
  2. 严格意义上是分类而非聚合算法。需要传入聚合结果集数量(例子中为 6)
  3. 稳定
  4. 算法本身简单,因此性能高

image.png

Affinity Propagation

基于图方法,让每个点投票决定加入哪个集合

  1. 无法指定聚合范围,全局范围内聚合效果不佳
  2. 相比 K-Means 中需要预先知道结果集数目,参数更加直观一些
  3. 稳定
  4. 性能低下

image.png

Mean shift 


  1. 结果不准确,需要订正(图中的黑色区域)。
  2. 参数相对直观
  3. 不稳定,多次运行结果可能不同
  4. 性能低下

image.png

Spectral clustering

k-NN 图

  1. 存在噪音数据
  2. 和 K-Means 一样,需要预先知道集合数目
  3. 较稳定
  4. 性能较低

image.png

Agglomerative clustering

  1. 较好的正确性
  2. 和 K-Means 一样,需要预先知道集合数目
  3. 很稳定
  4. 性能较高

image.png

DBSCAN

density based。低密度区域的点会被忽略

  1. 第一个满足正确性的算法。不假设每个点都一定属于某个集合。
  2. 不直观。参数 eps 需要调试
  3. 很稳定
  4. 性能很高

image.png

HDBSCAN

基于 DBSCAN 改进

  1. 继承 DBSCAN 的优点
  2. 很直观。聚合阈值
  3. 很稳定
  4. 性能很高

image.png

by @沧东(cangdong)


Notabilia - 对争论的可视化

image.png

Notabilia选取了wiki上最长的100条讨论,而这些讨论导致了对应wiki词条内容的删除和保持,将争论的阶段性发展及结果进行可视化之后,得到的是一个典型的L-System。每条讨论都从一个根节点开始,每一个争论的阶段,其长势和颜色表示了争论的暂时结果— 绿色+向左表示保留内容,而红色+向右代表内容的删除。随着时间的发展,每个阶段表示图形的长度和生长倾角逐渐衰减。

by @sakuya(liuye-szvim)


那些久远美妙的可视化作品

一个非常有历史年代感的可视化作品集,这里收录了很多50年、60年甚至100多年前的可视化作品,比如这些:

by @广知(guangzhi-le8e5)


超市购物小票上的可视化

我们正常看到的小票是这样的:

image.png

Netflix 数据可视化工程师重新设计并优化了超市小票,变成下面的:

image.png image.png

只是将简单的气泡图和条形图移植到小票上,就带来了不一样的用户体验效果。

by @逍为(hustcc)