江邊望海的技術人生
分享真知
UUID在用户跟踪的妙用

前言

如何识别来访的客户端,并采集它的数据做分析呢?这个实践有点儿网站流量分析的意思。网站流量分析就是识别不同的客户端并对客户端进行分析的过程。这里有一个核心的技术,就是对 客户端的识别

UUID

我们常用的技术实践是,通过服务器将一个唯一标识符分发给客户端,客户端将标识符存储在Cookie中,当它给服务器发送信息的时候带上Cookie服务端就可以轻易的识别了。那么,对于标识符也是有要求的,就是必须是“同一空间唯一标识符”。因此,就用到了咱们今天讨论的UUID。

什么是UUID?

UUID是Universally Unique Identifier的缩写,它是指在一定的范围内(从特定的名字空间到全球)唯一的机器生成的标识符。UUID具有以下涵义:

1. 经由一定的算法机器生成

为了保证UUID的唯一性,规范定义了包括网卡MAC地址、时间戳、名字空间(Namespace)、随机或伪随机数、时序等元素,以及从这些元素生成UUID的算法。UUID的复杂特性在保证了其唯一性的同时,意味着只能由计算机生成。

2. 非人工指定,非人工识别

UUID是不能人工指定的,除非你冒着UUID重复的风险。UUID的复杂性决定了“一般人“不能直接从一个UUID知道哪个对象和它关联。

3. 在特定的范围内重复的可能性极小

UUID的生成规范定义的算法主要目的就是要保证其唯一性。但这个唯一性是有限的,只在特定的范围内才能得到保证,这和UUID的类型有关。

UUID是16字节128位长的数字,通常以36字节的字符串表示,示例如下:

3F2504E0-4F89-11D3-9A0C-0305E82C3301

其中的字母是16进制表示,大小写无关。

GUID(Globally Unique Identifier)是UUID的别名;但在实际应用中,GUID通常是指微软实现的UUID。

UUID的版本

UUID具有多个版本,每个版本的算法不同,应用范围也不同。

首先是一个特例--Nil UUID--通常我们不会用到它,它是由全为0的数字组成,如下:

00000000-0000-0000-0000-000000000000

UUID Version 1:基于时间的UUID

基于时间的UUID通过计算当前时间戳、随机数和机器MAC地址得到。由于在算法中使用了MAC地址,这个版本的UUID可以保证在全球范围的唯一性。但与此同时,使用MAC地址会带来安全性问题,这就是这个版本UUID受到批评的地方。如果应用只是在局域网中使用,也可以使用退化的算法,以IP地址来代替MAC地址。

UUID Version 2:DCE安全的UUID

DCE(Distributed Computing Environment)安全的UUID和基于时间的UUID算法相同,但会把时间戳的前4位置换为POSIX的UID或GID。这个版本的UUID在实际中较少用到。

UUID Version 3:基于名字的UUID(MD5)

基于名字的UUID通过计算名字和名字空间的MD5散列值得到。这个版本的UUID保证了:相同名字空间中不同名字生成的UUID的唯一性;不同名字空间中的UUID的唯一性;相同名字空间中相同名字的UUID重复生成是相同的。

UUID Version 4:随机UUID

根据随机数,或者伪随机数生成UUID。这种UUID产生重复的概率是可以计算出来的,但随机的东西就像是买彩票:你指望它发财是不可能的,但狗屎运通常会在不经意中到来。

UUID Version 5:基于名字的UUID(SHA1)

和版本3的UUID算法类似,只是散列值计算使用SHA1(Secure Hash Algorithm 1)算法。

UUID的应用

从UUID的不同版本可以看出,Version 1/2适合应用于分布式计算环境下,具有高度的唯一性;Version 3/5适合于一定范围内名字唯一,且需要或可能会重复生成UUID的环境下;至于Version 4,我个人的建议是最好不用(虽然它是最简单最方便的)。

通常我们建议使用UUID来标识对象或持久化数据,但以下情况最好不使用UUID:

映射类型的对象。比如只有代码及名称的代码表。
人工维护的非系统生成对象。比如系统中的部分基础数据。

对于具有名称不可重复的自然特性的对象,最好使用Version 3/5的UUID。比如系统中的用户。如果用户的UUID是Version 1的,如果你不小心删除了再重建用户,你会发现人还是那个人,用户已经不是那个用户了。(虽然标记为删除状态也是一种解决方案,但会带来实现上的复杂性。)

UUID规范:RFC 4122


2018.10.18 日更新

PHP生成UUID的最佳实践

由于江边望海使用的开发语言是PHP。所以,使用PHP生成的最佳实践,可以参考 https://github.com/ramsey/uuid 该项目库 Star 数量7000左右,证明了是一个非常不错的开源库,使用者也非常多。这个库是基于RFC 4122规范编写的,实现了版本1,3,4,5的生成UUID的方法,引入项目非常方便,推荐使用。

Javascript生成UUID的最佳时间

下面这个是一个台湾的女性前端开发者编写的基于时间的UUID,代码中考虑到了可能出现的碰撞问题,所以,代码中使用了 Performance.now() (亞毫秒級的時間戳記),只要浏览器支持则很难出现 collision 的问题。

function _uuid() {
  var d = Date.now();
  if (typeof performance !== 'undefined' && typeof performance.now === 'function'){
    d += performance.now(); //use high-precision timer if available
  }
  return 'xxxxxxxx-xxxx-4xxx-yxxx-xxxxxxxxxxxx'.replace(/[xy]/g, function (c) {
    var r = (d + Math.random() * 16) % 16 | 0;
    d = Math.floor(d / 16);
      return (c === 'x' ? r : (r & 0x3 | 0x8)).toString(16);
  });
}

测试

for(var i = 0; i < 10; i++) {
  console.log(_uuid());
}

在浏览器终端生成的结果

7b382bd5-becd-4d93-8d3f-98aad78a049e
e3dea0f5-37f2-4d79-ae58-490af3228069
3e8d1c2b-f9f9-4a74-a8af-a4e8bebea438
eefbada8-efee-439a-af83-a80dde423dd6
8084d5dd-4f91-4590-927c-4751b49f2de0
06423d2c-1d62-429b-b6f9-de0a8d4ea95f
8b86b39e-5f2e-4abd-a8f0-2108a39a1d8a
62c8628e-e2e2-439d-80cd-b86e31e4bd59
1322e5db-91b0-4f12-94bd-fb4989d3cb95
0db3399e-55c3-44ba-822e-afcabf9b702b

这位台湾MM的博客:https://cythilya.github.io/2017/03/12/uuid/

总结:其实,在使用UUID的时候,最担心的就是ID重复的问题。特别是在高并发的系统中,一秒钟有可能需要处理十几万的请求,需要提供高可用的ID生成服务。对系统的严谨性是一个非常大的考验。

但是UUID也常用在对客户端的跟踪上。所以,并发量并不大,而且一般是由Javasript直接生成的。所以, UUID Version 4 是最佳选择,这一点可以从Google Analytics 的文章中得到验证。

参见:https://developers.google.com/analytics/devguides/collection/protocol/v1/parameters?hl=zh-cn#cid