风暴注册
大家下午好。非常荣幸能够来参加这次平台·城市的论坛,我是脉策数据科技有限公司的刘培锐,大家可能对我们公司不是很了解,但是在微信上有一个公众号叫城市数据团,可能大家多多少少会有一些了解,我们致力于大数据方法和技术在的城市研究领域的应用,做过一些比较有意思的研究,都在公众号里面供大家阅读和参考。
今天我跟大家分享的是我们在各行各业,包括政府、企业、研究机构做的一些大数据的研究,从中我们总结了一些技术方法和路径,包括一些成果,在这里展示一下。
这里有一个副标题,讲的是在数据背景下我们的城市研究应该往哪一个方向发展,怎么去做,这是我今天想讲的内容。
传统城市研究本身的方法和技术手段是非常完善的,但是它大多用的是官方统计数据,包括经济、人口、产业等等,在高速发展的阶段,城市每天都在变化,所以统计数据的劣势也在显现,主要体现在数据精度和更新周期上,所以我们会去探索更多维度的新兴数据来弥补统计数据的不足。
首先进入我们研究领域的是互联网开源的数据,它成本较低,比较容易获得,在精度和更新速度上优于传统的统计数据,适合大数据研究初级的应用。同时,有越来越多的商业数据进入我们研究的领域,比如手机信令数据、工商注册数据等等,这些数据的空间精度和更新频率是非常高的,为我们城市研究提供了很多新方向和视角,但唯一的不足是成本较高。因此,大数据不是指数量有多大,它是一个多元数据的融合,通过多维度数据共同验证,得到一些我们以前可能发现不了的结论。
上海有多少人
先回答这样一个问题,上海有多少人?
作为城市研究来说,其实最重要的是讲清楚一个城市到底有多少人口,最新的上海总规定了一个控制人口规模的上限——2480万,暂时不评价控制人口本身正确与否,先来了解上海现实到底有多少人?
来看这样一条曲线,这是2017年春节前一直到2018年春节后的曲线,我们看到第一个波谷是春节时上海人全都回老家了,因为上海是全部流入劳动力的大城市,很多劳动力回到老家过年了,这时候上海人口仅有1500万,是平时的一半。
春节之后大家回来了,人口规模恢复到正常水平。
接下来我们看到在清明、五一、端午小长假期间出现三个小波谷,为什么呢?上海人都出去玩了,这时候人口规模会有略微下降。
接下来全国中小学生放暑假,全国人民都带着小朋友来上海玩了,这时候达到高峰,是3000万人。
十一小长假有更多人出去玩,流出去的人口会更多一点。十一以后是一个没有假期的稳定期,再到2018年前的春节进入下一个变化周期。
总体看来,其实在我们讨论上海到底有多少人的时候,它不是一个静态的问题。经过我们的测算,我们知道上海最高峰大概三千万人,上海年平均的人口是2780万,上海人口最低值的是1500万。
当我们知道这个数据的时候,我们的城市是要为3000万人口提供服务,还是为2780万人提供服务,还是为1500万人提供服务,这是一个问题。
空间分布
第二我们想知道上海这些人在空间上是怎么分布的。我们通过手机信令数据,把人口分配在地图上面。
总体来说,上海的人口密度随着中心城区向外扩散呈现递减的趋势。
同时我们也发现,像黄浦、静安这样的中心城区人口已经不是最多的了,因为该拆的都拆了,这个地方的人并多,而在杨浦、宝山这样一些区域居住人口比较更多。
居住环境
接下来,我们想看看他们的居住环境怎么样?
我们把人口分布和上海760万套住房做了空间匹配,可以来反映他们的居住情况。
我们得出这样的数据,上海居住条件最好的地方是新江湾城,大概0.8人每套,而且我们知道新江湾城大部分是140平以上的大户型,这里其实每户里面居住的人口是最少的。
上海居住人口密度最高的地方是提篮桥地区,包括老城厢、老工房,这里每套住了8.1个人,我们也不知道他们怎么住进去的,但是可想而知是他们的居住条件和环境。
我们算了一下,平均上海平均每套房住3.2人,这是符合我们常规认知的。
营商环境
另外现在大家提得比较多的是“营商环境”,那我们来看看上海营商环境怎么样?
利用工商数据库做了这样两张图,左边是工商注册企业的分布图,由于各个区都有自己的企业的招商引资的政策,一些优惠的条件,因此在注册企业上是呈分散均匀的分布特征。
右边这张图是企业实际办公地址,它更多的呈现极化的特征,集中在内环以内,因为企业想要一个好的办公环境、好的设施、好的交通环境,大家都会把办公楼选在更靠近市中心的区域。
现在大家知道上海要打造 “科创中心”这样一个目标,我们看一下科创企业分布,我们测算了一下它的分离度,大概有65%的企业注册地和经营地不在一起,这是企业的市场行为选择,跟规划和政策引导可能都不太一样。
这背后涉及到一个数据,在整个服务行业里面金融、商务服务、科创信息类的企业,他们对办公的租金的承载力其实是不一样的,我们一直说金融科技在一起,其实我们发现金融和科技他们对房租的承载其实是完全相反的两个曲线,虽然看上去他们应该在一起,但是现实把他们推得越来越远,他们在空间分布上越来越远。
日常通勤
有了办公,有了居住,我们看看上海人到底每天怎么上班的?
这张是我们通过手机信令画出城市早高峰OD图。
因为上海是一个多中心城市结构,除了中心城区有了一个联系强度以外,中心城区和外围新城、外围新城之间都会有一些联系,还有人从崇明岛浦东、浦西来上班的情况。
这里分了几个案例,第一个是人民广场和陆家嘴,这两个地方是上海市比较重要的城市中心,其实也是一个就业中心,工作在人民工厂和陆家嘴这些人他们在哪里居住?
我们发现辐射的范围非常广,浦东浦西内环、外环以外都有他们的居住点,这些人每天往返在城市中心和外围区域。
另外我们选择了两个区,一个是大宁,一个是江湾城,在这里工作的人他的居住限定在了一定的地域范围内,由于城市副中心能级并没有那么高,这里工作的人都分布在地铁沿线和周边临近的一些区域。
有了这样一些分布和分析,我们可以测算出,上海人平均每天出行上班要花多长时间,和花多长距离。
最远的是世纪公园和虹桥商务区,通勤距离超过13公里,最近的大连路、大宁这些6公里不到,上海市平均的通勤距离大概是10公里左右。
共享单车
我们再来讨论一下现在比较火的共享单车,我们说共享单车改变了我们的生活,有什么改变?
我们拿到摩拜的数据,我们取了每个用户在骑行过程中的骑行轨迹,我们看到有些人在一个区域内骑行活动,有些人可能会跨区域分别在不同区域骑行活动。
说说共享单车对我们的生活有什么影响,这里我们拿共享单车之前和共享单车之后租房的价格和它离地铁站的距离之间的关系,画了一个曲线。
我们发现在共享单车之前2014、2015年之前市场对地铁房有明确的概念,900米以外已经不再划定为地铁房,它的租金会呈断崖式的下跌。
而在共享单车之后,这个距离增加到了1600米,因为相同时间人骑车可以达到距离更远,所以市场上面把地铁1600米范围内全部划定为了地铁房,所以共享单车在给我们带来方便的同时,也让大家承担了更高的房租和更高的生活成本。
玩具→工具→datamap
说了这么多城市研究,大家会觉得有意思,会发现以前没有的现象和成果。最开始我们也是把数据分析作为自己的爱好,凭兴趣去做,我认为它是一个玩具。
后来我们觉得它应该不仅仅作为一个玩具,因为它还是能够反映城市运行和城市空间实际的问题,后来我们逐渐想把它变成一种工具。
我们跟政府、企业各种城市研究的业务,我们有了这样多维度、多元的数据,使我们在宏观层面做人口、企业、交通分析时,我们有了更多的手段。
在城市内部,我们可以做更精细化的分析,有了这些数据和分析手段我们可以解决城市里面更复杂的问题。我们给城市不同的部门、不同企业,提供了更丰富的解决方案。
另外作为工具,我们认为应该不仅仅是我们自己使用,我们还是想让更多人能够使用大数据的方法和手段。
这里通过两种方式,其一,城市数据团在网易云课堂开设了很多课程,我们会把自己所有数据采集、数据处理以及可视化的方法告诉大家。
另外针对企业和组织,我们做了一个叫Datamap的数据平台系统,我们将跟城市空间相关、涉及到城市研究的大部分关键性指标数据,都集成起来形成这样一款通用性的数据平台。
举几个例子:人口方面,我们可以把人口分布在250X250米的栅格里面,在这个精度下我们可以做到任意街镇、任意地块、任意半径范围内查询,日间人口规模、夜间人口规模以及人口结构。
人迹方面,我们通过手机识别出人的工作地、居住地,可以查询任意范围内居住人口的工作地以及工作人口的居住地等信息。
公共设施方面,我们把地图POI信息做一些分类汇总,包括教育、医疗、卫生、交通设施等等,就可以分类别、分片区查询这些设施在片区的分布,以及分析哪些区域设施不足等。
产业方面,我们可以查询某个行业和企业怎么分布的,可以分析产业的集聚情况、产业的变化情况等。以前我们不知道这些数据从哪里来,不知道这些数据怎么分析,怎么利用数据去研究这个城市。
通过这个系统化平台化的工具,方便更多的人,不用懂太高深的技术,也不用知道数据库的用法,也不用懂的数据算法,就可以直接查询并完成数据的空间可视化。
大数据应用
另外,我们也会给政府做一些定制化的业务场景。举一个例子,叫做15分钟生活圈,这是上海总规新提出的概念,是以家为中心,每个人出发15分钟能够走到的范围内,要满足基本的公共服务设施配置。
这个理念对公共服务配套提出了更高、更人性化的要求。传统的公共服务设施布局是以设施为出发点,划一个直线距离作为半径,设施的服务半径之外配另外一个设施,这是比较传统的做法。
现在提出以人为出发点,我们引入了实时路径规划的技术方法,我们画出了每个小区或者每个人从家里面出发,依据他周边道路,15分钟实际能够到达的范围,可以看到这是一个不规则的图形,每个人出发的点都不一样,全部叠在一起,形成了一个路径范围的图。
这里面我们再把公共服务设施放进去,有些公共服务设施在15分钟范围内,我们判定它是满足我们基本公共服务需求的。有些片区没有这个设施,表示该片区的设施不满足需求。
另外还有一种情况,周边好像临近有一个设施,但是15分钟到不了,我们从便利性的考虑,这类设施它也是不满足他的日常生活需要。
通过这种算法,我们更真实、更有效地反映公共服务设施的配套。除了空间距离以外,我们还要跟人口去匹配,浦东区有中心城区、有城市拓展区,也有外围的新城,人口分布有非常大的差异。
因此需要通过人口密度分布,判断哪些地区配什么样的设施以及配多少设施。其实各个部门原来有自己的千人指标配置标准的,在15分钟的原则上我们给它提出了更便利,或者更精确的,符合人的需求的公共服务设施配置的原则,通过这个原则我们去评价浦东新区各项设施到底是否符合要求,或者是否满足。
另外,光评价是不够的,评价之后我们必须提出改善建议,比较有效的方法是新增某个设施,那新增的设施在哪里选址,这个问题更复杂一点。
这几张图表现的是如何实现公共服务设施落点最优的算法,即用最少的配置的公共服务设施的点位,满足最多人群的需求,这就是我们进行大概七轮的筛选,最后选出来这些红色的区域是我们需要配置公共服务设施的区域,我们把这个结果交给规土部门,他们去做设施布局规划和设施用地调整,他们有更详实的基础和更多的方法去做这个工作,到这里我们认为这是我们在大数据的技术层面上真正地解决了某个具体的业务问题,帮他们评价了公共服务设施,并且给出了公共服务设施的布局建议。
回来反思一下,数据对城市转型到底起了什么作用?
这是城市研究常规的业务流程,基本上按照收集数据、整理数据、构建研究框架、完成报告、落实具体工作这样的业务流程来进行,看起来没什么问题,但是大家应该都注意到,所有研究成果中的数据在某一时间截面固化下来,缺少一个更新维护的机制,导致研究并没有办法充分反映城市发展的现实情况;另外在下一次工作周期中,所有的工作还是要从收集和处理数据开始,并没有形成相应的数据沉淀作为后来的工作基础。所有这些问题,我们总结下来,是由于目前的研究业务没有形成数据流的概念。我们现在想帮助城市研究人员建立这样数据流的概念,通过提供Datamap这样一个便捷化的工具平台,大家可以把各种各样excel表格,包括带空间属性的,不带空间属性的,都汇总在一起,方便研究人员进行查询和分析,以及做各种数据的可视化工作。
我们说大数据其实给我们带来了什么改变?我觉得就是三个方面:
第一,沉淀数据资产。通过规范化的数据工作流程和工具,帮助其在业务过程中积累数据资源。使得数据得以持续的积累与增值。
第二,组织运转提效。利用数据技术和先进的数据平台工具,帮助分析人员快速地调用各类数据,生成图表;为多部门协作管理提供数据服务和支持,提升组织运转效率。
第三,支持精整决策。通过数据化转型,结合历史和多部门综合数据,利用模型及算法,提供综合评估,降低由于信息缺失带来的决策风险。
最后总结一下,在整个城市研究或者数据分析领域中,我们有三个共识:
第一,数据科技的最终目的是解决实际问题。最终的目标是帮助企业、帮助城市研究团队,帮助政府去解决实际的问题和需求。
第二,数据之“大”是且只是一个工程问题。我们发现后来我们做的15分钟也好,做的城市研究也好,其实它的数据量并没有多大,相比某些商业级数据来说它其实数据量很小,但是我们反过来却可以用大数据的思维和技术方法去思考和解决这个问题。
最后,数据赋能大众是我们的最终理想目标。我们想把数据的技术方法包括数据的思维推广给更多的专业领域研究人员,给政府部门、给企业去灌输这样一个思想,让他们认识到数据能够产生更多的价值,这也是我们做Datamap以及公众号最终的目标和理想。
谢谢大家。
提问:城市生活垃圾的产生量有多少,它可以反映一个城市的经济实力和增长潜力吗?
“
刘培锐:具体数字我也不是很清楚,但是在城市研究里面,我们确实用到居民的生活用电量、居民生活用水量以及生活垃圾的产生量这样的数据做人口的分析和预测,目前的技术是成熟的。但是数据之间相关性不一定是因果性,我们不能拿某一个数据,单一维度的数据去判断这个城市经济怎么样,或者它以后应该产生什么样的结果,我觉得这个思路可能是不对的。因为一个城市是一个非常复杂的系统和体系,里面包括各种各样多元的指标和数据,我们可能会从数据中间找到某些指标和我们的经济发展非常相关的,但是它并不是说就按照这个趋势和逻辑发展下去,直接推导出我们经济未来发展。
来源:上海金融与法律研究院
作者:刘培锐
注:本公众号转载文章仅用于分享,不用于任何商业用途。如涉及版权问题,敬请后台联络授权或议定合作,我们会按照版权法规定第一时间为您妥善处理。
————————————
微信编辑:陈嫡返回搜狐,查看更多
责任编辑: