7月9日上午,上海和平饭店的一处空间里,中国天眼计划FAST首席科学家李菂,和腾讯优图实验室副总经理黄飞跃同时现身,接受了一场采访。
同日下午,10公里外,黄浦江对岸的世博中心里,世界人工智能大会进行到第二天。在腾讯论坛上,腾讯与国家天文台联合启动"探星计划"。
这意味着,在未来双方将基于腾讯优图实验室领先的计算机视觉技术、腾讯云的计算能力来帮助中国天眼FAST处理每天接收到的庞大数据。视觉AI技术将成为寻找脉冲星线索的工具。
这个“探星计划”,也是李菂和黄飞跃——此番作为合作伙伴——共同出席这次采访的大背景。
李菂
黄飞跃
脉冲星的实质是高度磁化的旋转致密星,这种星体由恒星演化和超新星爆发产生,因发射周期性脉冲信号而得名。
脉冲星通常是中子星,但也有白矮星,两者是宇宙中恒星最终将会成为的三种物质之二,第三种则是黑洞。
这也是为什么脉冲星具有在地面实验室无法实现的极端物理性质,被视作理想的天体物理实验室。对其进行研究,有希望得到许多重大物理学问题的答案。
比如其中对于脉冲星旋转周期的研究。
脉冲星的自转周期极其稳定,准确的时钟信号为引力波探测、航天器导航等重大科学及技术应用提供了理想工具。资料记载,在年对于脉冲星的部分观测显示,其周期精度已经超过原子钟。而当前国际时间和频率转换的基准,正是基于这种原子共振频率的周期性。
虽然脉冲星本身具备非常高的研究价值,但只有当其的发射光束指向地球时,地球上的观测设备才能观察到这种辐射。50多年前,脉冲星才第一次被发现。
年10月,剑桥大学卡文迪许实验室在检测射电望远镜收到的信号时无意中发现了一些有规律的脉冲信号,它们的周期十分稳定,为1.秒。
在接下来的几个月里,实验室又接连数次观察到同样的脉冲信号。后来人们确认这是一类新的天体,并把它命名为脉冲星,与类星体、宇宙微波背景辐射、星际有机分子一道,并称为0世纪60年代天文学“四大发现”。剑桥大学卡文迪许实验室的安东尼·休伊什教授本人也因脉冲星的发现而获得年的诺贝尔物理学奖。
中国天眼
另一方面,中国对脉冲星的观测历史并不久。
年10月10日,中国科学院国家天文台公布世界最大单口径射电望远镜——米口径球面射电望远镜,也就是被称为“中国天眼”的FAST——所取得的首批成果。其中极重要的一项是,我国射电望远镜首次发现脉冲星。而最新的公开资料显示,FAST已经捕获了超过颗脉冲星。
但FAST的观测只是发现脉冲星的环节之一。更精细的信息画面捕捉在拉高脉冲星探索上限的同时,也在考验观测团队对于体量呈指数增长的观测数据的处理能力。
这个米口径的庞然巨物带来的是峰值每秒接近40G的数据量,一周内产生的数据大约相当于0万张信号图,如果以人工肉眼1张/秒的处理速度来看,在不吃不喝不休息的条件下,大概需要用一年的时间才能处理完。
这对于团队很小,并且在数据处理方面涉猎不多的FAST团队来说是摆在眼前的难题。
这正是精于视觉AI的优图可以切入的地方,在用视觉AI对图像进行预处理后,1年才能完成的数据工作量现在只需要3天就可以处理完。
以下是此次采访的实录。
为什么脉冲星这么重要
记者:脉冲星的研究在天文的领域里面大概处于什么样的位置?
李菂:做个不恰当的比喻,(脉冲星的意义)有点像现在科技领域的人工智能。它年被发现,年发现第一个脉冲星双星系统。在最近十来年脉冲星在天文领域进入到相对平稳或者低潮的阶段,因为有很多其他的科学,关于行星、星外文明、天体化学的研究热潮出现,但脉冲星一直是天文领域的一种基础研究。
回看IT行业的发展,其实很多的概念是每十来年兴起一次,人工智能最有代表性。它最开始出现像仿生,神经网络的概念,但神经网络缺乏数学基础,炒了一段时间就冷了。然后出现了一些数学上的进步,对非线性过程给出了数学解释,又炒了一遍。但是它的应用场景仍然不是非常明确。
但最近几年,包括天眼在内,随着观测和观测处理能力的提高,新的观测设备要寻求应用的场景,脉冲星的辐射提供了很有意思的信号和依然未能解决的基础物理问题。
提一个比较奇特的事情,它是射频领域宇宙中间最亮的信号,在千分之一秒的时标上辐射太阳一年的能力,这么亮的信号只需要家里一个电视天线就行,不需要天眼,它奇特的就在这儿。
记者:中国现在在脉冲星这一块的研究,在世界上是处于大概什么水平?
李菂:中国其实一直有非常优秀的世界一流的脉冲星研究的团队,但是更偏重于脉冲星的理论研究或者脉冲星的模型研究,这个主要是缺乏观测的设备。这个情况在过去十年,过去五年有一个根本性的变化。
这个变化实际上是和中国过去30年的基建投入、科学投入、GDP的增长是完全一致的。因为脉冲星是个高能的天体,有磁场、密度、快速旋转,有各种各样的信号。过去的几年,我们第一次有了自己的天文卫星,有了地面大型的观测站,有了手机蓝牙射频通讯波段,世界上最大的天线,这在0年前、30年前没办法想象的。
我们从一个主要做理论研究的“社团”,转向了观测研究,而且还有独特的领先性。在FAST年建成以前,中国的望远镜或者中国工作的科学家从来没有发现过新的脉冲星,年之后已经有超过颗新的发现,并且这些新的发现里面诞生出了两个诺贝尔物理学家。
在观测的天文科学上我们自己真正有了领先的设备,这个在五年以前都是没有的,这是一个根本的变化。
记者:观测脉冲星,主要是观测哪些数据?
李菂:它是一个一直在转的,10公里大小的东西。比方说它一秒钟转,在星体边缘的速度就已经可以达到光速的量级了。它在通过射电的脉冲穿过银河系时,会留下一些时间特征,我们可以测量它多次信号到达的时间间隔——一般情况下有比较严格的周期性。
这就像电脑里的芯片,它本振的频率本质上决定了芯片的处理速度,这是一样的。我们希望测量脉冲星的时间特性。还有它辐射的特性,比如它在一个周期里强度是怎么变化的,这个蕴含了星体周围的条件。
还有一个比较有意思的点是,这个光信号穿过星际空间,星际空间除了真空,还有电子,这时候光就像穿过水一样,会有折射。这种折射在我们这个领域叫做色散,因为不同频率的光速度不一样,这样会产生类似于声波的多普勒效应,高频的信号先到,低频的信号后到,是变频的。通过处理,我们可以得到这个特征,通过这个特征继续反推星际空间中存在的物质,也可以帮助限定距离有多远,这里面有进一步分析的信息。
关于脉冲星,视觉AI能做什么
记者:这次合作一开始是怎么发起的?
黄飞跃:腾讯优图的定位,一方面是做很多的原生自发的科技探索,计算机视觉,最近几年也在做产业落地。另外一方面,我们也希望有更多的一些偏科研性的探索。出于这样的初衷,我们内部讨论,觉得优图的的AI、CV技术可以比较好的帮助FAST天文台探星的事情。我们有两个同事对天文、天体特别有兴趣,另外有个同事在读硕士的时候就做过一些天文的信号分析,所以我们就开始去寻找这样的合作。
我们去年春节前就确定好了希望要在这个方面做一些探索,跟李老师建立一些联系。李老师专业的知识对我们非常有帮助,我们也有优秀的算法、比较强大的计算资源和计算能力,所以合作是非常顺利的,互相促进,互相提供对双方都特别有帮助的。
记者:FAST团队在之前的研究中会用到人工智能方面的技术吗?
李菂:其实我们团队本身也会大量用到机器学习、人工智能相关的技术,但我们一般是用现有的工具,因为我们缺乏一线的,在底层做开发的能力——像天文这种,越是基础的学科就越毫无用处,一旦开始有实用性就会开始脱离基础研究的性质。这个等于是对研发的人员提了一些不太合理的要求,为什么要来做这个?这也是为什么我们非常愿意跟有专业背景和构架的单位进行合作,这种合作也是产生效益比较快的。
在和腾讯优图的合作中,免不了一开始有一些学习的门槛和曲线,比如在计算效率、数据传输的地方还是有明显的需要改进的地方。但是这个磨合阶段进行得很快,在合作后我们最近已经有了脉冲星的发现,这是实打实的科学成果,我们还是非常兴奋的。
记者:优图加入后,脉冲星新的发现是不是比以前更快了?
李菂:整个的效率更高,识别的速度是明显加快的,但对信息的最终认证还是要回到FAST团队的专业人员身上。
其实我们拿到的原始观测数据,实际上像是一个视频素材。两个观测的维度一个是时间,一个是频率。但这个素材人脑人眼是无法处理的,实际上机器视觉在近几年内也无法处理,能处理的素材只到照片的程度。所以原来的办法是一段段截出来分析,把周期简化,把色散剪掉,当成一个个特征图。但现在有了优图的视觉AI技术加持后,我们可以通过AI视觉来直接分析原始的视频素材。
黄飞跃:其实我们跟李老师合作的时候,最开始李老师他们团队也有非常好的框架基础的,不仅仅是说场景、数据、业务,也有成熟的机器学习的算法模型。我们在这个基础上,合作的这几个月取得了新的一些进展,比如最原始的一天采集到的数据大约有T,一个礼拜有0万张的信号图片,数据量是巨大的,首先T怎样转换成更有效的数据,实际上要做一系列的原始信号处理,我们把这个过程做了大幅的加速。
另外对信号我们会用机器学习的方式来寻找疑似样本,再交给FAST团队的专业人员看是不是我们真正发现了脉冲星信号。这时候就要面对准确率的问题。我们后面新的算法在准确率上是会有比较大的提升,命中率会比原来高,这也降低了后期专业人士的人为筛选的工作量,这是最近两个月取得的一些成果。
记者:目前AI探星上存在的难点在哪里?
黄飞跃:有两个难点,一个是做深度学习最核心的要有海量的已经有标注的数据作为训练数据,拿训练数据调整优化我们的模型。但脉冲星观测甚至天文领域里,有标注的训练数据仍然相对偏少,这时候我们用来训练可能会存在一些困难;第二个难点是,同样的天体信号用不同的望远镜、设备观测,得到的数据、展现形式不完全一样。
记者:如何解决呢?
黄飞跃:针对这两个困难,我们基于优图原来做人脸识别、人体检测、工业检测等等的技术积累,针对海量缺少标注的数据我们是有一个自监督的学习方法的,这样对于有标注数据的依赖会大大减少。另外对不同场景,不同的设备拍出来的数据我们有一个跨域学习的概念,不同设备的数据会通过整合进入训练过程。
这是个方法论层面的东西,上面这些方法跟我们现在做的工业检测,车辆检测等,里面的很多方法是通的。我们之前用机动车和非机动车的检查,这种数据的差异性、多样性也是非常大的。
记者:这次的合作中优图除了提供了技术之外,还会应用到腾讯内部哪些的业务能力和资源的支持?
黄飞跃:这次合作也会用到腾讯云的计算资源。现在大量的数据也是通过云存储的方法存储在腾讯云上,另外数据处理方面也会用到腾讯云GPU云服务器的算力。