***** - 首页 - 微博


越来越多的朋友在使用 platon.AI 的 pulsarR,以及 exotic 系列开源项目来解决最具挑战性的数据采集问题,来保证数据质量,并极大降低总体成本。

同时,platon.AI 的人工智能方案,能够 100% 无人干预将网页变成数据 -- 不需要配规则,甚至也不需要机器学习训练,它是无监督机器学习驱动的,像人一样去阅读理解互联网。自动结构化大规模网页是通往强人工智能的关键基础技术之一。

我们将每个网页在浏览器中渲染后,通过 js 计算出每个网页元素的一系列属性,主要包括元素的位置和大小。同时,我们定义了网页元素的更多有趣的特征,譬如拓扑和语义相关的特征。

这样,一张网页可视作由很多个带属性的矩形组成的几何图形(Geometric graph),将全体网页压到一起,如同一捆报纸,万维网(WWW)可以被视作以三维流形为基空间的纤维丛。

https://weibo.com/mygroups?gid=221012100009820647