当前位置: 首页 > news >正文

使用Python和SAS Viya分析社交网络

 

本示例使用Python和SAS分析了预防高危药物研究的结果。这个社交网络有194个节点和273个边,代表药物、使用者之间的联系。最近我们被客户要求撰写关于社交网络的研究报告,包括一些图形和统计输出。

背景

SAS Viya的最新版本提供了用于探索实验问题的全套创新算法和经过验证的分析方法,但它也是基于开放式体系结构构建的。这意味着可以将SAS Viya无缝集成到应用程序基础架构中,并使用任何编程语言来驱动分析模型。 

尽管你可以继续进行并简单地发出一系列REST API调用来访问数据  但通常使用编程语言来组织你的工作并使之可重复更有效。我决定使用Python,因为它在年轻的数据科学家中很流行 。

出于演示目的,我使用一个名为Jupyter的接口,该接口是一个开放的,基于Web的交互式平台,能够运行Python代码以及嵌入标记文本。 

   相关视频:复杂网络分析CNA简介与R语言对婚礼数据聚类(社区检测)和可视化|数据分享

复杂网络分析CNA简介与R语言对婚礼数据聚类(社区检测)和可视化

 

访问SAS云分析服务(CAS)

SAS Viya的核心是称为SAS Cloud Analytic Services(CAS)的分析运行环境。为了执行操作或访问数据,需要连接会话。您可以使用连接(建议使用该连接来传输大量数据),也可以通过HTTP或HTTPS通信使用REST API。 


 import matplotlib.colors as colors #程序包包括用于颜色范围的程序
 import matplotlib.cm as cmx
 import networkx as nx #呈现网络图
 

现在已经加载了库,我们可以发连接到CAS并为给定的用户创建会话。 

 s = CAS('http://sasviya.mycompany.com:8777', 8777, 'myuser', 'mypass')

对于此网络分析,我将使用一个名为hyperGroup 的集。

​
 s.loadactionset('hyperGroup')

​

加载数据 

为了执行任何分析建模,我们需要数据。 将本地CSV文件上载到服务器,并将数据存储到名为DRUG_NETWORK的表中。该表只有两列数值类型的FROMTO

​
 inputDataset = s.upload("data/drug_network.csv", casout=dict(name='DRUG_NETWORK', promote = True))

​

在分析建模期间,通常必须更改数据结构,过滤或合并数据源。 这里的put函数将两个数字列都转换为新的字符列SOURCETARGET

​
 sasCode = 'SOURCE = put(FROM,best.); TARGET = put(TO,best.);\n'
 dataset = inputDataset.datastep(sasCode,casout=dict(name='DRUG_NETWORK2', replace = True))

​

数据探索

建立分析模型时的常见任务是首先了解数据。下面的示例返回数据集的前5行。

​
 dataset.fetch(to=5, sastypes=False, format=True) #列出开始5行

​


一个简单的汇总统计数据会显示更多详细信息,包括我们数据集中273条边的总数。

 dataset.summary()

图形布局

首先,我们将网络可视化,以基本了解其结构和大小。我们将通过力导向算法来计算顶点的位置。Hypergroup还可以用于查找群集,计算图布局以及确定网络度量标准,例如社区和中心性。

 

 s.hyperGroup.hyperGroup(
    createOut = "NEVER", # 这样可以禁止创建通常生成的表
    allGraphs = True, # 处理所有图形
    inputs    = ["SOURCE", "TARGET"], #指示边和目标列
    table     = dataset, # 输入数据集
    edges     = table(name='edges',replace=True), # 结果表包含edge属性
    vertices  = table(name='nodes',replace=True)  # 包含点属性的结果表
 )
 renderNetworkGraph() # 使用networkx包创建图形

 呈现了以下网络,并提供了图形的第一视图。我们可以看到两个主要分支,并了解高密度和低密度区域。 

社区检测

为了了解社交网络中用户的关系,我们将分析个人所属的社区。社区检测或聚类是将网络划分为社区,使社区子图中的链接比社区之间的链接更紧密地连接。同一社区中的人们通常具有共同的属性,并表示他们之间有着密切的联系。 

现在,更新后的节点表包含一个附加列_Community_  ,其中包含我们网络中每个节点的值。给定此数据集,我们可以执行基本统计信息,例如跨列的不同计数:

结果表显示,确定了我们网络中的24个社区。

让我们看一下最大的5个最大社区,并分析节点分布。 

我们将获取的行重定向到Python变量中。我们将使用它来生成条形图,显示前5个最大的社区:

这表明最大的社区13具有35个顶点。 以下示例显示社区4中的节点:

最后,让我们再次渲染网络–这次在为节点着色时考虑了社区:

通常,需要根据您的网络规模和期望的结果来调整社区的数量。将小型社区合并为大型社区。社区可以合并:

  • 随机进入邻近社区
  • 进入顶点数量最少的相邻社区
  • 以最大数量的顶点
  • 进入已经具有nCommunities顶点的社区

下面将通过指定nCommunities参数将社区总数减少到5 。

中心性分析

分析中心性有助于确定谁在网络中很重要。重要人物将被很好地联系起来,因此对网络中的其他个人具有很高的影响力。就我们针对社交网络而言,这将表明潜在的病毒传播和个人的相关风险行为。

每个度量标准都表示为节点数据集中的输出列。

让我们使用中心性度量之一作为节点大小再次渲染网络。 

 

子集网络分支

从我们的网络来看,社区2中的用户似乎扮演着重要角色。这由社区的整体中心地位,也由该社区中大多数个人的高beetweenness值表明。以下代码过滤并渲染了社区2的网络,仅使我们对该子网络有了更好的可视化。

上面的示例使用了标准的二维导向图布局。在更复杂的情况下,可能还需要在分析网络结构时考虑使用其他维度。 

 


相关文章:

  • 【前端】3. CSS【万字长文】
  • 【方案探讨】 出现java.io.IOException解决方法
  • Python介绍(未完)
  • JavaScript的循环语句有哪些?作用是什么?
  • vscode 配置go环境
  • java 红黑树
  • vmware中Numlock和caplock一直闪烁(更新时间24/2/28)
  • 水电表远程集中抄表管理系统
  • 【C语言】学生宿舍信息管理系统
  • 网络初识(概念入门)
  • Springboot企业级开发--开发入门01
  • 读《Shape-Guided: Shape-Guided Dual-Memory Learning for 3D Anomaly Detection》
  • Java并发编程学习14-任务关闭(上)
  • Nginx安装搭建之源码方式(Centos7)
  • 华为网络模拟器ENSP安装(附安装包)
  • [附源码]计算机毕业设计基于Springboot的项目管理系统
  • RISC-V SiFiveU64内核——L2 Prefetcher预期器
  • Java项目:SSM电器商城系统
  • 线程池详细介绍
  • 微服务框架 SpringCloud微服务架构 10 使用Docker 10.9 数据卷挂载案例2
  • HTML5期末大作业:用DIV+CSS技术设计的网页与实现(剪纸传统文化网页设计主题)
  • 【Verilog基础】Verilog中不可综合语句及可综合模型原则
  • Nodejs进程间通信
  • VMwareWorkStation如何添加万兆网卡,万兆网卡添加教程
  • Android-Jetpack Compose的简单运用
  • 振弦采集模块的信号检测与分析计算
  • 后端存储实战课——高速增长篇
  • [附源码]计算机毕业设计基于SpringBoot的高校课程知识库
  • 项目管理逻辑:为什么职能部门官僚主义气息浓重?
  • [附源码]计算机毕业设计现代诗歌交流平台Springboot程序
  • Android使用ListView,DrawerLayout实现简单注册功能界面
  • Java基础:Object类、常用API