Skip to content
- 课前准备:
- 安装好WSL,具体可以看微软的官方教程,记得先更新系统到最新
- 安装Visual Studio Code,可以直接通过Win10/11的应用商店安装
- 获取数据的途径
- 他人整理,是否知情同意:
- 公开数据集(拥有者/整理者主动提供):
- 数据交易(提供方未必合法拥有处置权):
- 市场推动:主流的数据供应商
- 政府主导:上海数据交易所等
- 法外之地:暗网交易、恶意泄露等
- 自行获取
- 是否知情同意:
- API调用(平台提供接口,需求方调用,遵循规则):
- 爬虫获取(需求方主动设法获取):
- 政府网站:往往疏于防范
- 商业网站:一般会有反爬机制
- 具体如何实现:
- 数据存在的形式
- 非结构化和半结构化,需要额外处理
- 结构化
- 文本形式
- 带分隔符的纯文本,可以理解为表格结构
- Json等key/value结构的文本
- 数据库或其导出形式
- 数据的质量:参考《数据变现》第10章:数据开发,有条不紊
- 数据的规模,决定了处理手段
- 百M及以下:Windows下常用工具能打开处理的
- G级别:Linux下的文本处理工具、单机专用软件能处理的
- 百G级别以上:专用的大数据甚至是分布式的大数据处理工具
- 实际案例
- NED资助情况数据获取和处理
- 美国政府网站公布的希拉里邮件原件获取
- 某通用学术数据库的查询结果获取
- 某专业知识数据库的查询结果获取
- 境内某社交平台特定用户的信息和发言获取
- 境外某社交平台特定用户的发言获取
- 技能要求:可以系统学习本站另外一门课程《网络传播技术与应用》
- 终端仿真器的使用
- http协议常识
- Html/CSS/JS等前端开发常识
- RESTfull API等数据交换方式
- 理解程序、软件和服务
- 爬虫相关知识:推荐崔庆才老师
- 文本数据处理常识
- 数据库基本知识
- 大数据处理常识