帖子

《Python进阶课程》学习笔记分享园地 | 讯飞AI大学

  [复制链接]
JK炫 发表于 2020-11-16 21:01:55
531#
十、数据拼接
1、(上下合并)
concat是一种基本的合并方式,常用参数如下:
axis——指明合并方向,axis=0是默认值,0表示上下合并,1表示左右合并  
要合并concat_data1=pd.DataFrame(["col1":list(range(0,10),"col2:list(range(0,10))])和concat_data2=pd.DataFrame(["col1":list(range(11,17),"col2:list(range(11,17))])
则pd.concat([concat_data1,concat_data2],axis=0)——上下拼接时列名尽可能要一致
或者用concat_data1.append(concat_data2)
  2、(左右合并)   
merge函数常用参数:
how——连接方式(inner/left/right)
inner——内连接
left——左连接
right——右连接
on——用于连接的key,即列名,要连接的数据必须都要有该列名
Left_on——左侧数据用作连接的键
Right_on——右侧数据用作连接的键


使用道具 举报 回复
159****8121 发表于 6 天前
532#
1、什么是爬虫
网络爬虫,是一种按照一定规则,自动抓取互联网信息的程序或者脚本。由于互联网数据的多样性和资源的有限性,根据用户需求定向抓取相关网页并分析已成为如今主流的爬取策略。
2、爬虫可以做什么
只要是网页上可以浏览的,图片、视频、数据等,都可以通过爬虫获取。
3、爬虫的本质是什么
模拟浏览器打开网页,获取网页中我们想要的那部分数据。
一、编码规范:
#-*-codeing=utf-8-#-
#@Time:2020/11/19 19:51
#@Author:chenxuanhong
#@File:sqider.py
#@SoftwareyCharm

Def main():
      print("hello")

If__name__=="__main__":            #这里是用2个下划线

  main()
二、引入模块
模块(module):用来从逻辑上组织Python代码(变量、函数、类),本质就是py文件,提高代码的可维护性。Python使用import来导入模块,如import sys

使用道具 举报 回复
dsdnx@qq.com 发表于 4 天前
533#
#Day 15+学习笔记+08/15
今天主要学习了如何在pycharm中新建项目,添加第三方库,以及构建流程。
通过分析,本程序一共分成三部分:
1、爬取网页。
2、逐一解析数据。
3、保存数据。
为方便管理代码,可以将每个功能都构建成一个函数,然后在主函数中调用。
定义函数用def,主函数入口: if __name__ == "__main__":
使用道具 举报 回复