采集网页数据保存到MYSQL数据库

一、直接采集一个本地网页文件

1.创建一个网页文件date413.html(注:文件的路径后面还会用到)

2.网页文件date413.html中的内容为:

<html>
<head>
    <title>搜索指数</title>
</head>
<body>
    <table>
        <tr><td>排名</td><td>关键词</td><td>搜索指数</td></tr>
        <tr><td>1</td><td>大数据</td><td>187767</td></tr>
        <tr><td>2</td><td>云计算</td><td>178856</td></tr>
        <tr><td>3</td><td>物联网</td><td>122376</td></tr>
    </table>
</body>
</html>

二、 在Windows操作系统中启动MySQL服务进程,创建webdb数据库和search_index表

1.win+r打开小黑窗---->输入cmd

2.输入mysql -u root -p  密码是自己安装mysql时设置的

(注:显示图中的内容表示成功进入mysql命令行窗口)

3.创建webdb数据库和选择使用webdb数据库

create database webdb;

use webdb;

 4.创建search_index表

create table search_index(id int,keyword char(20) , number int);

 三、在PyCharm 中编写网络爬虫程序,读取网页内容进行解析,并把解析后的数据保存到mysql数据库中

 (注:这里需要填你前面创建的网页文件的地址)

import requests
from bs4 import BeautifulSoup
# 读取本地HTML文档
def get_html():
    path = 'D:/vue/vueproject/date413.html'
    htmlfile = open(path,'r',encoding='utf-8')
    html = htmlfile.read()
    return html
# 解析HTML文档
def parse_html(html):
    soup = BeautifulSoup(html,'html.parser')
    all_tr = soup.find_all('tr')[1:]
    all_tr_list = []
    info_list = []
    for i in range(len(all_tr)):
        all_tr_list.append(all_tr[i])
    for element in all_tr_list:
        all_td = element.find_all('td')
        all_td_list = []
        for j in range(len(all_td)):
            all_td_list.append(all_td[j].string)
        info_list.append(all_td_list)
    return info_list
# 保存数据
def save_mysql(info_list):
    import pymysql.cursors

    for item in info_list:
        # 连接数据库
        connect = pymysql.Connect(
            host='localhost',
            port=3306,
            user='root',
            passwd='123456',
            db='webdb',
            charset='utf8'
        )
        # 获取游标
        cursor = connect.cursor()
        # 插入数据
        id = int(item[0])
        keyword = item[1]
        number = int(item[2])
        sql = "insert into search_index(id,keyword,number) values ('%d', '%s','%d')"
        data = (id,keyword,number)
        cursor.execute(sql % data)
        connect.commit()
        print('成功插入数据')

        # 关闭数据库连接
        connect.close()

if __name__ == '__main__':
    html = get_html()
    info_list = parse_html(html)
    save_mysql(info_list)




四、运行

1.在PyCharm 中单机右键Run(运行)

控制台出现3次成功插入数据

2.在mysql命令行窗口中查看数据

select * from search_index;

(看到有三条数据被成功插入了数据库,那么恭喜你,表示我们成功了!)

写文章

热门文章

  • 使用kettle完成学生成绩登记需求 7020
  • Kafka的安装和使用(Windows中) 5489
  • Kafka与Mysql的组合使用(Windows中) 4857
  • 使用kettle进行数据统计 4851
  • 使用kettle进行日志分析 4311

最新评论

  • 用Java写一个信息轰炸器

    CSDN-Ada助手: Java 技能树或许可以帮到你:https://edu.csdn.net/skill/java?utm_source=AI_act_java

  • 使用Python操作Kafka(Windows中)

    不当呆瓜: 生产者连不上是怎么回事

  • 大数据项目实战(Hadoop集群搭建)

    big不灵.: 我复制粘贴hadoop02和hadoop03会话的,然后在scp /etc/profile hadoop02:/etc/profile 这一步出现 ssh:could not resolve hostname 是什么情况

  • 用户登录注册案例(Vue路由)

    限量版皮憨憨: 解决了嘛,老哥

  • “微商城”项目(5登录和注册)

    瑾寰: 源代码是有偿的,白嫖不了的哦,因为是我一个一个敲上去的

大家在看

  • Acwing DFS 630
  • 基于JAVA+SpringBoot+Vue的华强北商城二手手机管理系统 1215
  • WebSocket相关知识点 411
  • 【oj刷题】二分查找篇:二分查找算法的原理和应用场景 2224
  • Android14 Qcom 从Framework到Driver带你打开WIFI(一) 11

最新文章

  • 用Java写一个信息轰炸器
  • 我的私人笔记(zookeeper分布式安装)
  • 我的私人笔记(Linux中安装mysql)
2024年1篇
2023年41篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

深圳SEO优化公司鄂城区网站关键词排名优化如何贵阳网站优化东莞网站关键词优化哪家好厦门优化网站工作室河源正规的免费网站优化网站优化排名推广网站海南百度网站优化推广巩义外贸网站优化报价网站优化试卷大连整站优化网站值得信赖的网站优化服务焦作郑州网站优化虞城网站优化推广公司网站优化软文关键词济南瓷砖行业网站优化推广技巧武汉市网站线上推广优化奉贤区公司网站优化平台屈臣氏网站优化策略山西忻州网站推广seo优化坂田seo优化网站乐平网站优化规划虹口网站优化公司巴中网络推广竞价托管网站优化网站优化标题标签外贸独立网站优化优化对谷歌优化最好的网站程序红谷德邑南昌附近网站优化印刷行业网站优化营销江苏网站推广优化西安网站的优化关键歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化