python提取网页文章html正文的API和开源算法

2022-05-06 16:25:03 0 python提取网页文章html正文的API和开源算法

开源项目：

1.arex

https://github.com/ahkimkoo/arex

2.html2Article

http://www.cnblogs.com/jasondan/p/3497757.html

主要python包：

requests；

xml；

jparser；

url2io。

其中jparser、url2io都用于网页文本正文提取，url2io准确率高，但不稳定，解析错误时则调用jparser。通过两者结合使用来提高正文提取的效果。

jparser

安装：

pip install jparser

使用：

参考官网：https://pypi.org/project/jparser/0.0.10/

url2io

下载安装，即下载url2io.py文件。

可以到这个github项目上下载：https://github.com/Neo-Luo/scrapy_baidu

github主页下载最新版：https://github.com/url2io/url2io-python-sdk/

官网注册

获取token：http://url2io.applinzi.com/

使用：https://github.com/url2io/url2io-python-sdk/

url2io python3

#coding: utf-8
#
# This program is free software. It comes without any warranty, to
# the extent permitted by applicable law. You can redistribute it
# and/or modify it under the terms of the Do What The Fuck You Want
# To Public License, Version 2, as published by Sam Hocevar. See
# http://sam.zoy.org/wtfpl/COPYING (copied as below) for more details.
#
#                DO WHAT THE FUCK YOU WANT TO PUBLIC LICENSE 
#                        Version 2, December 2004 
#
#     Copyright (C) 2004 Sam Hocevar <sam@hocevar.net> 
#
#     Everyone is permitted to copy and distribute verbatim or modified 
#     copies of this license document, and changing it is allowed as long 
#     as the name is changed. 
#
#                DO WHAT THE FUCK YOU WANT TO PUBLIC LICENSE 
#       TERMS AND CONDITIONS FOR COPYING, DISTRIBUTION AND MODIFICATION 
#
#      0. You just DO WHAT THE FUCK YOU WANT TO. 

"""a simple url2io sdk
example:
api = API(token)
api.article(url='http://www.url2io.com/products', fields=['next', 'text'])
"""

__all__ = ['APIerror', 'API']


DEBUG_LEVEL = 1

import sys
import socket
import json
import urllib,urllib.request,urllib.error,urllib.parse
from urllib.request import urlopen
import time
from collections import Iterable

class APIError(Exception):
    code = None
    """HTTP status code"""

    url = None
    """request URL"""

    body = None
    """server response body; or detailed error information"""

    def __init__(self, code, url, body):
        self.code = code
        self.url = url
        self.body = body

    def __str__(self):
        return 'code={s.code}\nurl={s.url}\n{s.body}'.format(s = self)

    __repr__ = __str__


class API(object):
    token = None
    server = 'http://api.url2io.com/'

    decode_result = True
    timeout = None
    max_retries = None
    retry_delay = None

    def __init__(self, token, srv = None,
                 decode_result = True, timeout = 30, max_retries = 5,
                 retry_delay = 3):
        """:param srv: The API server address
        :param decode_result: whether to json_decode the result
        :param timeout: HTTP request timeout in seconds
        :param max_retries: maximal number of retries after catching URL error
            or socket error
        :param retry_delay: time to sleep before retrying"""
        self.token = token
        if srv:
            self.server = srv
        self.decode_result = decode_result
        assert timeout >= 0 or timeout is None
        assert max_retries >= 0
        self.timeout = timeout
        self.max_retries = max_retries
        self.retry_delay = retry_delay

        _setup_apiobj(self, self, [])

    def update_request(self, request):
        """overwrite this function to update the request before sending it to
        server"""
        pass


def _setup_apiobj(self, apiobj, path):
    if self is not apiobj:
        self._api = apiobj
        self._urlbase = apiobj.server + '/'.join(path)

    lvl = len(path)
    done = set()
    for i in _APIS:
        if len(i) <= lvl:
            continue
        cur = i[lvl]
        if i[:lvl] == path and cur not in done:
            done.add(cur)
            setattr(self, cur, _APIProxy(apiobj, i[:lvl + 1]))


class _APIProxy(object):
    _api = None

    _urlbase = None

    def __init__(self, apiobj, path):
        _setup_apiobj(self, apiobj, path)

    def __call__(self, post = False, *args, **kwargs):
        # /article
        # url = 'http://xxxx.xxx',
        # fields = ['next',],
        #
        if len(args):
            raise TypeError('only keyword arguments are allowed')
        if type(post) is not bool:
            raise TypeError('post argument can only be True or False')

        url = self.geturl(**kwargs)

        request = urllib.request.Request(url)

        self._api.update_request(request)

        retry = self._api.max_retries
        while True:
            retry -= 1
            try:
                ret = urlopen(request, timeout = self._api.timeout).read()
                break
            except urllib.error.HTTPError as e:
                raise APIError(e.code, url, e.read())
            except (socket.error, urllib.error.URLError) as e:
                if retry < 0:
                    raise e
                _print_debug('caught error: {}; retrying'.format(e))
                time.sleep(self._api.retry_delay)

        if self._api.decode_result:
            try:
                ret = json.loads(ret)
            except:
                raise APIError(-1, url, 'json decode error, value={0!r}'.format(ret))
        return ret

    def _mkarg(self, kargs):
        """change the argument list (encode value, add api key/secret)
        :return: the new argument list"""
        def enc(x):
            #if isinstance(x, unicode):
            #    return x.encode('utf-8')
            #return str(x)
            return x.encode('utf-8') if isinstance(x, str) else str(x)

        kargs = kargs.copy()
        kargs['token'] = self._api.token
        for (k, v) in kargs.items():
            if isinstance(v, Iterable) and not isinstance(v, str):
                # kargs[k] = ','.join([enc(i) for i in v])
                kargs[k] = ','.join([str(i) for i in v])
            else:
                kargs[k] = enc(v)

        return kargs

    def geturl(self, **kargs):
        """return the request url"""
        return self._urlbase + '?' + urllib.parse.urlencode(self._mkarg(kargs))


def _print_debug(msg):
    if DEBUG_LEVEL:
        sys.stderr.write(str(msg) + '\n')

_APIS = [
    '/article',
    #'/images',
]

_APIS = [i.split('/')[1:] for i in _APIS]

主要代码：

# -*- coding:utf-8 -*-
import url2io,requests,time
from jparser import PageModel
from newspaper import Article


headers = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
    'Accept-Encoding': 'gzip, deflate',
    'Accept-Language': 'zh-CN,zh;q=0.9',
    'Connection': 'keep-alive',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) chrome/63.0.3239.132 Safari/537.36',
}

def get_url2io(url):
    try:
        ret = api.article(url=url, fields=['text', 'next'])
        content=ret['text'].replace('\r', '').replace('\n', '')
        return content
    except Exception as e:
        # import traceback
        # ex_msg = '{exception}'.format(exception=traceback.format_exc())
        # print(ex_msg, e)
        return ''

def get_jparser(url):
    try:
        response = requests.get(url, headers=headers)
        en_code = response.encoding
        de_code = response.apparent_encoding
        # print(en_code,de_code,'-----------------')
        if de_code == None:
            if en_code in ['utf-8', 'UTF-8']:  # en_code=utf-8时，de_code=utf-8,可以获取到内容
                de_code = 'utf-8'
        elif de_code in ['ISO-8859-1', 'ISO-8859-2', 'Windows-1254', 'UTF-8-SIG']:
            de_code = 'utf-8'
        html = response.text.encode(en_code, errors='ignore').decode(de_code, errors='ignore')
        pm = PageModel(html)
        result = pm.extract()
        ans = [x['data'] for x in result['content'] if x['type'] == 'text']
        content=''.join(ans)
        return content
    except Exception as e:
        # import traceback
        # ex_msg = '{exception}'.format(exception=traceback.format_exc())
        # print(ex_msg, e)
        return ''


if __name__=='__main__':
    token = '111111111'  # 请到url2io官网注册获取token
    api = url2io.API(token)
    url = 'https://36kr.com/p/5245238'
    url = 'http://sc.stock.cnfol.com/ggzixun/20190909/27678429.shtml'
    url='https://news.pedaily.cn/201908/445881.shtml'
    # content=get_url2io(url)
    content = get_jparser(url)
    print(content)

Python Goose的使用：

代码比较方便，但是有些网址没有解析出来。

示例代码如下所示：

from goose import Goose
from goose.text import StopWordsChinese
url = 'http://www.chinanews.com/gj/2014/11-19/6791729.shtml'
g = Goose({'stipwords_class':StopWordsChinese})
article = g.extract(url = url)
print article.cleaned_text[:150]

结果：效果不好，有些网址解析不出来。

python提取网页文章html正文的API和开源算法

基于行块分布函数的通用网页正文抽取

http://wenku.baidu.com/link?url=TOBoIHWT_k68h5z8k_Pmqr-wJMPfCy2q64yzS8hxsgTg4lMNH84YVfOCWUfvfORTlccMWe5Bd1BNVf9dqIgh75t4VQ728fY2Rte3x3CQhaS

网页正文及内容图片提取算法

http://www.jianshu.com/p/d43422081e4b

这一算法的主要原理基于两点：

正文区密度：在去除HTML中所有tag之后，正文区字符密度更高，较少出现多行空白；
行块长度：非正文区域的内容一般单独标签（行块）中较短。

测试源码：

https://github.com/rainyear/cix-extractor-py/blob/master/extractor.py#L9

#! /usr/bin/env python3
# -*- coding: utf-8 -*-
import requests as req
import re
 
DBUG   = 0
 
reBODY = r'<body.*?>([\s\S]*?)<\/body>'
reCOMM = r'<!--.*?-->'
reTRIM = r'<{0}.*?>([\s\S]*?)<\/{0}>'
reTAG  = r'<[\s\S]*?>|[ \t\r\f\v]'
 
reIMG  = re.compile(r'<img[\s\S]*?src=[\'|"]([\s\S]*?)[\'|"][\s\S]*?>')
 
class Extractor():
    def __init__(self, url = "", blockSize=3, timeout=5, image=False):
        self.url       = url
        self.blockSize = blockSize
        self.timeout   = timeout
        self.saveImage = image
        self.rawPage   = ""
        self.ctexts    = []
        self.cblocks   = []
 
    def getRawPage(self):
        try:
            resp = req.get(self.url, timeout=self.timeout)
        except Exception as e:
            raise e
        if DBUG: print(resp.encoding)
        resp.encoding = "UTF-8"
        return resp.status_code, resp.text
 
#去除所有tag，包括样式、Js脚本内容等，但保留原有的换行符\n：
    def processTags(self):
        self.body = re.sub(reCOMM, "", self.body)
        self.body = re.sub(reTRIM.format("script"), "" ,re.sub(reTRIM.format("style"), "", self.body))
        # self.body = re.sub(r"[\n]+","\n", re.sub(reTAG, "", self.body))
        self.body = re.sub(reTAG, "", self.body)
 
#将网页内容按行分割，定义行块 blocki 为第 [i,i+blockSize] 行文本之和并给出行块长度基于行号的分布函数：
    def processBlocks(self):
        self.ctexts   = self.body.split("\n")
        self.textLens = [len(text) for text in self.ctexts]
        self.cblocks  = [0]*(len(self.ctexts) - self.blockSize - 1)
        lines = len(self.ctexts)
        for i in range(self.blockSize):
            self.cblocks = list(map(lambda x,y: x+y, self.textLens[i : lines-1-self.blockSize+i], self.cblocks))
        maxTextLen = max(self.cblocks)
        if DBUG: print(maxTextLen)
        self.start = self.end = self.cblocks.index(maxTextLen)
        while self.start > 0 and self.cblocks[self.start] > min(self.textLens):
            self.start -= 1
        while self.end < lines - self.blockSize and self.cblocks[self.end] > min(self.textLens):
            self.end += 1
        return "".join(self.ctexts[self.start:self.end])
 
#如果需要提取正文区域出现的图片，只需要在第一步去除tag时保留<img>标签的内容：
    def processImages(self):
        self.body = reIMG.sub(r'{{\1}}', self.body)
 
#正文出现在最长的行块，截取两边至行块长度为 0 的范围：
    def getContext(self):
        code, self.rawPage = self.getRawPage()
        self.body = re.findall(reBODY, self.rawPage)[0]
        if DBUG: print(code, self.rawPage)
        if self.saveImage:
            self.processImages()
        self.processTags()
        return self.processBlocks()
        # print(len(self.body.strip("\n")))
 
if __name__ == '__main__':
    ext = Extractor(url="http://blog.rainy.im/2015/09/02/web-content-and-main-image-extractor/",blockSize=5, image=False)
    print(ext.getContext())

以上算法基本可以应对大部分（中文）网页正文的提取，针对有些网站正文图片多于文字的情况，可以采用保留标签中图片链接的方法，增加正文密度。

目前少量测试发现的问题有：

1）文章分页或动态加载的网页；

2）评论长度过长喧宾夺主的网页。

参考资料：

https://blog.csdn.net/weixin_43098787/article/details/88633973

https://www.cnblogs.com/zhaobang/p/7472091.html

https://blog.csdn.net/levy_cui/article/details/51481306

https://www.v2ex.com/t/309948

打赏

微信支付宝 QQ 扫码打赏

如若转载，请注明本文出自：https://www.guaitoo.com/show/192.html

html python爬取网页内容 html论文 java解析html java获取html标签中的内容 python嵌入到html5 python提取html文件中的内容 python获取网页源码 python编辑html里的表 python与html结合 python读取html文件

css点击显示隐藏文字怎么设置

您可以使用CSS的:hover选择器来实现在鼠标悬停时显示隐藏文本的效果。下面是一个简单的示例代码：HTML代码：这是一个带有隐藏文本的段落。CSS代码：p span { display: none;}p:hover span { display: inl...

IDM无法下载网页视频

如果您在使用IDM（Internet Download Manager）下载网页视频时遇到问题以下是一些可能的解决方法：确保IDM已正确安装和启用 - 如果您刚刚安装了IDM，请确保已正确安装和启用。确保IDM插件已添加到您的浏览器中。确保网页视频可下载 - ...

css漂亮的表格

下面是一个简单的CSS表格，你可以根据你的需求进行修改：HTML代码：姓名年龄性别小明 20 男小红 22 ...

python提取网页文章html正文的API和开源算法

开源项目：1.arexhttps://github.com/ahkimkoo/arex2.Html2Articlehttp://www.cnblogs.com/jasondan/p/3497757.html主要python包：requests；xml；jpar...

网站模板中meta标签robots写法详解及对SEO的影响，index和noindex怎样写利于收录？

现在建站，经常会使用别人做好的现成的模板，比如wordpress模板，织梦模板等，用起来简单省事。但是使用现有的cms模板的时候一定要自己查看一下模板的meta标签robots这一项，因为这个标签不同的写法对于网站的影响是非常大的。如果这个meta标签里的ro...

如何实现使用图片img代替css里background属性来做div的背景图

一般来讲，制作网页模板的时候，习惯用CSS里面的background来定义div元素的背景。这是最通用最便捷的方法，并且将ccs代码写到css样式表的单独文件里，还可以简化html代码，使网页代码更加简洁。但是，有些时候会有一些图书需求。比如当元素的背景图片需...

网站怎么自定义设置文章朋友圈微信分享的图片、描述和标题

微信分享的时候左侧是一个图标，上方是页面标题下面是页面的描述信息。这些信息设置优化好了对读者的引导力将会大大增强。在现在主流的像织梦cms或者wordpress这些程序的模板默认是不包含这些设置信息的。需要自己手动来添加。怎么定义微信分享文章时候的图片、标题和...

用link rel= shortcut icon 标签给网站网页添加浏览器标题栏上和地址前面的图标

网站建好后去访问的时候,浏览器地址栏和标题栏前面默认是没有图标的，如果使用的是cms系统的话在地址栏和网页前面一般会有cms官方的图标。本文讲一下，怎么使用html标签给网站的每一个页面都添加上自己想要的图标。用link rel="shortcut icon"...

用rel dns prefetch标签实现网站页面预解析加速提高网站服务器性能优化体验

当浏览器请求一个URL的时候，通过firebug我们可以发现大概有以下几个过程：阻挡、域名解析、建立连接、发送请求、等待响应、接收数据。后面四个跟用户的网络情况和你的服务器处理速度有关，本文重点说说前两个。1、阻挡：解决方案——提高浏览器并发连接数阻挡：不同的...

使用chrome浏览器查看网页更新生成时间判断网站是动态还是伪静态

实际工作中，经常有些时候需要查看网站上某个网页的生成时间，而这个生成时间跟网页页面上所显示的文章日期往往是不同的。因为一个网页经常需要更新生成，每次生成之后这个时间都是会变的，而页面上所显示的时间则是固定的。另外有一些动态网页的时间并不是固定的二十每次刷新都会...

php提取字符串中数字文字片段的方法大全

使用php处理网站或者数据库内容的时候，经常会有需要提取一些字符串中数字的需求，这里整理一下一些最常用的使用php从字符串中提取数字的方法。①使用php提取一段字符串中的第一组数字②php中使用正则表达式来提取字符串中的数字③php中使用in_array提取字...

网页出现空白字符的解决方法

批量处理html文件，使用了超级字符串替换工具后，打开网页发现页面布局不对了，网页最顶部出现了一个宽宽的空白，查看源码，源码里面什么都没有，css样式也没有问题。最后发现，文件本来是utf8格式，被XReplace批量替换后，编码被改成了utf8-bom格式，...

javascript用jQuery获取输入框input的值的方法

如果页面内引入了jquery，可以很方便的实现对页面中各种元素值的获取，今天发一个jquery获取html输入框input值的例子：页面中的input是这样写的获取这个输入框的值可以有这么多写法$(" #yourid ").val()$(" input[ na...

jquery获取其他网页内容并插入到当前页面div或input

在页面中引入jquery来获取其他网页的内容并且插入到当前页面div中的方法当前页html代码function content2input(){ $.get("content.php", function(data){$("#haha").val(data...

jquery给input赋值的方法

首先来看一点小小的区分val(val)是jquery赋值input的函数val()是jquery取值input的函数这两个函数区别就是一个带参数，一个不带参数，容易混淆。val(val)函数赋值到input输入框的写法 $("#user").val(""); ...

织梦layui响应式后台模板左侧菜单无法显示新安装插件模块的解决方法

现在使用手机办公的人越来越多，而织梦cms的后台摸板还是十年前的样子。虽然在那个时候，织梦的后台是比较简洁时尚的，但是十年过去了，互联网也从pc时代发展到了野蛮生长的移动互联网时代。这个后台样式，在手机端使用起来，变得很不方便。由于dedecms官方并没有对后...

纯div和css实现右下角固定div可用于填表单和右下角广告代码

在制作一些百度竞价落地页或者营销型的企业网站的时候，经常会需要在网页页面右下角展示一个固定的div，里面放置一个form表单供客户填写，用来收集客户信息。这个功能很实用，并且只需要几行简单的css代码即可实现。先来看一下纯div和css实现右下角固定div的效...

css3实现div边框闪烁呼吸灯效果使元素更醒目

有时候，处于营销或者其他原因，我们希望网页上的某些元素或者某个div更显眼一些，从而让访客可以关注到这些内容。而由于需要照顾网页美观协调，又不能把它改成太过显眼的颜色，比如大红色。这时候就可以使用css3的呼吸灯效果，为内容所在div做一个闪烁的边框来实现。c...

通过纯css修改浏览器scrollbar滚动条样式让页网页样式更美观协调

把网站前台的UI设计好之后，前台去浏览，有时候总觉得怪怪的。最后发现问题是因为浏览器的滚动条不协调导致的。而且，不同浏览器的滚动条还有很多差别。这里，我们可以通过css修改浏览器scrollbar滚动条样式的方法，让页面更加美观舒适。纯css修改浏览器scro...

纯css实现网页background背景图适应浏览器宽度等比例缩放不变形

鉴于访客屏幕大小不一，所以一般会将网页的背景图尽量做大开始应大屏幕的浏览效果。但是，这也导致小屏浏览的时候因为无法显示整张图片而导致页面浏览体验变差。这时候，使用css控制网页背景图随浏览器的宽度而实现自适应，并且将背景图进行等比例缩放，即可实现想要的效果。纯...

js实现鼠标移入div后改变内部其他子div样式

当鼠标移动到当前div的时候改变内部子div的样式或其他div样式，借助简单的js代码来实现。可以实现不同部位菜单导航的联动或前台不同部位的互动效果。先来看看效果：js实现鼠标移入div后改变内部其他子div样式的全部html代码： js...

css3实现网页背景图片高斯模糊效果

css3可以通过代码渲染的方式实现网页背景的高斯模糊效果，告别更换背景时候的ps批图。分享三种css3实现网页背景图片高斯模糊效果的方法。css3实现网页背景模糊方法一（正常模糊）： html, body { ...

织梦cms tag标签页面当用当前列表页面的url

在前台页面输出当前页面的url可以做一些url规范化等用途，织梦cms标签tag页面默认没有对应的标签可以直接获取。需要特殊调用。动态页面调用方法：{dede:field.title runphp=yes}global $cfg_cmsurl;@me = $c...

Newfile&Browser插件让Notepad++新建文件自动插入基础html代码或使用自定义的html模板

notepad++是一款很出色的文编编辑器,体积小巧但功能非常强大。因为支持代码高亮，所以用来编写各种代码非常的方便。前面跟大家分享过一篇关于notepad++主题配色的文章，让notepad++的书写界面变得像Sublime Text高大上。今天在来分享一个...

群晖硬盘休眠日志在哪

群晖的硬盘休眠日志可以在 DSM 管理界面的“控制面板” -> “系统日志”中找到。在系统日志中，您可以使用筛选器来过滤日志条目，以找到硬盘休眠相关的日志。您可以使用“日志类型”筛选器并选择“磁盘休眠”或“磁盘唤醒”类型的日志，也可以使用关键字搜索功能来查找与...

织梦cms发表文章后自动更新网站地图sitemap

织梦cms自带的sitemap功能不是很好用，安装织梦cms-sitemap生成插件之后就完美了。美中不足之处就是这个sitemap在发表新文章之后不会自动更新。按照这个教学操作，可以实现dedecms自动更新sitemap。1、安装织梦网站地图sitemap...

python提取网页文章html正文的API和开源算法

开源项目：

1.arex

2.html2Article

主要python包：

jparser

安装：

使用：

url2io

主要代码：

Python Goose的使用：

参考资料：

css点击显示隐藏文字怎么设置

IDM无法下载网页视频

css漂亮的表格

python提取网页文章html正文的API和开源算法

网站模板中meta标签robots写法详解及对SEO的影响，index和noindex怎样写利于收录？

如何实现使用图片img代替css里background属性来做div的背景图

网站怎么自定义设置文章朋友圈微信分享的图片、描述和标题

用link rel= shortcut icon 标签给网站网页添加浏览器标题栏上和地址前面的图标

用rel dns prefetch标签实现网站页面预解析加速提高网站服务器性能优化体验

使用chrome浏览器查看网页更新生成时间判断网站是动态还是伪静态

php提取字符串中数字文字片段的方法大全

网页出现空白字符的解决方法

javascript用jQuery获取输入框input的值的方法

jquery获取其他网页内容并插入到当前页面div或input

jquery给input赋值的方法

织梦layui响应式后台模板左侧菜单无法显示新安装插件模块的解决方法

纯div和css实现右下角固定div可用于填表单和右下角广告代码

css3实现div边框闪烁呼吸灯效果使元素更醒目

通过纯css修改浏览器scrollbar滚动条样式让页网页样式更美观协调

纯css实现网页background背景图适应浏览器宽度等比例缩放不变形

js实现鼠标移入div后改变内部其他子div样式

css3实现网页背景图片高斯模糊效果

织梦cms tag标签页面当用当前列表页面的url

Newfile&Browser插件让Notepad++新建文件自动插入基础html代码或使用自定义的html模板

群晖硬盘休眠日志在哪

织梦cms发表文章后自动更新网站地图sitemap

热门资讯

最新文章