html 开源项目:1.arexhttps://github.com/ahkimkoo/arex2.Html2Articlehttp://www.cnblogs.com/jasondan/p/3497757.html主要python包:requests;xml;jparser;url2io。其中jparser、url2io都用于网页文本正文提取,url2io准确率高,但不稳定,解析错误时则调用jparser。通过两者结合使用来提高正文提取的效果。jparser安装:pip install jparser使用:参考官

查看全文》

现在建站,经常会使用别人做好的现成的模板,比如wordpress模板,织梦模板等,用起来简单省事。但是使用现有的cms模板的时候一定要自己查看一下模板的meta标签robots这一项,因为这个标签不同的写法对于网站的影响是非常大的。如果这个meta标签里的robots协议被写成noindex的话,网站的收录就悲剧了。现在像谷歌、百度、360搜索、搜狗搜索、神马搜索等主流搜索引擎都已经很好地支持了tobots标签。那么这些html中meta有什么用?该怎么写呢?现在来看一下robots标签的写法和对应的意义:上面这个例子是一个标准的robots写法,前面robots指明这个meta标签的属性,是

一般来讲,制作网页模板的时候,习惯用CSS里面的background来定义div元素的背景。这是最通用最便捷的方法,并且将ccs代码写到css样式表的单独文件里,还可以简化html代码,使网页代码更加简洁。但是,有些时候会有一些图书需求。比如当元素的背景图片需要变动的图片的时候(非gif动图),就是说这个背景图片是随着内容而变化的而非一张固定的图片。css文件就没法实现或者很难实现了。当然,在html代码里插入style标签然后在标签里插入变量图片也是一个方法,但是这样做并不是最优解.一方面,这种写法让页面代码显得相对混乱。另一方面,对于SEO而言并不那么友好,因为搜索引擎优化中一般的定义是,

微信分享的时候左侧是一个图标,上方是页面标题下面是页面的描述信息。这些信息设置优化好了对读者的引导力将会大大增强。在现在主流的像织梦cms或者wordpress这些程序的模板默认是不包含这些设置信息的。需要自己手动来添加。怎么定义微信分享文章时候的图片、标题和描述自定义方案:打开文章模板或者要修改的html页面,在其head区域里面添加下面一个meta标签:修改好后去分享,就可以看到自己设置的微信分享图片和标题描述信息了。

网站建好后去访问的时候,浏览器地址栏和标题栏前面默认是没有图标的,如果使用的是cms系统的话在地址栏和网页前面一般会有cms官方的图标。本文讲一下,怎么使用html标签给网站的每一个页面都添加上自己想要的图标。用link rel="shortcut icon" 标签给网站页面添加ico图标:首先,准备一个16X16尺寸的.ico格式的图标,将其命名为favicon.ico。清空网页缓存,即可看到效果。

当浏览器请求一个URL的时候,通过firebug我们可以发现大概有以下几个过程:阻挡、域名解析、建立连接、发送请求、等待响应、接收数据。后面四个跟用户的网络情况和你的服务器处理速度有关,本文重点说说前两个。1、阻挡:解决方案——提高浏览器并发连接数阻挡:不同的浏览器对单个域名的最大并发连接数有一定的限制,HTTP/1.0和HTTP/1.1也不相同。比如HTTP/1.1协议下,IE6的并发连接数限制是2个;而在HTTP/1.0下,IE6的并发连接数可以达到4个。在其它浏览器也有类似的限制,一般是4~8个。这个时候,如果浏览器同时对某一域名发起多个请求,超过了限制就会出现等待,也就是阻挡。那么为了

实际工作中,经常有些时候需要查看网站上某个网页的生成时间,而这个生成时间跟网页页面上所显示的文章日期往往是不同的。因为一个网页经常需要更新生成,每次生成之后这个时间都是会变的,而页面上所显示的时间则是固定的。另外有一些动态网页的时间并不是固定的二十每次刷新都会变化。为了实现这个目的,使用谷歌chrome浏览器的控制台命令可以很简单的做到。具体操作为:使用键盘的ctrl+shift+j组合键,调出谷歌浏览器的命令行调试控制台,然后输入alert(document.lastModified);点击回车,这时候弹出来的对话框所显示的时间就是当前页面的最后生成时间。借助此功能,还可以达到判断某个网页是

使用php处理网站或者数据库内容的时候,经常会有需要提取一些字符串中数字的需求,这里整理一下一些最常用的使用php从字符串中提取数字的方法。①使用php提取一段字符串中的第一组数字②php中使用正则表达式来提取字符串中的数字③php中使用in_array提取字符串中数字的方法④php中使用is_numeric函数来提取字符串中数字实例:

批量处理html文件,使用了超级字符串替换工具后,打开网页发现页面布局不对了,网页最顶部出现了一个宽宽的空白,查看源码,源码里面什么都没有,css样式也没有问题。最后发现,文件本来是utf8格式,被XReplace批量替换后,编码被改成了utf8-bom格式,这个空白正是由于这个bom文件头导致的。解决方法也很简单,使用notepad++重新把编码改成utf8无bom格式就好了。

如果页面内引入了jquery,可以很方便的实现对页面中各种元素值的获取,今天发一个jquery获取html输入框input值的例子:页面中的input是这样写的获取这个输入框的值可以有这么多写法$(" #yourid ").val()$(" input[ name='yourname' ] ").val()$(" input[ type='text' ] ").val()$(" input[ type='text' ]").attr("value")使用上面任意一行都可以达到取值的目的。

删除织梦底部的Power by DedeCms去版权信息链接 织梦默认会在网站底部加上power by dedecms然后加一个链接到织梦cms的官网的这样一个织梦版权链接。出于种种原因,比如说美观,SEO或者客户要求等等,站长们想把这个链接去掉。这个要分两个版本:对于2013年七月十五号补丁之前的程序使用这个方法:进入织梦后台,点击系统,==》系统基本设置,==》网站版权信息,修改你想要的内容即可。对于新版的织梦cms程序使用这个方法:在dedecms安装目录找到\include\dedesql.class.php文件,打开它大约在588行左右找到下面代码删除即可。$arrs1 = array(0x63,0x66,0x67,0x5f,0x70,0x6f

Rarlab宣布称WinRar中文个人版可以永久免费使用了 老压缩软件开发商Rarlab最近宣布,其广泛使用的WinRAR个人中文版免费使用,不再需要购买!Rarlab宣布免费使用WinRAR中文个人版WinRAR是世界上最流行的压缩软件之一。它可以对cab、ARJ、lzh、tar、GZ、ACE、uue、bz2、jar、ISO、7z、Z等文件进行解压缩。它可以保存更小的文件和使用128位加密更安全!WinRAR中文个人免费版涵盖32位和64位Windows系统。现在免费版本更新后,即使没有授权,试用期和购买信息也不会提示。不过,WinRAR的中文个人免费版会有弹出广告,即打开任何压缩文件后,都会弹出广告页面。WinRAR在中国有大量的个人盗版,这一举动