• [织梦吧]唯一域名:www.dedecms8.com,织梦DedeCMS学习平台.

当前位置: > 编程与数据库 > php编程 >

正则表达式获取网页中的链接地址,并判断是否不是HTTP地址(2)

来源: www.dedecms8.com 编辑:织梦吧 时间:2012-09-25点击:

 ##################################################
#qq:316118740
#BLOG:http://hi.baidu.com/alalmn
# ����  ��ȡ��ҳ�е����ӵ�ַ  ���ж��Ƿ���HTTP��ַ
#  ��ѧд�IJ������Ҽ���
##################################################
def URL_STR(data):#�ж��Ƿ���HTTP�ַ�       
    sStr2 = 'http://'
    sStr3 = 'https://' 
    #print sStr1.find(sStr2) 
    if data.find(sStr2) and data.find(sStr3):
            return 1 #print "û���ҵ�"
    else:
            return 0 #print "���ҵ���"
##################################################
import urllib2, re
def URL_DZ(URL):  #����ҳ��ĵ�ַ
    s = urllib2.urlopen(URL)   #s = urllib2.urlopen(r"http://www.163.com")
    ss = s.read()
    p = re.compile( r'<a.+?href=.+?>.+?</a>' )
    pname = re.compile( r'(?<=>).*?(?=</a>)' )
    phref = re.compile( r'(?<=href\=\").*?(?=\")')
    #���켰����������ʽ
    sarr = p.findall(ss)
    #�ҳ�һ��һ����<a></a>��ǩ
    i=0
    for every in sarr:
        if i>1000:
            print "����1000��URL��ַ������������\n"
            break
        else:
            i+=1
        sname = pname.findall( every )
        if sname:
            sname = sname[0]
            shref = phref.findall( every )
        if shref:
            shref = shref[0]
            #print sname.decode( 'gbk' ), "\n" #��ȡ��������
            #print shref #��ȡURL
            if URL_STR(shref):
                print shref,"û���ҵ��Ƿ�HTTP��ַ"
            else:
                print shref     #"���ҵ�����ȷURL��ַ"
        # �����ǽ�ÿ��<a></a>��������ݺ͵�ַ��ƥ�����

##################################################
URL_DZ("http://www.baidu.com")  

About D8

  • ©2014 织梦吧(d8) DedeCMS学习交流平台
  • 唯一网址 www.DedeCMS8.com 网站地图
  • 联系我们 1170734538@qq.com ,  QQ