关于python:尝试从网站获取HTML

Trying to get the html from a website

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
def main:
with open(sourcefile, 'r', encoding='utf-8') as main_file:
    for line in main_file:
        htmlcontent = reader(line)

def reader(line):

    with urllib.request.urlopen(line) as url_file:
      try:
          url_file.read().decode('UTF-8')
      except urllib.error.URLError as url_err:
          print('Error opening url: ', url, url_err)
      except UnicodeDecodeError as decode_err:
          print('Error decoding url: ', url, decode_err)
 return url_file

大家好,我对python很陌生,我有一个关于从网站上读取HTML代码的问题。所以我使用的是如图所示的正则表达式,我试图简单地从一个网站返回HTML代码。变量line从一个文本文件中接收URL,该文本文件中有一行URL,因此它会对其进行迭代。到目前为止,这是我的代码,但有多个错误正在弹出。我知道我必须使用else条款,我不知道如何将其合并。我打算使用返回的HTML值作为regex的主题。我还希望使用urllib.request库获取HTML。


最好使用请求模块。一行代码

1
2
3
import requests

html = requests.get("www.domain.tld").text


这样可以将网站内容保存在html_content中并打印出来。

1
2
3
4
5
6
7
8
9
import urllib

url ="www.domain.tld"

seed_url = urllib.urlopen(url)
html_content = seed_url.read()
seed_url.close()

print(html_content)