text_question #14288
openname=Linux desc=有如下的a answer_id=
0%
简答题
...
'有如下的access_log.txt日志文件
```
2024-12-01 10:15:23 GET /home/index.html 200 3405
2024-12-01 10:16:00 POST /login 302 1567
2024-12-01 10:16:30 GET /home/contact.html 200 5120
2024-12-01 10:17:05 GET /home/products.html 404 0
2024-12-01 10:17:23 GET /home/index.html 200 3405
2024-12-01 10:18:00 POST /login 200 1453
2024-12-01 10:18:30 GET /home/about.html 200 1023
2024-12-01 10:19:05 GET /home/index.html 500 0
2024-12-02 09:05:12 GET /home/products.html 200 5120
2024-12-02 09:06:30 POST /login 404 0
2024-12-02 09:07:00 GET /home/contact.html 200 3405
2024-12-02 09:07:30 GET /home/index.html 200 3405
2024-12-02 09:08:00 GET /home/about.html 404 0
2024-12-02 09:08:30 GET /home/index.html 200 3405
2024-12-02 09:09:00 POST /login 200 1567
```
请按照以下要求完成题目:
# 题目1 数据清洗与提取:
提取所有的访问状态码和访问页面路径(例如 GET 或 POST 请求)。
提取所有发生 404 错误的请求,并显示相关页面路径。
# 题目2 访问频率统计:
计算每个页面被访问的次数,并按访问次数从高到低排序。
计算每个 HTTP 状态码的出现次数,并按次数排序。
# 题目3 流量统计:
计算每个页面的总字节数(即每行中的第 5 列数字),并按字节数从高到低排序。
# 题目4 日志时间分析
计算每个日期的访问总量(访问行数),并按日期排序。
计算每个小时的访问总量(按小时统计),并按访问量排序。
# 题目5 生成报告
将每个页面的访问次数、总字节数、每个 HTTP 状态码的数量、404 错误的页面路径输出到 log_summary_report.txt 文件中。'
- 11058