Project

General

Profile

Actions

text_question #14288

open

name=Linux desc=有如下的a answer_id=

Added by UserName LastName about 1 year ago. Updated about 1 year ago.

Status:
New
Priority:
Normal
Assignee:
-
Start date:
12/26/2024
Due date:
% Done:

0%

Estimated time:
name:
Linux数据处理综合实战
score:
100.0
topic_type:

简答题
...

tag:
desc:

'有如下的access_log.txt日志文件

```

2024-12-01 10:15:23 GET /home/index.html 200 3405

2024-12-01 10:16:00 POST /login 302 1567

2024-12-01 10:16:30 GET /home/contact.html 200 5120

2024-12-01 10:17:05 GET /home/products.html 404 0

2024-12-01 10:17:23 GET /home/index.html 200 3405

2024-12-01 10:18:00 POST /login 200 1453

2024-12-01 10:18:30 GET /home/about.html 200 1023

2024-12-01 10:19:05 GET /home/index.html 500 0

2024-12-02 09:05:12 GET /home/products.html 200 5120

2024-12-02 09:06:30 POST /login 404 0

2024-12-02 09:07:00 GET /home/contact.html 200 3405

2024-12-02 09:07:30 GET /home/index.html 200 3405

2024-12-02 09:08:00 GET /home/about.html 404 0

2024-12-02 09:08:30 GET /home/index.html 200 3405

2024-12-02 09:09:00 POST /login 200 1567

```

请按照以下要求完成题目:

# 题目1 数据清洗与提取:

提取所有的访问状态码和访问页面路径(例如 GET 或 POST 请求)。

提取所有发生 404 错误的请求,并显示相关页面路径。

# 题目2 访问频率统计:

计算每个页面被访问的次数,并按访问次数从高到低排序。

计算每个 HTTP 状态码的出现次数,并按次数排序。

# 题目3 流量统计:

计算每个页面的总字节数(即每行中的第 5 列数字),并按字节数从高到低排序。

# 题目4 日志时间分析

计算每个日期的访问总量(访问行数),并按日期排序。

计算每个小时的访问总量(按小时统计),并按访问量排序。

# 题目5 生成报告

将每个页面的访问次数、总字节数、每个 HTTP 状态码的数量、404 错误的页面路径输出到 log_summary_report.txt 文件中。'

is_delete:
false
answer_id:
14287
tags:

- 11058

grading_rules_id:
14290
pod_template_id:
11537
Actions

Also available in: Atom PDF