Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

example reviewer单独运行该文件时的报错 #18

Closed
adk23333 opened this issue May 19, 2023 · 16 comments
Closed

example reviewer单独运行该文件时的报错 #18

adk23333 opened this issue May 19, 2023 · 16 comments

Comments

@adk23333
Copy link
Contributor

环境是py3.10
以及最新的aiotieba和reviewer
使用--no_test参数
报错如下

<2023-05-20 01:52:42.250> [WARN] [get_posts] Error parsing message. tid=6818218749
<2023-05-20 01:52:42.251> [WARN] [get_posts] Error parsing message. tid=8364486004
<2023-05-20 01:52:42.251> [WARN] [get_posts] Error parsing message. tid=8393777775
<2023-05-20 01:52:42.251> [WARN] [get_posts] Error parsing message. tid=8304877037
<2023-05-20 01:52:42.251> [WARN] [get_posts] Error parsing message. tid=6467983845
<2023-05-20 01:52:44.708> [WARN] [get_posts] Error parsing message. tid=8390314070
<2023-05-20 01:52:44.709> [WARN] [get_posts] Error parsing message. tid=8364486004
<2023-05-20 01:52:44.709> [WARN] [get_posts] Error parsing message. tid=8338062609
@adk23333
Copy link
Contributor Author

还有我重构后的web管理器项目
在项目内报错之后又用例程试了,也报错

@lumina37
Copy link
Owner

这个一般是ip最近请求次数太多导致的吧。我一开始以为和这个 lumina37/aiotieba#123 有关联

@adk23333
Copy link
Contributor Author

adk23333 commented May 20, 2023

这个一般是ip最近请求次数太多导致的吧。我一开始以为和这个 Starry-OvO/aiotieba#123 有关联

现在是这个报错了,在test的情况下,是正常的no test就报以下错误,换了网络试验也是如此。

<2023-05-20 13:08:36.346> [WARN] [get_posts] Timeout to read. tid=6310389445
<2023-05-20 13:08:36.346> [WARN] [get_posts] Timeout to read. tid=8322878361
<2023-05-20 13:08:36.346> [WARN] [get_posts] Timeout to read. tid=8305409598
<2023-05-20 13:08:36.347> [WARN] [get_posts] Timeout to read. tid=7834300682
<2023-05-20 13:08:36.347> [WARN] [get_posts] Timeout to read. tid=8026909560
<2023-05-20 13:08:36.347> [WARN] [get_posts] Timeout to read. tid=8364486004
<2023-05-20 13:08:36.348> [WARN] [get_posts] Timeout to read. tid=8354058936

这次试验是直接copy例程了
稍微修改了这部分

async def check_text(obj: TypeObj) -> Optional[Punish]:
    text = obj.text
    _check_text = ["123456"]
    for i in _check_text:
        if re.search(i, text):
            return Punish(obj, Ops.DELETE, note="适用于3级以下用户的违规词汇")

@adk23333
Copy link
Contributor Author

淦,找到问题了,昨天我的网页端的cookie里面STOKEN不知道为什么有两个,复制错了。。。

@n0099
Copy link

n0099 commented May 20, 2023

Error parsing message
这个一般是ip最近请求次数太多导致的吧。

是protobuf接口?大概率是服务端偶尔会返回的一坨html为了保护您的账号安全和最佳的浏览体验,当前业务已经不支持IE8以下浏览器 https://github.com/n0099/TiebaMonitor/blob/9694b66200462c5377cf85aef687f21cfab33d71/c%23/crawler/src/Tieba/ClientRequester.cs#L52 而html字符串自然不是合法的protobuf encoding二进制

我一开始以为和这个 Starry-OvO/aiotieba#123 有关联

那个issue中目前只会是110001未知错误

@lumina37
Copy link
Owner

怪了,get_posts跟STOKEN应该没有关系啊

@adk23333
Copy link
Contributor Author

怪了,get_posts跟STOKEN应该没有关系啊

但换了个今天的网页里的STOKEN就好了,总之挺奇怪的🤔之后没复现了
还有你handler例程第254行,又漏了那三个参数没填

@lumina37
Copy link
Owner

那三个参数刚改完了

@n0099
Copy link

n0099 commented May 20, 2023

经典相关即因果 https://en.wikipedia.org/wiki/Correlation_does_not_imply_causation
所以为什么爬帖子时要带上自己百度号的登录态cookie?您巴不得百度cdn网管注意到您在疯狂刷贴吧吗

@adk23333
Copy link
Contributor Author

那三个参数刚改完了

不过最近还有另一个问题,虽然主要功能都能正常使用
<2023-05-21 08:53:23.321> [WARN] [get_threads] (110004, ''). fname=****
每一次扫描都有这个日志警告,扫描间隔是30s

@lumina37
Copy link
Owner

reply to n0099: 有些功能只有带上BDUSS才有,比如楼中楼
reply to adk23333: 家庭ip很容易频繁,我几个服务器虽然偶尔有但不影响功能,当然我也不确定是不是我省参数导致的

@n0099
Copy link

n0099 commented May 21, 2023

有些功能只有带上BDUSS才有,比如楼中楼

您是说主题帖回复贴列表接口中附带的每层回复楼中楼?https://github.com/Starry-OvO/aiotieba/blob/2b8459f5da25d204cc58077a3480b8f0cc453048/aiotieba/client.py#L534
单独请求楼中楼接口是无需登录态的

(110004, '')

110004是贴吧服务端response中的error_code值?''空字符串是他返回的error_msg?这类response的http status code是什么?429吗?

家庭ip很容易频繁,我几个服务器虽然偶尔有但不影响功能

然而国内归属地的ip请求域c.tieba.baidu.com的rqs限制是30rqs,而国外归属地ip只有10rps lumina37/aiotieba#82 (comment)

@adk23333
Copy link
Contributor Author

reply to adk23333: 家庭ip很容易频繁,我几个服务器虽然偶尔有但不影响功能,当然我也不确定是不是我省参数导致的

我服务器是香港的,内地要备案麻烦,我试试把时间间隔调的更大。

@n0099
Copy link

n0099 commented May 21, 2023

服务器是香港的,内地要备案

您不建http站不需要备案只需要平台实名

把时间间隔调的更大

没有自动重试?

@adk23333
Copy link
Contributor Author

您不建http站不需要备案只需要平台实名

准备建站的服务器,顺便搭一下这个

没有自动重试?

Strray的reviewer例程直接照搬的,我不喜欢造轮子。这个例程的功能已经基本满足需求了。你看我的仓库 里的网页截图就知道需求又多简单了

@n0099
Copy link

n0099 commented May 21, 2023

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants