You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
25 lines
1.1 KiB
25 lines
1.1 KiB
1 month ago
|
# 用于批量处理AI题目的检测功能
|
||
|
会自动处理原始数据、进行数据过滤、第一次ai检测、第二次ai检测,最终合并在ai_2_total中。
|
||
|
分割文件大小自主控制一下,使一个文件分割成100个左右的文件来并行执行
|
||
|
|
||
|
|
||
|
# 使用方法
|
||
|
1. 在服务器上创建一个目录,例如./test_01,也可以用绝对路径,将原始jsonl文件放在路径中,例如./test_01/test.jsonl
|
||
|
2. 执行 sh start.sh ,按提示输入参数,例如:
|
||
|
请将原始文件放在一个单独目录,请输入文件夹路径:
|
||
|
./test_01
|
||
|
请输入文件名:
|
||
|
test.jsonl
|
||
|
请输入处理的科目名称,例如:物理:
|
||
|
测试
|
||
|
请输入AI并行提问分割文件的大小,例如:10000:
|
||
|
10
|
||
|
|
||
|
3. 运行成功后,会在./test_01下创建多个目录
|
||
|
transformed: 数据初步有有效性筛选后保存在这里
|
||
|
spilited_ai1:分割后的文件,用于第一次AI检测
|
||
|
ai_1:第一次AI检测后的存储目录
|
||
|
ai_2:第二次AI检测后的存储目录
|
||
|
ai_2_total:最终两次检测后合并在一起的数据
|
||
|
|
||
|
启动后会在process.log中可以查看日志情况。
|