You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
 
 
jiangAB 061fa4d3f1 init 1 month ago
__pycache__ init 1 month ago
components init 1 month ago
.DS_Store init 1 month ago
.gitignore init 1 month ago
asd.py init 1 month ago
jsonl_clear.py init 1 month ago
process.log init 1 month ago
process.sh init 1 month ago
readme.md init 1 month ago
replace.py init 1 month ago
replace_answer_detail.py init 1 month ago
requirements.txt init 1 month ago
reset_id.py init 1 month ago
start.sh init 1 month ago
step1_pre.py init 1 month ago
step2_ai1.py init 1 month ago
step3_ai2.py init 1 month ago
step4_major.py init 1 month ago

readme.md

用于批量处理AI题目的检测功能

会自动处理原始数据、进行数据过滤、第一次ai检测、第二次ai检测,最终合并在ai_2_total中。 分割文件大小自主控制一下,使一个文件分割成100个左右的文件来并行执行

使用方法

  1. 在服务器上创建一个目录,例如./test_01,也可以用绝对路径,将原始jsonl文件放在路径中,例如./test_01/test.jsonl

  2. 执行 sh start.sh ,按提示输入参数,例如: 请将原始文件放在一个单独目录,请输入文件夹路径: ./test_01 请输入文件名: test.jsonl 请输入处理的科目名称,例如:物理: 测试 请输入AI并行提问分割文件的大小,例如:10000: 10

  3. 运行成功后,会在./test_01下创建多个目录 transformed: 数据初步有有效性筛选后保存在这里 spilited_ai1:分割后的文件,用于第一次AI检测 ai_1:第一次AI检测后的存储目录 ai_2:第二次AI检测后的存储目录 ai_2_total:最终两次检测后合并在一起的数据

启动后会在process.log中可以查看日志情况。