EMNLP 는 Empirical 측면이 강조된 학회이므로 Baseline 을 되도록 많이 실험해야 함 기존에 실험하지 못한 baseline reproduce 실험에 집중하고자 함
→ Baseline 실험 결과를 직접 보여줌으로써 RAP, LATS 와 차이가 있음을 보여주고자 함
데이터 셋은 기존 submission 과 같이 Multi-hop QA dataset 3개로만 진행
Abstract 에 Zero-shot 과 Behavior cloning 을 더 강조하는 writing 보충
Related works 에서 RAP 과 LATS 의 차이를 명확히 언급하여 Novelty 공격 받지 않도록 Writing 보충

( 현재 내용이 8페이지 좀 넘어서 공백 부분을 줄이거나 내용을 좀 더 줄여야 할 것 같습니다!)
Baseline Experiments
→ IJCAI 제출 때 하지 못한 ToT, RAP, LATS 등 에 대한 Baseline 실험 진행
→ 5shot 실험만 완료된 상황
1-shot 실험도 또 진행해야 함
MZQA BC 실험
진행 시 기존에는 f1 score 가 0 보다 큰 경우의 데이터를 이용하여 Action candidates 를 학습 시켰음
→ 진정한 zero-shot 이라고 주장하지 못했음
f1 score 의 조건 없이 train 데이터 100개 모두로 Action candidates 학습 시킨 후 BC 진행
Pseudo Code 추가
Figure 수정
Writing 개선