Multi-Task, Pytorch DDP

<p><span data-ke-size="size20"><b>Multi-Task</b></span></p><p><b> You Only Look at Once for Real-Time and Generic Multi-Task </b></p><p><a href="https://arxiv.org/pdf/2310.01641" target="_blank" class="ke-link">https://arxiv.org/pdf/2310.01641</a></p><p><a href="https://github.com/JiayuanWang-JW/YOLOv8-multi-task" target="_blank" class="ke-link">https://github.com/JiayuanWang-JW/YOLOv8-multi-task</a></p><div class="figure-open" contenteditable="false" data-ke-type="opengraph" data-ke-align="alignCenter" data-og-type="website" data-og-title="GitHub - JiayuanWang-JW/YOLOv8-multi-task" data-og-description="Contribute to JiayuanWang-JW/YOLOv8-multi-task development by creating an account on GitHub." data-og-host="github.com" data-og-source-url="https://github.com/JiayuanWang-JW/YOLOv8-multi-task" data-og-url="https://github.com/JiayuanWang-JW/YOLOv8-multi-task" data-og-image="https://scrap.kakaocdn.net/dn/rL7lj/hyYyRDqMOH/eK9Hi0Gp4GsAnGBFQrhcnK/img.png?width=1200&height=600&face=0_0_1200_600,https://scrap.kakaocdn.net/dn/behrs8/hyYxI78AuT/FUb2mO7FEjGx7D5eBjMsb1/img.png?width=1200&height=600&face=0_0_1200_600"><a href="https://github.com/JiayuanWang-JW/YOLOv8-multi-task" target="_blank" data-source-url="https://github.com/JiayuanWang-JW/YOLOv8-multi-task"><div class="og-image"><img class="thumb_img" src="https://scrap.kakaocdn.net/dn/rL7lj/hyYyRDqMOH/eK9Hi0Gp4GsAnGBFQrhcnK/img.png?width=1200&height=600&face=0_0_1200_600,https://scrap.kakaocdn.net/dn/behrs8/hyYxI78AuT/FUb2mO7FEjGx7D5eBjMsb1/img.png?width=1200&height=600&face=0_0_1200_600" alt="" xxxxonerror="this.src="//img1.kakaocdn.net/thumb/C200x200/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fcafe_image%2Fcafe_meta_image_190529.png""></div><div class="og-text"><p class="og-title">GitHub - JiayuanWang-JW/YOLOv8-multi-task</p><p class="og-desc">Contribute to JiayuanWang-JW/YOLOv8-multi-task development by creating an account on GitHub.</p><p class="og-host">github.com</p></div></a></div><p> </p><p> </p><p><b><span data-ke-size="size20">Multi-GPU</span></b></p><p>- <b>Distributed Data Parallel ( DDP )</b></p><p>- 훈련시간 줄여보고자 시도해보려고 함..</p><p> </p><div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1RgNt/ada2fc078160d4e7eebf887798326951e818287e" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1RgNt/ada2fc078160d4e7eebf887798326951e818287e" data-origin-width="1398" data-origin-height="619"><div class="figcaption">현재 훈련에 사용하는 GPU 사양</div></div><p> </p><div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1RgNt/27c71637cb925e91899c347b47b1b5171c6c4006" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1RgNt/27c71637cb925e91899c347b47b1b5171c6c4006" data-origin-width="1493" data-origin-height="628"><div class="figcaption">여러 개 묶으면 더 좋아질 것 같다...</div></div><p> </p><p> </p><p> </p><p><a href="https://pytorch.org/tutorials/intermediate/ddp_tutorial.html" target="_blank" class="ke-link">https://pytorch.org/tutorials/intermediate/ddp_tutorial.html</a></p><div class="figure-open" contenteditable="false" data-ke-type="opengraph" data-ke-align="alignCenter" data-og-type="website" data-og-title="Getting Started with Distributed Data Parallel — PyTorch Tutorials 2.6.0+cu124 documentation" data-og-description="Getting Started with Distributed Data Parallel Created On: Apr 23, 2019 | Last Updated: Oct 30, 2024 | Last Verified: Nov 05, 2024 Author: Shen Li Edited by: Joe Zhu, Chirag Pandya Note View and edit this tutorial in github. Prerequisites: DistributedDataP" data-og-host="pytorch.org" data-og-source-url="https://pytorch.org/tutorials/intermediate/ddp_tutorial.html" data-og-url="https://pytorch.org/tutorials/intermediate/ddp_tutorial.html" data-og-image="//img1.kakaocdn.net/thumb/C200x200/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fcafe_image%2Fcafe_meta_image_190529.png"><a href="https://pytorch.org/tutorials/intermediate/ddp_tutorial.html" target="_blank" data-source-url="https://pytorch.org/tutorials/intermediate/ddp_tutorial.html"><div class="og-image"><img class="thumb_img" src="//img1.kakaocdn.net/thumb/C200x200/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fcafe_image%2Fcafe_meta_image_190529.png" alt="" xxxxonerror="this.src="//img1.kakaocdn.net/thumb/C200x200/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fcafe_image%2Fcafe_meta_image_190529.png""></div><div class="og-text"><p class="og-title">Getting Started with Distributed Data Parallel — PyTorch Tutorials 2.6.0+cu124 documentation</p><p class="og-desc">Getting Started with Distributed Data Parallel Created On: Apr 23, 2019 | Last Updated: Oct 30, 2024 | Last Verified: Nov 05, 2024 Author: Shen Li Edited by: Joe Zhu, Chirag Pandya Note View and edit this tutorial in github. Prerequisites: DistributedDataP</p><p class="og-host">pytorch.org</p></div></a></div><p>- jetson AGX orin을 서로 연결하기 위해 공유기 사용해보려고 함</p><p>- 각 보드의 이더넷 포트를 공유기에 연결하면 될 듯</p><p> </p><p>- 보드에서 ip a로 eth0 인터페이스에 할당된 IP 주소 확인</p><p>$ ip a</p><p> </p><div class="figure-img" data-ke-type="image" data-ke-style="alignLeft" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1RgNt/9e402f61607ca1f4dec71723f89960e8b4de9714_re_1743525481315" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1RgNt/9e402f61607ca1f4dec71723f89960e8b4de9714_re_1743525481315" data-origin-width="362" data-origin-height="77"><div class="figcaption">보드마다 IP 설정해서 시작하면 될 듯...</div></div><p> </p><p> </p><p>- ping 테스트 해서 서로 연결되는지 확인</p><p>$ ping 203.234.XX.xx</p><p> </p><div class="figure-img" data-ke-type="image" data-ke-style="alignLeft" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1RgNt/71be76c56e135bbdc48debc7d299094788eab05d_re_1743525481315" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1RgNt/71be76c56e135bbdc48debc7d299094788eab05d_re_1743525481315" data-origin-width="481" data-origin-height="77"></div><p> </p><p>- 모든 보드에서 같은 python 환경, 코드가 필요함 >> github</p><p>- <a href="https://pypi.jetson-ai-lab.dev/" target="_blank" class="ke-link">https://pypi.jetson-ai-lab.dev/</a></p><div class="figure-open" contenteditable="false" data-ke-type="opengraph" data-ke-align="alignCenter" data-og-type="website" data-og-title="devpi" data-og-description="" data-og-host="pypi.jetson-ai-lab.dev" data-og-source-url="https://pypi.jetson-ai-lab.dev/" data-og-url="https://pypi.jetson-ai-lab.dev/" data-og-image="//img1.kakaocdn.net/thumb/C200x200/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fcafe_image%2Fcafe_meta_image_190529.png"><a href="https://pypi.jetson-ai-lab.dev/" target="_blank" data-source-url="https://pypi.jetson-ai-lab.dev/"><div class="og-image"><img class="thumb_img" src="//img1.kakaocdn.net/thumb/C200x200/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fcafe_image%2Fcafe_meta_image_190529.png" alt="" xxxxonerror="this.src="//img1.kakaocdn.net/thumb/C200x200/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fcafe_image%2Fcafe_meta_image_190529.png""></div><div class="og-text"><p class="og-title">devpi</p><p class="og-desc"></p><p class="og-host">pypi.jetson-ai-lab.dev</p></div></a></div><p>- requirements.txt 활용해서 패키지 공유</p><p> </p><p>코드 내에서 할 일</p><p>- train.py에서 변경하면 될 듯함...</p><div class="figure-html" data-ke-type="html" data-source="<div class="colorscripter-code" style="color:#010101;font-family:Consolas, 'Liberation Mono', Menlo, Courier, monospace !important; position:relative !important;overflow:auto"><table class="colorscripter-code-table" style="margin:0;padding:0;border:none;background-color:#fafafa;border-radius:4px;" cellspacing="0" cellpadding="0"><tr><td style="padding:6px 0;text-align:left"><div style="margin:0;padding:0;color:#010101;font-family:Consolas, 'Liberation Mono', Menlo, Courier, monospace !important;line-height:130%"><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">import</span>&nbsp;os</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">import</span>&nbsp;torch</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">import</span>&nbsp;torch.distributed&nbsp;<span style="color:#a71d5d">as</span>&nbsp;dist</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span>&nbsp;ultralytics&nbsp;<span style="color:#a71d5d">import</span>&nbsp;YOLO</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;DDP(Distributed&nbsp;Data&nbsp;Parallel)&nbsp;환경을&nbsp;설정하는&nbsp;함수</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">def</span>&nbsp;setup_ddp():</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;dist.init_process_group(</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;backend<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'mpi'</span>,&nbsp;&nbsp;<span style="color:#999999">#&nbsp;Jetson에서는&nbsp;gloo&nbsp;또는&nbsp;mpi&nbsp;사용&nbsp;가능,&nbsp;mpi&nbsp;사용</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;init_method<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>f<span style="color:#63a35c">"tcp://{os.environ['MASTER_ADDR']}:{os.environ['MASTER_PORT']}"</span>,&nbsp;&nbsp;<span style="color:#999999">#&nbsp;마스터&nbsp;노드의&nbsp;주소와&nbsp;포트</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;world_size<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#066de2">int</span>(os.environ[<span style="color:#63a35c">'WORLD_SIZE'</span>]),&nbsp;&nbsp;<span style="color:#999999">#&nbsp;전체&nbsp;학습&nbsp;노드&nbsp;개수</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;rank<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#066de2">int</span>(os.environ[<span style="color:#63a35c">'RANK'</span>])&nbsp;&nbsp;<span style="color:#999999">#&nbsp;현재&nbsp;노드의&nbsp;순서&nbsp;(마스터는&nbsp;0,&nbsp;나머지는&nbsp;1,&nbsp;2,&nbsp;...)</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;)</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;<span style="color:#999999">#&nbsp;현재&nbsp;노드에서&nbsp;사용할&nbsp;GPU&nbsp;설정&nbsp;(각&nbsp;노드가&nbsp;1개&nbsp;GPU&nbsp;사용하도록&nbsp;설정)</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;torch.cuda.set_device(<span style="color:#066de2">int</span>(os.environ[<span style="color:#63a35c">'RANK'</span>])&nbsp;%&nbsp;torch.cuda.device_count())</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;DDP&nbsp;프로세스를&nbsp;종료하는&nbsp;함수</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">def</span>&nbsp;cleanup_ddp():</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;<span style="color:#63a35c">""</span><span style="color:#63a35c">"</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#63a35c">&nbsp;&nbsp;&nbsp;&nbsp;DDP&nbsp;프로세스&nbsp;그룹을&nbsp;정리하는&nbsp;함수&nbsp;(???)</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#63a35c">&nbsp;&nbsp;&nbsp;&nbsp;학습이&nbsp;끝나면&nbsp;반드시&nbsp;호출해야&nbsp;한다고&nbsp;함...</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#63a35c">&nbsp;&nbsp;&nbsp;&nbsp;"</span><span style="color:#63a35c">""</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;dist.destroy_process_group()</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">if</span>&nbsp;__name__&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>&nbsp;<span style="color:#63a35c">"__main__"</span>:</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;setup_ddp()&nbsp;&nbsp;<span style="color:#999999">#&nbsp;DDP&nbsp;환경&nbsp;초기화</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;<span style="color:#999999">#&nbsp;YOLO&nbsp;모델&nbsp;로드</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;model&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>&nbsp;YOLO(<span style="color:#63a35c">'/home/jiayuan/yolom/ultralytics/models/v8/yolov8-bdd-v4-one-dropout-individual-n.yaml'</span>,&nbsp;task<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'multi'</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;<span style="color:#999999">#&nbsp;YOLO&nbsp;모델&nbsp;학습&nbsp;시작</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;model.train(</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;data<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'/home/jiayuan/yolom/ultralytics/datasets/bdd-multi.yaml'</span>,&nbsp;&nbsp;<span style="color:#999999">#&nbsp;학습&nbsp;데이터셋&nbsp;경로</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;batch<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>???,&nbsp;&nbsp;<span style="color:#999999">#&nbsp;배치&nbsp;크기&nbsp;(각&nbsp;노드에서&nbsp;처리할&nbsp;이미지&nbsp;개수)</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<span style="color:#999999">#&nbsp;각&nbsp;노드에서&nbsp;사용될&nbsp;배치&nbsp;크기를&nbsp;총&nbsp;배치&nbsp;크기&nbsp;÷&nbsp;노드&nbsp;개수로&nbsp;설정하면&nbsp;됨</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;epochs<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">300</span>,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;imgsz<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>(<span style="color:#0099cc">640</span>,&nbsp;<span style="color:#0099cc">640</span>),</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;device<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>[<span style="color:#0099cc">0</span>],&nbsp;&nbsp;<span style="color:#999999">#&nbsp;각&nbsp;노드에서&nbsp;사용할&nbsp;GPU&nbsp;(RANK에&nbsp;따라&nbsp;자동&nbsp;분배됨)</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;name<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'yolopm'</span>,&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;val<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#066de2">True</span>,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;task<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'multi'</span>,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;classes<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>[<span style="color:#0099cc">2</span>,&nbsp;<span style="color:#0099cc">3</span>,&nbsp;<span style="color:#0099cc">4</span>,&nbsp;<span style="color:#0099cc">9</span>,&nbsp;<span style="color:#0099cc">10</span>,&nbsp;<span style="color:#0099cc">11</span>],</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;combine_class<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>[<span style="color:#0099cc">2</span>,&nbsp;<span style="color:#0099cc">3</span>,&nbsp;<span style="color:#0099cc">4</span>,&nbsp;<span style="color:#0099cc">9</span>],</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;single_cls<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#066de2">True</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;)</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;cleanup_ddp()&nbsp;&nbsp;<span style="color:#999999">#&nbsp;DDP&nbsp;정리</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div></div><div style="text-align:right;margin-top:-13px;margin-right:5px;font-size:9px;font-style:italic"><a href="http://colorscripter.com/info#e" target="_blank" style="color:#e5e5e5text-decoration:none">Colored by Color Scripter</a></div></td><td style="vertical-align:bottom;padding:0 2px 4px 0"><a href="http://colorscripter.com/info#e" target="_blank" style="text-decoration:none;color:white"><span style="font-size:9px;word-break:normal;background-color:#e5e5e5;color:white;border-radius:10px;padding:1px">cs</span></a></td></tr></table></div>"><div data-ke-class="article"><div class="colorscripter-code" style="color:#010101;font-family:Consolas, 'Liberation Mono', Menlo, Courier, monospace !important; position:relative !important;overflow:auto"><table class="colorscripter-code-table" style="margin:0;padding:0;border:none;background-color:#fafafa;border-radius:4px;" cellspacing="0" cellpadding="0"><tr><td style="padding:6px 0;text-align:left"><div style="margin:0;padding:0;color:#010101;font-family:Consolas, 'Liberation Mono', Menlo, Courier, monospace !important;line-height:130%"><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">import</span> os</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">import</span> torch</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">import</span> torch.distributed <span style="color:#a71d5d">as</span> dist</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span> ultralytics <span style="color:#a71d5d">import</span> YOLO</div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999"># DDP(Distributed Data Parallel) 환경을 설정하는 함수</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">def</span> setup_ddp():</div><div style="padding:0 6px; white-space:pre; line-height:130%">    dist.init_process_group(</div><div style="padding:0 6px; white-space:pre; line-height:130%">        backend<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'mpi'</span>,  <span style="color:#999999"># Jetson에서는 gloo 또는 mpi 사용 가능, mpi 사용</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">        init_method<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>f<span style="color:#63a35c">"tcp://{os.environ['MASTER_ADDR']}:{os.environ['MASTER_PORT']}"</span>,  <span style="color:#999999"># 마스터 노드의 주소와 포트</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">        world_size<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#066de2">int</span>(os.environ[<span style="color:#63a35c">'WORLD_SIZE'</span>]),  <span style="color:#999999"># 전체 학습 노드 개수</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">        rank<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#066de2">int</span>(os.environ[<span style="color:#63a35c">'RANK'</span>])  <span style="color:#999999"># 현재 노드의 순서 (마스터는 0, 나머지는 1, 2, ...)</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">    )</div><div style="padding:0 6px; white-space:pre; line-height:130%">    <span style="color:#999999"># 현재 노드에서 사용할 GPU 설정 (각 노드가 1개 GPU 사용하도록 설정)</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">    torch.cuda.set_device(<span style="color:#066de2">int</span>(os.environ[<span style="color:#63a35c">'RANK'</span>]) % torch.cuda.device_count())</div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999"># DDP 프로세스를 종료하는 함수</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">def</span> cleanup_ddp():</div><div style="padding:0 6px; white-space:pre; line-height:130%">    <span style="color:#63a35c">""</span><span style="color:#63a35c">"</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#63a35c">    DDP 프로세스 그룹을 정리하는 함수 (???)</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#63a35c">    학습이 끝나면 반드시 호출해야 한다고 함...</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#63a35c">    "</span><span style="color:#63a35c">""</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">    dist.destroy_process_group()</div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">if</span> __name__ <span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0086b3"></span><span style="color:#a71d5d">=</span> <span style="color:#63a35c">"__main__"</span>:</div><div style="padding:0 6px; white-space:pre; line-height:130%">    setup_ddp()  <span style="color:#999999"># DDP 환경 초기화</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">    </div><div style="padding:0 6px; white-space:pre; line-height:130%">    <span style="color:#999999"># YOLO 모델 로드</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">    model <span style="color:#0086b3"></span><span style="color:#a71d5d">=</span> YOLO(<span style="color:#63a35c">'/home/jiayuan/yolom/ultralytics/models/v8/yolov8-bdd-v4-one-dropout-individual-n.yaml'</span>, task<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'multi'</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%">    </div><div style="padding:0 6px; white-space:pre; line-height:130%">    <span style="color:#999999"># YOLO 모델 학습 시작</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">    model.train(</div><div style="padding:0 6px; white-space:pre; line-height:130%">        data<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'/home/jiayuan/yolom/ultralytics/datasets/bdd-multi.yaml'</span>,  <span style="color:#999999"># 학습 데이터셋 경로</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">        batch<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>???,  <span style="color:#999999"># 배치 크기 (각 노드에서 처리할 이미지 개수)</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">        <span style="color:#999999"># 각 노드에서 사용될 배치 크기를 총 배치 크기 ÷ 노드 개수로 설정하면 됨</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">        epochs<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">300</span>,</div><div style="padding:0 6px; white-space:pre; line-height:130%">        imgsz<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>(<span style="color:#0099cc">640</span>, <span style="color:#0099cc">640</span>),</div><div style="padding:0 6px; white-space:pre; line-height:130%">        device<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>[<span style="color:#0099cc">0</span>],  <span style="color:#999999"># 각 노드에서 사용할 GPU (RANK에 따라 자동 분배됨)</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">        name<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'yolopm'</span>, </div><div style="padding:0 6px; white-space:pre; line-height:130%">        val<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#066de2">True</span>,</div><div style="padding:0 6px; white-space:pre; line-height:130%">        task<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'multi'</span>,</div><div style="padding:0 6px; white-space:pre; line-height:130%">        classes<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>[<span style="color:#0099cc">2</span>, <span style="color:#0099cc">3</span>, <span style="color:#0099cc">4</span>, <span style="color:#0099cc">9</span>, <span style="color:#0099cc">10</span>, <span style="color:#0099cc">11</span>],</div><div style="padding:0 6px; white-space:pre; line-height:130%">        combine_class<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>[<span style="color:#0099cc">2</span>, <span style="color:#0099cc">3</span>, <span style="color:#0099cc">4</span>, <span style="color:#0099cc">9</span>],</div><div style="padding:0 6px; white-space:pre; line-height:130%">        single_cls<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#066de2">True</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">    )</div><div style="padding:0 6px; white-space:pre; line-height:130%">    </div><div style="padding:0 6px; white-space:pre; line-height:130%">    cleanup_ddp()  <span style="color:#999999"># DDP 정리</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div></div><div style="text-align:right;margin-top:-13px;margin-right:5px;font-size:9px;font-style:italic"><a href="http://colorscripter.com/info#e" target="_blank" style="color:#e5e5e5text-decoration:none">Colored by Color Scripter</a></div></td><td style="vertical-align:bottom;padding:0 2px 4px 0"><a href="http://colorscripter.com/info#e" target="_blank" style="text-decoration:none;color:white"><span style="font-size:9px;word-break:normal;background-color:#e5e5e5;color:white;border-radius:10px;padding:1px">cs</span></a></td></tr></table></div></div></div><p> </p><p> </p><p>MPI 설치 방법</p><p>- 시스템에 mpich 혹은 openmi 설치하면 됨</p><p>$ sudo apt-get install openmpi-bin openmpi-common libopenmpi-dev</p><p> </p><p>hostfile에 보드의 IP 주소 및 사용 가능한 GPU 수를 정의하면 됨</p><p> </p><p><b>203.234.62.xx slots=1 </b><br><b>203.234.62.yy slots=1 </b><br><b>203.234.62.zz slots=1 </b><br><b>203.234.62.vv slots=1</b></p><p> </p><p><b>-</b> slot은 GPU 개수 의미</p><p> </p><p>Pytorch DDP 실행 - 모든 보드에서 실행</p><p> </p><p>$ mpirun --hostfile hostfile 경로 -np 사용개수(n) python -m torch.distributed.launch --nproc_per_node=y --nnodes=n*y node_rank=0 --master_addr=마스터IP master_port=마스터포트 train.py</p><p> </p><ul style="list-style-type: disc;" data-ke-list-type="disc"><li>--hostfile hostfile → 사용할 Jetson 리스트</li><li>-np n → 총 n개의 GPU 사용 (각 노드당 1개)</li><li>--nproc_per_node=1 → 각 노드에서 1개의 GPU 사용</li><li>--nnodes=n*1 → 총 n*1개의 노드 사용</li><li>--node_rank=0 → 마스터 노드 (첫 번째 Jetson에서 실행)</li><li>--master_addr=203.234.62.xx → 마스터 노드의 IP 주소</li><li>--master_port= → 통신 포트 설정</li></ul><p> </p><p>환경 변수 설정해야 함</p><p> </p><p>export MASTER_ADDR=<br>export MASTER_PORT=<br>export WORLD_SIZE=<br>export RANK=0  # 각 노드에서 rank=0,1,2,3으로 변경 필요</p><p> </p><p>실행 - 모든 보드에서 실행</p><p> </p><p>$ mpirun --hostfile hostfile -np n python train.py</p><p> </p><p> </p><p><a href="https://cafe.daum.net/SmartRobot/RoVa/2206" target="_blank" class="ke-link">https://cafe.daum.net/SmartRobot/RoVa/2206</a></p><p> </p><p> </p>