- 질문 게시판입니다.
Date | 25/01/21 15:34:02 |
Name | ce525 |
Subject | 빅데이터? ai 클러스터링 관련 질문? |
항공교통 관련 연구 중인데 항공기 운항자료를 가지고 궤적을 좀 모아보고 싶습니다. ai 맛만 본 저는 클러스터링을 해야된다 까진 알겠는데 어떤식으로 접근해야될지 감이 안옵니다. 대학원 실습때는 클러스터링을 2d점으로 된 자료를 k mean 같은거만 했었어서.. 대량의 자료를 묶어서 해야하는데 비주얼라이제이션은 꿈도 못꾸고 ,, 여튼 본론은 항공기 궤적자료는 수많은 항공편들이 있고 각각의 항공편에 x,y,z(위도좌표, 경도좌표, 고도)가 시간상으로 쭉 변경되어 기록되어 있습니다. 이 수많은 항공편(한 4000편 좀 넘겠네요)들이 제가 연구하는 공항에 접근하는 루트가 2개일텐데 2개로 묶는 거가 가능할까요? 0
|
음 그러면 hough transform 을 참고하셔서 선에대한 feature를 뽑으신다음 하는 것은 어떨까 합니다
곡선에대한 feature를 뽑는 건 좀 찾아봐야겠네요
곡선에대한 feature를 뽑는 건 좀 찾아봐야겠네요
조금 더 자세하게 설명드리면 각 3차원 공간의 진행경로 선은 커브피팅 모델에 의해서 각각 어떤 식(모델)의 계수로 표현 가능합니다
즉 하나의 경로(여러 점들이 이어진)는 이를테면 u’, v’, w’ 세개(모델에 따라 계수 갯수는 다름)로 구분지어집니다
이는 흔히 머신러닝에서 feature로 표현되는 그것이며 이것을 모아서 kmeans나 dbscan에 그룹수 2나 3으로 지정하고 출력을 보면 각 데이터에 대해 라벨링이 되어 출력되는 것을 확인 할 수 있읍니다
kmeans는 euclidean distance기준으로 중심에 얼마나 모여있는가 즉 구체에 가까운 형태의 데이터 클러스터링에 적합하며 dbsc... 더 보기
즉 하나의 경로(여러 점들이 이어진)는 이를테면 u’, v’, w’ 세개(모델에 따라 계수 갯수는 다름)로 구분지어집니다
이는 흔히 머신러닝에서 feature로 표현되는 그것이며 이것을 모아서 kmeans나 dbscan에 그룹수 2나 3으로 지정하고 출력을 보면 각 데이터에 대해 라벨링이 되어 출력되는 것을 확인 할 수 있읍니다
kmeans는 euclidean distance기준으로 중심에 얼마나 모여있는가 즉 구체에 가까운 형태의 데이터 클러스터링에 적합하며 dbsc... 더 보기
조금 더 자세하게 설명드리면 각 3차원 공간의 진행경로 선은 커브피팅 모델에 의해서 각각 어떤 식(모델)의 계수로 표현 가능합니다
즉 하나의 경로(여러 점들이 이어진)는 이를테면 u’, v’, w’ 세개(모델에 따라 계수 갯수는 다름)로 구분지어집니다
이는 흔히 머신러닝에서 feature로 표현되는 그것이며 이것을 모아서 kmeans나 dbscan에 그룹수 2나 3으로 지정하고 출력을 보면 각 데이터에 대해 라벨링이 되어 출력되는 것을 확인 할 수 있읍니다
kmeans는 euclidean distance기준으로 중심에 얼마나 모여있는가 즉 구체에 가까운 형태의 데이터 클러스터링에 적합하며 dbscan은 데이터와 주변 데이터를 하나의 클러스터로 병합시 얼마나 밀도있는지에 대한 기준을 따라가므로 대체로 기다란 뱀같은 (?) 분포를 가지는 유형에 적합합니다
raw data는 궤적이지만 추출된 feature 의 분포는 그렇지 않을 수 있으므로 이것저것 다 해보시길 추천 드립니다
3차원 공간에서 curve fitting 하는 모델은 아래 링크를 한번 참조해보심이 좋겠습니다
https://m.blog.naver.com/PostView.naver?blogId=seemirae&logNo=120009044877&proxyReferer=https:%2F%2Fwww.google.com%2F&trackingCode=external
2d나 3d 공간에서 각 데이터가 어떻게 분포하고 있는지를 보고 싶으시면 pca, nonlinear pca로 feature 차원을 2나 3으로 맞춘 다음 plot 해보시는게 도움이 될 거 같습니다
즉 하나의 경로(여러 점들이 이어진)는 이를테면 u’, v’, w’ 세개(모델에 따라 계수 갯수는 다름)로 구분지어집니다
이는 흔히 머신러닝에서 feature로 표현되는 그것이며 이것을 모아서 kmeans나 dbscan에 그룹수 2나 3으로 지정하고 출력을 보면 각 데이터에 대해 라벨링이 되어 출력되는 것을 확인 할 수 있읍니다
kmeans는 euclidean distance기준으로 중심에 얼마나 모여있는가 즉 구체에 가까운 형태의 데이터 클러스터링에 적합하며 dbscan은 데이터와 주변 데이터를 하나의 클러스터로 병합시 얼마나 밀도있는지에 대한 기준을 따라가므로 대체로 기다란 뱀같은 (?) 분포를 가지는 유형에 적합합니다
raw data는 궤적이지만 추출된 feature 의 분포는 그렇지 않을 수 있으므로 이것저것 다 해보시길 추천 드립니다
3차원 공간에서 curve fitting 하는 모델은 아래 링크를 한번 참조해보심이 좋겠습니다
https://m.blog.naver.com/PostView.naver?blogId=seemirae&logNo=120009044877&proxyReferer=https:%2F%2Fwww.google.com%2F&trackingCode=external
2d나 3d 공간에서 각 데이터가 어떻게 분포하고 있는지를 보고 싶으시면 pca, nonlinear pca로 feature 차원을 2나 3으로 맞춘 다음 plot 해보시는게 도움이 될 거 같습니다
Time series 데이터니까 Dynamic Time Warping Barycenter Averaging으로 찾아보시면 좋겠습니다.
아래 코드도 참고해보세요. https://github.com/fpetitjean/DBA
아래 코드도 참고해보세요. https://github.com/fpetitjean/DBA
그리고 접근하는 루트가 두개라고 생각한다면, 비행기의 도착 지점에 해당할테니 타임 시퀀스의 마지막 부분에 time window를 정해놓고 진입 전 예상 통과 지점이라고 생각되는 곳의 좌표를 찍어 앵커 포인트로 잡고 유클리드 거리든 뭐든 써서 가까운 애들만 필터링하는 것 부터 할 것 같습니다
항공기가 계기비행으로 접근시 공항에 접근하는 루트는 통상 정해져 있습니다. 지금 연구하는 공항은 접근 루트가 3개 인데 1개는 거의 안쓰는 거로 확인이 됬지만 나머지 비행편에 대해 어떤 루트로 접근했는지 분류를 하고 싶은 겁니다. 가지고 있는 데이터는 각각의 비행편이 가지고 있는 고도, 속도, 위치data가 시간에 따라 기록되어 있는 거구요. 이걸 nm막장님이 알려주신 db 스캔의 경우 제가 점으로는 해봤는데, 루트다 보니 3차원 선형이 될꺼라서 될꺼는 같은데..? 라는 생각인데 아직 구체적인 방법을 몰라서 그렇습니다. 어쨋든 조언 감사드립니다. 덜커덩님이 알려주신 방법이 머릿속에 있긴한데 구체화를 못해서 GPT랑 얘기해봐야죠. ㅎㅎ
목록 |
|