From d6e70052d02872289472ec02367daeeeb87a6526 Mon Sep 17 00:00:00 2001 From: YB Date: Sat, 1 Oct 2016 15:41:59 -0400 Subject: [PATCH 1/2] Lecture1 - part 326~345 (out of 715) en / ko --- captions/En/Lecture1_en.srt | 76 ++++++++++++++++++------------------- captions/Ko/Lecture1_ko.srt | 57 +++++++++++++++------------- 2 files changed, 68 insertions(+), 65 deletions(-) diff --git a/captions/En/Lecture1_en.srt b/captions/En/Lecture1_en.srt index c836c419..b4746a7e 100644 --- a/captions/En/Lecture1_en.srt +++ b/captions/En/Lecture1_en.srt @@ -1592,7 +1592,7 @@ I don't think half of you only has 325 00:36:15,679 --> 00:36:17,239 - head and the neck +head and the neck 326 00:36:17,239 --> 00:36:22,799 @@ -1602,103 +1602,101 @@ I know you're occluded by the row in 327 00:36:22,800 --> 00:36:29,680 front of you and this is the fundamental challenge of the Vision. -We have ill-post problem to solve +We have ill-posed problem to solve. 328 -00:36:29,679 --> 00:36:38,118 -nature had that you oppose prob to solve -because the broadest 3d imagery 2d +00:36:29,680 --> 00:36:38,118 +Nature had an ill-posed problem to solve +because the world is 3D, but the imagery on our retina is 2d. 329 00:36:38,119 --> 00:36:45,210 -nature saw that my first a hard work -trick we just to ice it did they use one +Nature solved it by first a hardware trick +which is two eyes. It didn't use one eye, 330 00:36:45,210 --> 00:36:49,389 -I but there's gonna be a whole bunch of -hoes software trick to lurch the +but then there's gonna be a whole bunch of +software trick to merge the 331 00:36:49,389 --> 00:36:53,868 -formation of the two eyes and Aldous so -the same thing with computer vision we +information of the two eyes and all this. +So, the same thing with computer vision. 332 00:36:53,869 --> 00:36:59,280 -have to solve that too and have tea -problem and they eventually we have to +We have to solve that 2.5D problem and eventually we have to 333 00:36:59,280 --> 00:37:03,180 put everything together so that we -actually have a good 3d model of the +actually have a good 3D model of the world. 334 -00:37:03,179 --> 00:37:08,629 -world why do we have to have a 3d model -of the world as we have to survive +00:37:03,180 --> 00:37:08,629 +Why do we have to have a 3d model of the world? +Because, we have to survive, 335 00:37:08,630 --> 00:37:15,309 -navigate manipulate the world when I -shake your hand I really need to know +navigate, manipulate the world. +When I shake your hand, I really need to know 336 00:37:15,309 --> 00:37:16,509 -how do you know +how to, you know 337 00:37:16,510 --> 00:37:22,320 -external my hand and grab your heading -the right way that is a 3d modeling of +extend out my hand and grab your hand in the right way. +That is a 3d modeling of the world, 338 00:37:22,320 --> 00:37:26,000 -the world otherwise I won't be able to -grab your head in the right way when I +otherwise I won't be able to +grab your hand in the right way. 339 00:37:26,000 --> 00:37:34,219 -pick up a mug the same thing so so -that's that's that's David Marr's +When I pick up a mug, the same thing. +So, that's David Mark's 340 00:37:34,219 --> 00:37:39,899 -architecture for vision that's a -high-level abstract architecture it +architecture for vision. +It's a high-level abstract architecture. 341 00:37:39,900 --> 00:37:45,490 -doesn't really inform us exactly what -kind of mathematical modeling we should +It doesn't really inform us exactly what +kind of mathematical modeling we should use. 342 -00:37:45,489 --> 00:37:51,439 -it doesn't inform us of the learning -procedure and they really does the +00:37:45,490 --> 00:37:51,439 +It doesn't inform us of the learning +procedure and they really doesn't inform us the 343 00:37:51,440 --> 00:37:55,599 inference procedure which we will -getting to through the deep learning +getting to through the deep learning network architecture 344 00:37:55,599 --> 00:38:02,759 -that word architecture but that's not -that's the high-level view of important +but that's the high-level view. 345 00:38:02,760 --> 00:38:06,250 -it's an important concept to learn +and it's an important concept to learn in vision. 346 00:38:06,250 --> 00:38:08,619 -envisioned and we call this the +and we call this the representaion. 347 00:38:08,619 --> 00:38:16,859 -representation really important work and +really important work and this is a little bit stuff first trip to 348 diff --git a/captions/Ko/Lecture1_ko.srt b/captions/Ko/Lecture1_ko.srt index 72eb704c..b3ab8fff 100644 --- a/captions/Ko/Lecture1_ko.srt +++ b/captions/Ko/Lecture1_ko.srt @@ -1331,11 +1331,11 @@ 322 00:35:55,730 --> 00:36:02,400 - 그 다음에 우리는 2.5 차원으로 생각을 합니다. 이 계층이 바로 + 그 다음에 우리는 2.5차원으로 생각을 합니다. 이 계층이 바로 323 00:36:02,400 --> 00:36:08,829 - 당신이 2D 이미지를 3D 세상으로 인식하기 시작하는 계증입니다. + 당신이 2차원 이미지를 3차원 세상으로 인식하기 시작하는 계증입니다. 당신은 324 @@ -1349,87 +1349,92 @@ 326 00:36:17,239 --> 00:36:22,799 - 그게 내가이 표시되는 모든 비록 당신이 모든 행에 체결 거 알아 + 머리와 목만 보이더라도 여러분들이 그 앞 줄에 가려져 있다는 것을 알고 있죠. 327 00:36:22,800 --> 00:36:29,680 - 당신이 문제의 전면 해결하기 위해 문제를 게시 할 예정입니다 + 이것이 바로 비전의 기본적인 도전과제입니다. + 우리는 답이 정해져있지 않은 문제를 풀고있습니다. 328 -00:36:29,679 --> 00:36:38,118 - 자연은 광범위한 차원 이미지의 2D 때문에 해결하기 위해 확률값 반대하는 것으로했다 +00:36:29,680 --> 00:36:38,118 + 자연 또한 이 정해지지 않은 문제를 풀어야했죠. + 세상은 3차원이지만 우리 망막에 비치는 그림은 2차원입니다. 329 00:36:38,119 --> 00:36:45,210 - 자연은 내 첫 번째 하드 작업 트릭은 우리가 그들이 하나를 사용했던 아이스하는 것을보고 + 자연이 이 문제를 풀기위해 쓴 첫 번째 트릭은 하드웨어 였습니다. + 하나의 눈이 아닌 두개의 눈을 만들었어요. 330 00:36:45,210 --> 00:36:49,389 - I하지만 거 야를 돌출하는 괭이 소프트웨어 트릭의 전체 무리가있을 수있어 + 하지만 이 두 눈에서 얻어진 정보를 합치는데 매우 많은 소프트웨어 트릭이 필요했지요. 331 00:36:49,389 --> 00:36:53,868 - 컴퓨터 비전과 같은 일 때문에 두 눈의 형성과 더스 우리 + 컴퓨터 비전도 마찬가지 입니다. 332 00:36:53,869 --> 00:36:59,280 - 그것도를 해결하고 차에 문제가있는 그리고 그들은 결국 우리에게있다 + 우리는 2.5차원의 문제를 풀고 3차원 세상의 좋은 모델을 얻기 위해 결국엔 333 00:36:59,280 --> 00:37:03,180 - 우리가 실제로 좋은 3D 모델을 함께 있도록 모든 것을 넣어 + 모든 정보를 합쳐야 하죠. 334 -00:37:03,179 --> 00:37:08,629 - 세계는 왜 우리가 살아남을 가지고 우리가 세계의 3D 모델을해야합니까 +00:37:03,180 --> 00:37:08,629 + 왜 3차원 세상의 좋은 모델이 필요할까요? 그로인해 우리는 335 00:37:08,630 --> 00:37:15,309 - 나는 손을 흔들 때 내가 정말 알아야 할 세계를 조작 이동 + 살아남고, 방향을 잡고, 세상을 변화시킬 수 있습니다. 336 00:37:15,309 --> 00:37:16,509 - 당신은 알고 어떻게 + 제가 여러분과 악수를 하기위해서는 337 00:37:16,510 --> 00:37:22,320 - 내 손을 외부와가의 3 차원 모델링입니다 올바른 방법을 향하고 잡아 + 올바른 방향으로 손을 뻗어 여러분의 손을 잡아야하죠. + 이것이 세상의 3차원 모델링입니다. 338 00:37:22,320 --> 00:37:26,000 - 세계 그렇지 않으면 나는 때 올바른 방법으로 당신의 머리를 잡아 할 수 없습니다 + 그렇지 않으면 저는 올바른 방법으로 당신의 손을 잡을 수가 없습니다. 339 00:37:26,000 --> 00:37:34,219 - 그건 그래서, 그래서 그 데이비드 마르의의 찻잔에게 같은 일을 데리러 + 이것은 제가 머그잔을 잡을 때도 마찬가지입니다. + 이것이 David Mark의 Vision 구조입니다. 340 00:37:34,219 --> 00:37:39,899 - 높은 수준의 추상적 인 아키텍처의 비전 아키텍처 그것을 + 이것은 매우 추상적인 수준의 구조입니다. 341 00:37:39,900 --> 00:37:45,490 - 정말 수학적 모델링 정확히 어떤 종류의 정보를 통보하지 않습니다 우리는해야 + 어떠한 수학적인 모델링을 사용해야하는지 알려주지 않습니다. 342 -00:37:45,489 --> 00:37:51,439 - 그것은 학습 과정의 정보를 통보하지 않으며, 그들은 정말 않습니다 +00:37:45,490 --> 00:37:51,439 + 학습과정에 대해서 알려주지도 않으며, 343 00:37:51,440 --> 00:37:55,599 - 우리는 깊은 학습을 통해에 도착합니다 추론 절차 + 우리가 Deep Learning Network 구조를 통해서 배우게 될 추론과정에 대해서도 알려주지 않습니다. 344 00:37:55,599 --> 00:38:02,759 - 그 단어 아키텍처하지만이 아닌 그의 중요의 높은 수준의보기이다 + 높은 레벨의 추상적인 관점이죠. 345 00:38:02,760 --> 00:38:06,250 - 그것은 배울 수있는 중요한 개념이다 + 하지만 Vision에서 아주 중요한 개념입니다. 346 00:38:06,250 --> 00:38:08,619 - 구상 우리는 이것을 호출 + 우리는 이것을 표현이라고 부르죠. 347 00:38:08,619 --> 00:38:16,859 From f0d6f43b3a0dc165174393d613f8fb4f033410c8 Mon Sep 17 00:00:00 2001 From: YB Date: Sat, 19 Nov 2016 13:52:19 -0500 Subject: [PATCH 2/2] Lecture1 - part 346~374 (out of 715) en / ko --- captions/En/Lecture1_en.srt | 106 +++++++++++++++++------------------- captions/Ko/Lecture1_ko.srt | 65 ++++++++++++---------- 2 files changed, 85 insertions(+), 86 deletions(-) diff --git a/captions/En/Lecture1_en.srt b/captions/En/Lecture1_en.srt index b4746a7e..aa106b8e 100644 --- a/captions/En/Lecture1_en.srt +++ b/captions/En/Lecture1_en.srt @@ -1696,146 +1696,138 @@ and we call this the representaion. 347 00:38:08,619 --> 00:38:16,859 -really important work and -this is a little bit stuff first trip to +Ah, couple of really important work and +this is a little bit stanford centric to just show you. 348 00:38:16,860 --> 00:38:25,180 -just show you as soon as they lead out -this important way of thinking about the +As soon as David Mark laid out +this important way of thinking about Vision, 349 -00:38:25,179 --> 00:38:31,879 -first wave of visual recognition -algorithms went after the 3d model +00:38:25,180 --> 00:38:31,879 +the first wave of visual recognition +algorithms went after the 3d model. 350 00:38:31,880 --> 00:38:38,280 -because that's the goal right like no -matter how you represent the stages the +because that's the goal, right? +like no matter how you represent the stages, 351 00:38:38,280 --> 00:38:45,519 -goal here is to reconstruct recognized -object and this is really sensible +the goal here is to reconstruct 3D model, +so that we can recognize object and this is really sensible 352 00:38:45,519 --> 00:38:52,380 -because that's when we go to the world -and do so both of these to your work +because that's when we go to the world and do. +So, both of these two influencial work comes from Palo Alto. 353 00:38:52,380 --> 00:38:58,829 -comes from Palo Alto one of those from -sum 41 as far as ROI Sao Tome before was +One is from Stanford, one is from SRI. 354 00:38:58,829 --> 00:39:00,440 -a professor at Stanford +So, Tom Binford was a professor at Stanford AI Lab. 355 00:39:00,440 --> 00:39:05,760 -I love that he and his two directly -Brooks proposed 11 of the first +And he and his student Rodney Brooks proposed one of the first 356 00:39:05,760 --> 00:39:10,430 -so-called generalized till salu model -I'm not gonna get into the details but +so-called generalized cylinder model. +I'm not gonna get into the details, 357 -00:39:10,429 --> 00:39:17,129 -the idea is that the world is composed -of simple shapes like +00:39:10,430 --> 00:39:17,129 +but the idea is that the world is composed of simple shapes like 358 00:39:17,130 --> 00:39:23,150 -wonders blocks and then any real world -object is just a combination of these +cylinders blocks and then any real world +object is just a combination of these simple shapes 359 00:39:23,150 --> 00:39:28,340 -simple shapes given the particular -feeling and go and that was a very +given the particular viewing angle +and that was a very 360 00:39:28,340 --> 00:39:37,970 -influential visual recognition model in -the seventies and went on to become the +influential visual recognition model in the seventies +and Rodney Brooks went on to become the 361 00:39:37,969 --> 00:39:47,239 -Director of MIT lab and he was also a -founding member of iRobot company rumba +director of MIT's AI lab and he was also a +founding member of iRobot company Roomba and all this. 362 00:39:47,239 --> 00:39:51,379 -and all this so so he continued the very -influential +So, he continued very influential AI work. 363 00:39:51,380 --> 00:39:56,930 -I work and nobody interesting model -coming from local +Another interesting model coming from local Stanford Research Institute, 364 00:39:56,929 --> 00:40:05,009 -Research Institute I think I saw I is -across the street from El Camino is this +I think SRI is across the street from El Camino, 365 00:40:05,010 --> 00:40:15,260 -pictorial structure model has less of a -3d flavor but more of a probabilistic +is this pictorial structure model. +It's very similar.. it focused.. it has less of 3d flavor, +but more of a probabilistic flavor. 366 00:40:15,260 --> 00:40:21,570 -flavor is that the objects are made of a -still simple part +is that the objects are made of a still simple parts 367 00:40:21,570 --> 00:40:28,059 like a person's head is made of eyes and -nose or mouth and the parts were CuMn +nose and mouth and the parts were connected 368 00:40:28,059 --> 00:40:34,679 -acted by springs allowing for some -deformations getting a sense of ok we +by springs allowing for some deformations. +So, this is getting a sense of, 369 00:40:34,679 --> 00:40:40,069 -recognize the world not every one of you -have exactly the same eyes in the +okay, we recognize the world not every one of you +have exactly the same eyes in the distance between the eyes. 370 00:40:40,070 --> 00:40:45,150 -distance between the eyes will allow for -some kind of rare variability so this +we allow for some kind of variability. 371 00:40:45,150 --> 00:40:50,450 -concept of variability start to get -introduced in the model like this and +So, this concept of variability start to get +introduced in the model like this. 372 00:40:50,449 --> 00:40:56,309 -using models like this you know the -reason I want to show you this is too to +And using models like this you know the +reason I want to show you this is to 373 00:40:56,309 --> 00:41:02,710 -see how simple the the worst was a tease -this was one of the most influential +see how simple the work was in the eighties. +This was one of the most influential 374 00:41:02,710 --> 00:41:09,670 -model in the eighties recognizing -real-world objects and the entire paper +model in the eighties recognizing real-world objects 375 00:41:09,670 --> 00:41:18,900 -of real world is these seemingly users +and the entire paper of real world is these seemingly users but the using the edges and simple 376 diff --git a/captions/Ko/Lecture1_ko.srt b/captions/Ko/Lecture1_ko.srt index b3ab8fff..eaaf3b79 100644 --- a/captions/Ko/Lecture1_ko.srt +++ b/captions/Ko/Lecture1_ko.srt @@ -1438,111 +1438,118 @@ 347 00:38:08,619 --> 00:38:16,859 - 표현 정말 중요한 작업 및이에 약간의 물건 첫번째 여행이다 + 몇 가지 중요한 업적들이 있는데 Stanford 관점에서 이야기 하자면 348 00:38:16,860 --> 00:38:25,180 - 다만 즉시이에 대해 생각이 중요한 방법을지도로 보여 + David Mark가 Vision에 대해 이러한 중요한 사고방식을 소개하자마자 349 -00:38:25,179 --> 00:38:31,879 - 영상 인식 알고리즘의 첫 번째 물결은 3D 모델 이후 갔다 +00:38:25,180 --> 00:38:31,879 + 영상 인식 알고리즘 분야는 이 3D 모델을 쫒기 시작했습니다. 350 00:38:31,880 --> 00:38:38,280 - 그 오른쪽에 상관없이 같은 목표이기 때문에 어떻게 단계을 나타냅니다 + 왜냐하면 그것이 바로 Vision의 목적이기 때문이죠. + 어덯게 이 무대들를 포현하더라도 351 00:38:38,280 --> 00:38:45,519 - 여기에 목표는 인식 개체를 복원하는 것입니다이 정말 합리적이다 + 결국 목표는 3D 모델을 재구성하여 사물을 인지하는 것입니다. 말 그대로 입니다. 352 00:38:45,519 --> 00:38:52,380 - 우리는 당신의 일에 그렇게 이들 모두를 세계로 이동 할 때이 있기 때문에 + 바로 우리가 현실 세계에서 하는 일이죠. + 이 두 가지 중요한 업적이 모두 Palo Alto에서 일어났어요. 353 00:38:52,380 --> 00:38:58,829 - 팔로 알토 (Palo Alto)에서 유래 합계 41까지로 투자 수익 (ROI) 상투 메에서 그 중 하나는 예전 + 하나는 Stanford에서, 또 하나는 SRI에서 였죠. 354 00:38:58,829 --> 00:39:00,440 - 스탠포드 교수 + Tom Binford는 스탠포드 인공지능 연구실의 교수였어요. 355 00:39:00,440 --> 00:39:05,760 - 나는 그와 그의이 직접 브룩스가 처음으로 11을 제안 사랑 + 그와 그의 학생 Rodney Brooks는 처음으로 일반화된 실린더 모델을 제안합니다. 356 00:39:05,760 --> 00:39:10,430 - 살루 모델까지 일반화 된 소위 아니에요거야 세부 사항에 들어가 있지만, + 자세한 내용까지 다루지는 않겠지만 357 -00:39:10,429 --> 00:39:17,129 - 아이디어는 세상이 같은 간단한 형태로 구성되어 있다는 것입니다 +00:39:10,430 --> 00:39:17,129 + 아이디어는 세상을 임의의 각도로 바라볼 때 358 00:39:17,130 --> 00:39:23,150 - 블록을 궁금해하고 실제 세계의 객체는이 단지 조합 + 세상이 실린더 블럭 처럼 간단한 형태로 구성되어 있다는 것입니다. 359 00:39:23,150 --> 00:39:28,340 - 간단한 형태는 특정 느낌을 주어 이동이 매우이었다 + 그리고 그것은 70년대에 360 00:39:28,340 --> 00:39:37,970 - 70 년대 영향력있는 시각적 인식 모델이되기 위해 계속 + 아주 영향력있는 시각적 인식 모델이었죠. + 그리고 Rodney Brooks는 361 00:39:37,969 --> 00:39:47,239 - MIT 연구소의 이사 그는 또한 아이 로봇 회사 룸바의 창립 멤버였다 + MIT 연구소의 이사가 되고 또한 iRobot 회사 Roomba의 창립 멤버였습니다. 362 00:39:47,239 --> 00:39:51,379 - 이 모든 그래서 그래서 그는 매우 영향력을 계속했다 + 그는 계속해서 인공지능 분야에 영향을 미쳤습니다. 363 00:39:51,380 --> 00:39:56,930 - 나는 일을하고 아무도 흥미로운 모델은 지역에서 오는 + 또하나의 Stanford Reseach Institute에서 나온 흥미로운 모델은 364 00:39:56,929 --> 00:40:05,009 - 연구소는 나는 엘 카미노이 인에서 나는 길 건너 본 것 같아요 + 아, SRI는 El Camino 길 건너편에 있어요, 365 00:40:05,010 --> 00:40:15,260 - 화보 구조 모델은 확률의 차원 맛이 덜하지만 더있다 + 화보 구조 모델입니다. + 비슷하면서도 이모델은 3D보다는 확률에 좀더 중점을 두고 잇습니다. 366 00:40:15,260 --> 00:40:21,570 - 맛은 개체가 여전히 간단한 부분 만들어진 것입니다 + 개체들은 여전히 간단한 부분들로 구성되어 집니다. 367 00:40:21,570 --> 00:40:28,059 - 같은 사람의 머리는 눈, 코 또는 입 만들어진 부품은 CuMn되어 있었다 + 예를들어 사람의 머리는 눈과 코, 그리고 입으로 만들어져 있죠. + 각각의 부분들은 368 00:40:28,059 --> 00:40:34,679 - 확인 우리의 감각을 받고 일부 변형을 허용 스프링에 의해 행동 + 어느정도의 변형을 허용하는 스프링으로 연결되어 있어요. 369 00:40:34,679 --> 00:40:40,069 - 세계를 인식하지 당신의 모든 하나는 정확히 같은 눈을 가지고 + 여러분 모두가 눈 사이의 거리가 정확히 같지는 않아요. 370 00:40:40,070 --> 00:40:45,150 - 눈 사이의 거리 때문에이 드문 변화의 어떤 종류의 수 + 어떤 종류의 변화를 허용하기 시작한 것이죠. 371 00:40:45,150 --> 00:40:50,450 - 변화의 시작의 개념이 같은 모델에 도입하려면 및 + 자, 이러한 변화의 개념이 이 같은 모델에 도입되기 시작했어요. 372 00:40:50,449 --> 00:40:56,309 - 이가 너무 나는 당신을 보여주고 싶은 이유를 알고이 같은 모델을 사용하여 + 그리고 이러한 모델을 사용하는것은, + 제가 이것을 보여드리는 이유는 373 00:40:56,309 --> 00:41:02,710 - 표시 방법 애타게이 있었던 최악의 단순 가장 영향력있는 중 하나였다 + 80년대에 연구가 얼마나 간단했는지를 보여주기위해서 입니다. + 이것이 80년대에 현실세계의 개체를 인식하는 가장 영향력있는 모델 중 하나 였는데 374 00:41:02,710 --> 00:41:09,670