생식 모델
이 게시물에 대해 설명합 네 프로젝트를 공유하는 일반적인 주제의 강화하거나 사용하여 생식 모델의 분기 자율학습 기법에서는 기계 학습합니다. 기술뿐만 아니라 우리의 일을,이 게시물을 말할 것이 당신에 대해 조금 더 생식 모형:어떤 이들은 왜 그들은 중요하며,그들이 될 수 있습니다.
중 하나는 우리의 핵심은 열망에서 OpenAI 는 알고리즘을 개발하고 그 기술을 부여 컴퓨터의 이해와 우리의 세계입니다.
세상에 대해 얼마나 알고 있는지 잊기 쉽습니다: 을 이해하는 그것의 3D 환경이 물체는 이동,충돌,상호 작용;걷는 사람,이야기,그리고 생각한다;동물을 방목,비행 실행,또는 껍질을 모니터링을 표시하는 정보 인코딩에서 언어에 대해 날씨로,농구,또는에서 무슨 일이 있었는 1970.
이 엄청난 양의 정보는 것은 거기에 그리고 대부분은 쉽게 액세스할 수 있나 실제 세상의 원자 또는 디지털 세상의 비트입니다. 유일한 까다로운 부분은 데이터의이 보물을 분석하고 이해할 수있는 모델과 알고리즘을 개발하는 것입니다.
생성 모델은이 목표를 향한 가장 유망한 접근법 중 하나입니다. 을 훈련하는 생식 모델을 우리는 첫 번째 수집하는 대량의 데이터에서는 몇 가지 도메인(예를들면,생각하는 수백만,이미지의 문장이나,소리,등등.)그런 다음 모델을 훈련시켜 데이터를 생성합니다. 직관이 접근을 다음과 같 유명한 말이에서 리처드 파인만이:
“내가 무엇을 만들 수 없습니다,내가 이해하지 않습니다.”
—리처드 파인만
트릭은 신경 네트워크는 사용으로 생식 모델의 번호를 가지고 매개 변수보다 훨씬 작은 양의 데이터는 우리가 그들을 훈련하고,이 모델은 강을 발견하고 효율적으로 내재화의 본질에서 데이터를 생성하기 위해니다.
생성 모델에는 많은 단기 응용이 있습니다. 하지만 오랫동안 실행에,그들은 잠재적으로 배우고 자연적인 기능의 데이터 집합 여부,카테고리 또는 크기 또는 완전히 다른 뭔가.
이미지 생성
예제를 통해 좀 더 구체적으로 설명하겠습니다. 가정하에 우리는 어떤 큰 컬렉션의 이미지와 같은 1.2million 이미지에 말 데이터 집합(하지만 이것은 결국 큰 컬렉션의 이미지 또는 동영상을 인터넷 또는 로봇). 는 경우는 크기를 조정하는 각 이미지의 너비와 높이 256(일반적으로 수행됩),데이터 집합 중 하나 큰1,200,000x256x256x3
(약 200)블록의 픽셀이 있습니다. 다음은이 데이터 세트의 몇 가지 예제 이미지입니다:
이러한 이미지 예입니다 무엇의 우리의 시각 세계처럼 우리는 참으로 이러한”에서 샘플을 진정한 데이터를 배포”. 우리는 이제 처음부터 이와 같은 이미지를 생성하기 위해 훈련하고자하는 생성 모델을 구성합니다. 구체적으로,생식 모델에서는 이례 중 하나가 될 수 있다는 큰 신경 네트워크는 출력 이미지와는 이러한”으로 견본 모델에서”.
DCGAN
그러한 최근의 모델 중 하나는 Radford et al.의 DCGAN 네트워크이다. (아래 그림 참조). 이는 네트워크 입력으로 100 임의의 숫자에서 균일 배포(우리는 참으로 이러한 코드 또는 잠재변수에 빨간)및 출력을 이미지(이 경우에는64x64x3
이미지 오른쪽에서 녹색). 코드 변경으로 생성되는 이미지 너무 이 모델을 배운 기능을 설명하는 방법을 세계에 보다 보이는 영상을 몇 가지 예입니다.
네트워크(노란색)은 표준에 나선형 신경망과 같은 네트워크 구성 요소 deconvolutional 층(역방향의 나선형 레이어),완전히 연결되어 있습니다.:
DCGAN 로 초기화됩니다 임의의 무게,그래서 임의의 코드 네트워크에 연결되어 있는 것을 생성을 완전히 임의의 이미지입니다. 그러나,당신이 상상할 수 있듯이,네트워크는 매개변수의 수백만 우리가 할 수 있습 비틀기,목표가 설정을 찾을의 이러한 매개 변수는 샘플에서 생성되는 임의의 코드 모양처럼 훈련 데이터입니다. 또는 다른 방법으로 말하면 모델 분포가 이미지의 공간에서 진정한 데이터 분포와 일치하기를 원합니다.
훈련 생식 모델
가 우리가 사용하는 새로 초기화된 네트워크를 생성하는 200 이미지,각각의 시간을 시작으로 다른 임의의 코드입니다. 문제는 앞으로 약간 더 믿을만한 샘플을 생산하도록 장려하기 위해 네트워크의 매개 변수를 어떻게 조정해야합니까? 우리가 우리에 간단한 설정이 감독하고 있지 않는 모든 명시적으로 원하는 대상에 대한 우리의 200 이미지를 생성;우리는 단지 그들이 원하는 실제 볼 수 있습니다. 이 문제에 관한 한 가지 영리한 접근법은 Gan(Generative Adversarial Network)접근법을 따르는 것입니다. 여기에는 두 번째 판별자 네트워크(일반적으로 표준곱 신경망)하려고 하는 분류하는 경우에 입력된 이미지를 실제 또는 생성됩니다. 예를 들어,우리가 먹일 수 있습 200 이미지를 생성하고 200 실제 이미지를 판별자 및 기타 표준으로 분류하여 구분하는 두 소스입니다. 하지만 이외에는—그리고 여기에 속 우리는 또한 backpropagate 모두를 통해 판별자와 발전기를 찾을 수 있는 방법을 변경해야 발전기의 매개 변수를 200 샘플을 약간 더 혼란을 위해 판별자. 이러한 두 개의 네트워크 따라서 전투에 잠겨있:판별자 노력하고 구별하는 진짜 이미지에서는 가짜 이미지와 발전기를 만들려고 이는 판별자들이 실시합니다. 결국,발전기 네트워크는 판별 자에 대한 실제 이미지와 구별 할 수없는 이미지를 출력하고 있습니다.
아래에서 간략하게 논의 할 이러한 분포와 일치하는 몇 가지 다른 접근법이 있습니다. 하지만 우리가 도착 하기 전에 거기에 아래 두 가지 애니메이션을 표시하는 샘플에서 생식 모델을 시각에 대한 교육 과정입니다.
두 경우 모두에서 샘플을 발전기에서 밖으로 시작 시끄럽고 혼란스러운,그리고 시간에 수렴 더 그럴듯한 이미지 통계:
이것은 흥미진진한 이러한 신경 네트워크가 무엇을 배우 이 시각 세계가 좋아. 이 모델들은 일반적으로 약 100 만명의 매개변수,그래서 네트워크에서 훈련을 말하(lossily)압축 200 픽셀 데이터로 100MB 의 무게. 이 incentivizes 그것을 발견한 가장 두드러진 특징 데이터의:예를 들어,그것을 가능성이 배우는 픽셀,근처에는 가능성이 동일한 색깔나는 세계의 수평 또는 수직 모서리 또는형의 다른 색깔이 있습니다. 결국,이 모델은 발견할 수 있습니다 많은 좀 더 복잡한 규칙성:가 있는 특정 유형의 배경,사물,질감,그들이 발생한 특정 가능성이여,또는 그들은 변형에서 특정 방법에서 시간이 지남에 따 동영상,etc.
더 일반적 제제
수학적으로,우리는 생각에 대한 데이터 집합의 예\(x_1,\ldots,x_n\)샘플로부터 진정한 데이터 유통\(p(x)\). 예제에서 아래 이미지는 파란색 영역을 보여줍의 일부 이미지는 공간으로는 확률이 높은(일부는 임계값)포함되어 실제 이미지,그리고 검은 점이 나타 데이터 포인트(각각 하나의 이미지 데이터 집합에서). 지금,우리의 모델에 대해서도 설명합 배포\(\hat{p}_{\타}(x)\)(녹색)에 정의된 암시적으로 취하여 점 단위에서 가우스포(레드)및 매핑을 통해(결정)신경망이 우리의 생식 모형(노란색). 우리의 네트워크는 기능 매개변수를\(\타\),그리고 이러한 매개 변수를 조정할 생성 배 이점 유의하여 주시기 바랍니다. 우리의 목표는 다음을 찾는 것이 매개변수를\(\타\)을 생산하는 배포하는 밀접하게 일치하는 진정한 분포 데이터(예를 들어함으로써,작은 KL 발산 손실). 따라서,당신이 상상할 수 있는 녹색 분포 밖으로 시작하는 임의의 다음의 훈련 과정을 반복적으로 매개 변수를 변경하\(\타\)스트레칭하고 그것을 짜내에 맞게 더 나은 파란색 배포합니다.
세 가지 방법을 생식 모델
대부분의 생식 모델을 이 기본 설정,하지만 다릅니다. 다음은 변형에 대한 감각을주기 위해 생성 적 모델 접근법의 세 가지 인기있는 예입니다:
- 발생하는 적대적인 네트워크(슈타),우리가 이미 논의 위생 교육 프로세스는 게임 사이의 두 개의 별도의 네트워크:네트워크 발전기(위에서 볼 수 있듯이)그리고 두 번째 차별적 취급,구속조건부 네트워크는 시도를 분류하는 샘플로부터 오는 진정한 분포\(p(x)\)또는 유통 모델\(\hat{p}(x)\). 때마다 판별 통지에 둘 사이의 차이를 분포 발전기 조정 매개변수를 약간 멀리 갈 수 있도록,전까지 끝에(이론)발전기 정확히 재현한 데이터 유통 및 판별자는 추측에서 임의의를 찾을 수 없습니다.
- Variational Autoencoders(낮보다는 밤을 압도)할 수 있을 공식화하는 이 문제의 틀에서 확률 그래프 모델은 우리가 어디를 극대화 하에서 로그인의 가능성이다.
- 자동 회귀 같은 모델 PixelRNN 대신 열차 네트워크 모델링하는 조건의 배포를 모든 개별 픽셀 주어진 이전 픽셀(왼쪽과 최고). 이것은 이미지의 픽셀을 char-rnn 에 연결하는 것과 비슷하지만 RNNs 는 단지 1d 문자 시퀀스 대신 이미지 위에 가로 및 세로로 실행됩니다.
이러한 모든 접근법에는 장단점이 있습니다. 예를 들어,Variational Autoencoders 용을 모두 수행을 학습하고 효율적인 베이지안 추론에 정교한 확률 그래프 모형과 잠재성 변수(예를 들어 볼을 그릴,또는 유추를 반복을 위한 힌트의 최근 상대적으로 복잡한 모델). 그러나 생성 된 샘플은 약간 흐릿한 경향이 있습니다. GANs 는 현재 가장 선명한 이미지를 생성하지만 불안정한 교육 역학으로 인해 최적화하기가 더 어렵습니다. PixelRNNs 아주 간단하고 안정적인 훈련 프로세스(softmax 손실로)그리고 현재에게 최고의 로그 우도(즉,타당성의 생성된 데이터). 그러나 이들은 샘플링 중에 상대적으로 비효율적이며 이미지에 간단한 저 차원 코드를 쉽게 제공하지 않습니다. 이 모델들은 모두 연구의 활발한 영역이며 우리는 그들이 미래에 어떻게 발전하는지보고 싶어합니다!
최근의 기부금
우리는 꽤 흥분에 대해 생식 모델에서 OpenAI,그리고 네 발하는 프로젝트 진행 상태의 예술이다. 이러한 기여 각각에 대해 우리는 또한 기술 보고서와 소스 코드를 발표하고 있습니다.
Gans(코드)개선. 첫째,위에서 언급한 바와 같이 간은 매우 유망한 가족의 생식 모델이기 때문에,달리는 다른 방법들을 생산하는 매우 청결하고 날카로운 이미지와 배우는 코드를 포함하는 가치에 대한 정보를 이러한 텍스처입니다. 그러나 GANs 는 두 네트워크 간의 게임으로 공식화되어 있으며 중요합니다(그리고 까다 롭습니다!)균형을 유지하기 위해:예를 들어 솔루션간에 진동 할 수 있거나 발전기가 붕괴되는 경향이 있습니다. 이 작업에서 Tim Salimans,Ian Goodfellow,Wojciech Zaremba 및 동료들은 GAN 교육을보다 안정적으로 만들기위한 몇 가지 새로운 기술을 도입했습니다. 이러한 기술을 통해 Gan 을 확장하여 nice128x128
ImageNet 샘플을 얻을 수 있습니다:
Our CIFAR-10 samples also look very sharp – Amazon Mechanical Turk workers can distinguish our samples from real data with an error rate of 21.3% (50% would be random guessing):
In addition to generating pretty pictures, we introduce an approach for semi-supervised learning with GANs that involves the discriminator producing an additional output indicating the label of the input. 이 접근법을 사용하면 레이블이 지정된 예제가 거의없는 설정에서 MNIST,SVHN 및 CIFAR-10 에 대한 최신 결과를 얻을 수 있습니다. 에 MNIST,예를 들어,우리가 달성하는 99.14%정확도와 만 10 표시 예당 클래스로 완전히 연결되어 있는 신경 네트워크 결과는 매우 가까이 가장 잘 알려진 결과와의 완벽하게 감독 방법을 사용하여 모든 60,000 표시 된 예입니다. 이것은 라벨이 붙은 예제가 실제로 얻기에 상당히 비쌀 수 있기 때문에 매우 유망합니다.
발생하는 적대적인 네트워크는 상대적으로 새로운 모델(만 소개 두 개의 년 전)우리는 더 볼 것으로 예상한 급속한 발전에 더욱의 안정성을 개선하는 이러한 모델동안 훈련입니다.
개선 VAEs(코드). 이 작품에서 Durk Kingma 와 Tim Salimans 는 변동 추론의 정확성을 향상시키기위한 유연하고 계산적으로 확장 가능한 방법을 소개합니다. 특히,대부분의 VAEs 는 지금까지 모든 잠재 변수가 독립적 인 조잡한 대략적인 posteriors 를 사용하여 훈련되었습니다. 최근의 확장자가 이러한 문제에 대응하여 에어컨 각각의 잠재변수에 다른 사람 앞에서 체인이지만,이는 계산 비효율로 인해 소개한 순차적인 종속성입니다. 핵심 기여 이 작품이라 불리는 자동 회귀 역류(IAF),는 새로운 접근 방식과는 달리,이전 작품,우리가 할 수 있습을 병렬화하는 계산의 풍부한 대략적인 posteriors,그리고 그들의 거의는 임의로 유연합니다.
우리는 아래 이미지에서 모델의 몇 가지 예제32x32
이미지 샘플을 오른쪽에 보여줍니다. 왼쪽에는 비교를 위해 DRAW 모델의 이전 샘플이 있습니다(바닐라 VAE 샘플은 더 나쁘고 더 흐릿하게 보일 것입니다). 무승부 모델은 1 년 전만해도 출판되었으며,생식 모델 교육에서 급속한 진전이 이루어지고 있음을 다시 한 번 강조합니다.
InfoGAN(코드). 피터 첸(Peter Chen)과 동료들은 이미지에 대한 언변적이고 해석 가능한 표현을 배우는 Gan 의 확장 인 InfoGAN 을 소개합니다. 정기 간의 목적을 달성한 재현 데이터 분산 모델에서 만,레이아웃과 조직의 코드를 공간 underspecified—많은 가능한 솔루션을 매핑 유닛 가우스는 이미지 그리고 하나는 우리가 끝날 수도 복잡하고 높게 얽혀. 이 InfoGAN 부과한 추가적인 구조에 이 공간을 추가하여 새로운 목표를 포함하는 극대화 상호 간에 정보를 소위 집합의 표현을 변수와 관측합니다. 이 접근법은 매우 놀라운 결과를 제공합니다. 예를 들어,이미지의 3D 얼굴 아래에는 우리가 다 하나의 연속적인 차원의 코드,모든 다른 사람이 수정했습니다. 그것은 분명서 제공하는 예로(따라 각각의 행)결과 치수에서 코드 캡처를 해석할 수 있는 차원 모델은 아마도 있다는 점을 이해하도록 얼굴 변형,등등. 이러한 기능이 존재하고 중요하다는 말을 듣지 않고:
We also note that nice, disentangled representations have been 전에 달성(예:Dc-Ign 에 의해 Kulkarni 등.),그러나 이러한 접근법은 추가 감독에 의존하는 반면,우리의 접근법은 전적으로 감독되지 않습니다.
다음에 두 개의 프로젝트는 최근에 강화 학습(RL)설정(의 다른 지역에서 초점 OpenAI),하지만 그들은 모두 포함 생식 모델을 구성 요소입니다.
베이지안 신경망(코드)을 통한 심층 강화 학습에서의 호기심 중심의 탐색. 고차원적이고 연속적인 공간에서의 효율적인 탐사는 현재 보강 학습에서 미해결 과제입니다. 효과적인 탐사 방법이 없다면 우리 요원들은 보람있는 상황에 무작위로 비틀 거릴 때까지 주위를 때린다. 이것은 충분에 많은 단순한 장난감 작업이나 부적절한 경우 우리는 이러한 적용하는 알고리즘의 복잡한 설정으로 높은 입체 작업 공간에서의 일반적인 경우와 마찬가지로 robotics. 이 논문에서 Rein Houthooft 와 동료들은 생식 모델에 대한 불확실성을 사용하여 탐사에 대한 실용적인 접근법 인 VIME 을 제안합니다. VIME 는 대리인을 자기 동기 부여하게한다;그것은 적극적으로 놀라운 상태 행동을 추구합니다. 우리는 비메 향상시킬 수 있습 범위의 정책을 검색 방법과에 상당한 진전이 더 현실적인 작업과 함께 희소 보상(예를 들어오는 에이전트를 배우고 운동 기본지 않고 어떤 지침도).
마지막으로,우리는 우리 것을 포함하는 다섯 번째 보너스 프로젝트 생성하는 적대적인 모조 학습(코드)에서는 나단 호고 동료 존재하는 새로운 접근 방식에 대한 모방습니다. 조나단 호는 여름 인턴으로 OpenAI 에서 우리와 함께하고 있습니다. 그는 스탠포드에서이 작업의 대부분을했지만 우리는 rl 에 gans 의 관련 매우 창조적 인 응용 프로그램으로 여기에 포함. 표준 강화 학습 설정은 일반적으로 하나가 필요 합하는 디자인 보상을 설명하는 기능이 원하는 동작이다. 그러나 실제로 이것은 때로는 세부 사항을 올바르게 얻기 위해 값 비싼 시행 착오 과정을 포함 할 수 있습니다. 반면에,모방에서 에이전트 학습에게서 배우는 예위(예를 들어에 의해 제공됩 teleoperation 에서 로봇공학),할 필요가 없는 디자인 보상 기능이다.
인기있는 인조 방법을 포함 두-단계 파이프라인 첫 번째 학습 보상 기능,다음을 실행하 RL 에는 보상입니다. 이러한 파이프 라인은 느릴 수 있으며 간접적이기 때문에 결과 정책이 잘 작동하는지 보장하기가 어렵습니다. 이 작업은 gans 에 대한 연결을 통해 데이터에서 정책을 직접 추출 할 수있는 방법을 보여줍니다. 결과적으로 이 방법을 배울 수 있는 정책 전문위(보상없이)하드 OpenAI 체육 환경과 같은 개미와 인간.
앞으로
생성 모델은 빠르게 발전하는 연구 영역입니다. 으로 우리는 사전에 계속 이러한 모델들과 확장의 교육 및 데이터 집합,기대할 수 있습니다 결국 생성하는 샘플을 묘사하는 완전히 그럴듯한 이미지나 동영상을 감상 할 수 있습니다. 이 수 있습니다 자체에 의해 찾을 사용하여 여러 응용 프로그램에서와 같은 수요를 생성,예술이나 포토샵++같은 명령으로”내 심장은 넓은”. 추가 현재 알려진 응용 프로그램을 포함 이미지 노이즈 제거,이상의 버전이 필요,최고해상도,구조 예측,탐험에서 강화 학습,신경 네트워크 pretraining 경우에 표시된 데이터 비용입니다.
그러나,더 깊게 약속의 이 작품은,프로세스에서의 생식 교육 모델을,우리를 부여 컴퓨터의 이해와 함께 세계와 그것이 무엇인지의 구성.
Leave a Reply