Legal na Araw ng Paghuhukom Para sa Generative AI ChatGPT Kung Nahuli na Nangongopya O Lumalabag, Nagbabala sa AI Ethics At AI Law

Ang generative AI ba gaya ng ChatGPT ay nag-ripping off sa aming mga website at content na ginawa ng tao? Magkaroon ng kamalayan, maging ... [+] galit ka, humanda ka.

makulit

Magbigay ng kredito kung saan dapat bayaran ang kredito.

Iyan ay isang kaunting matalinong karunungan na marahil ay pinalaki ka upang matibay na paniwalaan. Sa katunayan, ang isang tao ay nag-aakala o nag-iisip na lahat tayo ay maaaring medyo makatwirang sumang-ayon na ito ay isang patas at makatwirang tuntunin sa buhay. Kapag ang isang tao ay gumawa ng isang bagay na karapat-dapat sa pagkilala, siguraduhing makuha nila ang kanilang nararapat na pagkilala.

Ang kontrarian na pananaw ay mukhang hindi gaanong nakakahimok.

Kung ang isang tao ay lumakad sa paligid igiit na credit ay dapat hindi kilalanin kapag ang utang ay dapat bayaran, mabuti, maaari mong igiit na ang gayong paniniwala ay hindi magalang at posibleng mapanloko. Madalas nating nahahanap ang ating sarili na labis na nabalisa kapag ang kredito ay dinaya ng isang tao na nakamit ang isang bagay na kapansin-pansin. Naglakas-loob akong sabihin na tayo ay lalong hindi sumasang-ayon kapag ang iba ay maling umaako sa gawa ng iba. Iyan ay isang nakakaligalig na double-whammy. Ang taong dapat sana ay nakakuha ng kredito ay tinanggihan ang kanilang sandali sa araw. Bilang karagdagan, ang manloloko ay nalulugod sa spotlight kahit na mali nila tayong niloloko sa paggamit ng ating mga kanais-nais na pagmamahal.

Bakit lahat ng diskursong ito tungkol sa pagkuha ng kredito sa pinaka tamang paraan at pag-iwas sa mali at kasuklam-suklam na paraan?

Dahil mukhang nahaharap tayo sa isang katulad na suliranin pagdating sa pinakabagong sa Artificial Intelligence (AI).

Oo, sinasabi na ito ay nangyayari sa pamamagitan ng isang uri ng AI na kilala bilang Generative AI. Napakaraming handwringing na ang Generative AI, ang pinakamainit na AI sa balita sa mga araw na ito, ay nakakuha na ng kredito para sa kung ano ang hindi karapat-dapat na kunin ang kredito. At ito ay malamang na lumala habang ang generative AI ay lalong lumalawak at ginagamit. Parami nang parami ang kredito na nagdudulot ng pagbuo ng AI, habang nakalulungkot na ang mga lubos na karapat-dapat sa tunay na kredito ay naiwan sa alikabok.

Ang aking iniaalok na paraan upang malinaw na tukuyin ang sinasabing phenomenon na ito ay sa pamamagitan ng dalawang snazzy catchphrases:

1) Plagiarism sa sukat
2) Paglabag sa Copyright sa laki

Ipinapalagay ko na maaaring alam mo ang generative AI dahil sa isang malawak na sikat na AI app na kilala bilang ChatGPT na inilabas noong Nobyembre ng OpenAI. Magsasabi ako ng higit pa tungkol sa generative AI at ChatGPT sandali. Mag anatay ka lang dyan.

Pumunta tayo kaagad sa pinakabuod ng kung ano ang nakakakuha ng mga kambing ng mga tao, kumbaga.

Ang ilan ay masigasig na nagrereklamo na ang generative AI ay potensyal na pumutol sa mga tao na lumikha ng nilalaman. Kita mo, karamihan sa mga generative AI app ay data na sinanay sa pamamagitan ng pagsusuri sa data na matatagpuan sa Internet. Batay sa data na iyon, maaaring mahasa ng mga algorithm ang isang malawak na panloob na network na tumutugma sa pattern sa loob ng AI app na maaaring makabuo ng tila bagong nilalaman na kahanga-hangang mukhang ito ay ginawa ng kamay ng tao sa halip na isang piraso ng automation

Ang kahanga-hangang gawa na ito ay sa isang malaking lawak dahil sa paggamit ng nilalamang na-scan sa Internet. Kung wala ang dami at yaman ng nilalaman ng Internet bilang isang mapagkukunan para sa pagsasanay ng data, ang generative AI ay halos walang laman at magiging kaunti o walang interes para sa paggamit. Sa pamamagitan ng pagkakaroon ng AI na suriin ang milyun-milyong online na dokumento at teksto, kasama ang lahat ng uri ng nauugnay na nilalaman, ang pattern-matching ay unti-unting nakuha upang subukan at gayahin ang nilalamang gawa ng tao.

Ang mas maraming nilalaman na napagmasdan, ang posibilidad ay ang pagtutugma ng pattern ay higit na mahahasa at magiging mas mahusay sa paggaya, lahat ng iba ay pantay.

Narito kung gayon ang tanong na zillion-dollar:

Malaking Tanong: Kung ikaw o ang iba ay may content sa Internet kung saan sinanay ang ilang generative AI app, na ginagawa ito nang wala ang iyong direktang pahintulot at marahil ay ganap na wala ang iyong kamalayan, kung ikaw ay may karapatan sa isang piraso ng pie tungkol sa anumang halaga na magmumula sa na generative AI data training?

Ang ilan ay mariin na nangangatuwiran na ang tanging tamang sagot ay Oo, kapansin-pansin na ang mga taong gumagawa ng nilalaman ay talagang karapat-dapat sa kanilang pagbawas sa pagkilos. Ang bagay ay, mahihirapan kang makahanap ng sinuman na nakakuha ng kanilang patas na bahagi, at ang mas masahol pa, halos walang nakakuha ng anumang bahagi. Ang mga tagalikha ng nilalaman sa Internet na hindi sinasadya at hindi sinasadyang nag-ambag ay talagang tinatanggihan ng kanilang nararapat na kredito.

Ito ay maaaring mailalarawan bilang mabangis at mapangahas. Dumaan lang kami sa pag-unpack ng sage wisdom na dapat bigyan ng credit kung saan dapat ang credit. Sa kaso ng generative AI, tila hindi ganoon. Ang matagal na at banal na tuntunin ng hinlalaki tungkol sa kredito ay tila walang katotohanang nilalabag.

Whoa, the retort goes, masyado kang sumobra at mali ang pagsasabi ng sitwasyon. Oo naman, sinuri ng generative AI ang content sa Internet. Oo naman, ito ay lubos na nakatulong bilang bahagi ng data training ng generative AI. Totoo, ang kahanga-hangang generative AI apps ngayon ay hindi magiging kasing-kahanga-hanga kung wala itong isinasaalang-alang na diskarte. Ngunit napakalayo na ng iyong napuntahan nang sabihin na ang mga tagalikha ng nilalaman ay dapat maglaan ng anumang partikular na pagkakahawig ng kredito.

Ang lohika ay ang mga sumusunod. Ang mga tao ay lumalabas sa Internet at natututo ng mga bagay-bagay mula sa Internet, ginagawa ito nang regular at walang anumang kaguluhan. Ang isang taong nagbabasa ng mga blog tungkol sa pagtutubero at pagkatapos ay nanonood ng malayang magagamit na mga video sa pag-aayos ng pagtutubero ay maaaring lumabas sa susunod na araw at magtrabaho bilang tubero. Kailangan ba nilang ibigay ang isang bahagi ng kanilang remittance na may kinalaman sa pagtutubero sa blogger na sumulat tungkol sa kung paano magtutubero ng lababo? Kailangan ba nilang magbayad ng bayad sa vlogger na gumawa ng video na nagpapakita ng mga hakbang para ayusin ang isang tumutulo na bathtub?

Halos tiyak na hindi.

Ang pagsasanay sa data ng generative AI ay isang paraan lamang ng pagbuo ng mga pattern. Hangga't ang mga output mula sa generative AI ay hindi lamang regurgitation ng eksakto kung ano ang napagmasdan, maaari mong mapanghikayat na magtaltalan na sila ay "natuto" at samakatuwid ay hindi napapailalim sa pagbibigay ng anumang partikular na kredito sa anumang partikular na pinagmulan. Maliban na lang kung mahuli mo ang generative AI sa pagsasagawa ng eksaktong regurgitation, ang mga indikasyon ay ang AI ay nag-generalize nang higit sa anumang partikular na pinagmulan.

Walang utang na dapat bayaran kahit kanino. O, ipagpalagay ng isa, maaari mong sabihin na ang kredito ay napupunta sa lahat. Ang kolektibong teksto at iba pang nilalaman ng sangkatauhan na matatagpuan sa Internet ay nakakakuha ng kredito. Lahat tayo ay nakakakuha ng kredito. Ang pagsisikap na matukoy ang kredito sa isang partikular na pinagmulan ay walang katuturan. Maging masaya na ang AI ay sumusulong at ang lahat ng sinabi ng sangkatauhan ay makikinabang. Ang mga pag-post sa Internet ay dapat makaramdam ng karangalan na nag-ambag sila sa hinaharap ng mga pag-unlad sa AI at kung paano ito makatutulong sa sangkatauhan para sa kawalang-hanggan.

Marami pa akong masasabi tungkol sa dalawang magkasalungat na pananaw na iyon.

Samantala, nakasandal ka ba sa kampo na nagsasabing ang kredito ay dapat bayaran at nahuhuli na para sa mga may website sa Internet, o nalaman mo ba na ang magkasalungat na panig na nagsasabing ang mga tagalikha ng nilalaman ng Internet ay tiyak na hindi ang pagkuha ay isang mas matibay na pustura?

Ang isang palaisipan at isang palaisipan ay nagsama-sama.

I-unpack natin ito.

Sa column ngayon, tutugunan ko ang mga ipinahayag na alalahanin na ang generative AI ay mahalagang pangongopya o posibleng lumalabag sa mga copyright ng content na nai-post sa Internet (tinuturing na karapatan sa Intellectual Property o IP na isyu). Titingnan natin ang batayan para sa mga pagkabalisa na ito. Paminsan-minsan ay tinutukoy ko ang ChatGPT sa panahon ng talakayang ito dahil ito ang 600-pound gorilla ng generative AI, ngunit tandaan na maraming iba pang mga generative AI app at sa pangkalahatan ay nakabatay ang mga ito sa parehong pangkalahatang mga prinsipyo.

Samantala, maaaring nagtataka ka kung ano talaga ang generative AI.

Sakupin muna natin ang mga batayan ng generative AI at pagkatapos ay maaari nating tingnang mabuti ang mahahalagang bagay.

Sa lahat ng ito ay may kasamang mga pagsasaalang-alang sa AI Ethics at AI Law.

Mangyaring magkaroon ng kamalayan na may mga patuloy na pagsusumikap na mainam ang mga prinsipyo ng Etikal na AI sa pagbuo at paglalagay ng mga AI app. Ang isang lumalagong contingent ng nag-aalala at dating mga etika ng AI ay nagsisikap na matiyak na ang mga pagsisikap na mag-isip at magpatibay ng AI ay isinasaalang-alang ang isang pananaw sa paggawa AI For Good at pag-iwas AI Para sa Masama. Gayundin, may mga iminungkahing bagong batas ng AI na inilalagay sa paligid bilang mga potensyal na solusyon upang pigilan ang mga pagsusumikap ng AI na maging amok sa mga karapatang pantao at iba pa. Para sa aking patuloy at malawak na saklaw ng AI Ethics at AI Law, tingnan ang link dito at ang link dito, Lamang upang pangalanan ang ilang.

Ang pagbuo at pagpapalaganap ng Ethical AI precepts ay hinahabol upang sana ay maiwasan ang lipunan na mahulog sa napakaraming bitag na nakaka-induce ng AI. Para sa aking saklaw sa mga prinsipyo ng UN AI Ethics na ginawa at sinusuportahan ng halos 200 bansa sa pamamagitan ng pagsisikap ng UNESCO, tingnan ang link dito. Sa katulad na paraan, ang mga bagong batas ng AI ay ginagalugad upang subukan at panatilihing pantay ang AI. Ang isa sa mga pinakabagong pagkuha ay binubuo ng isang hanay ng mga iminungkahing AI Bill of Rights na inilabas kamakailan ng US White House upang tukuyin ang mga karapatang pantao sa isang edad ng AI, tingnan mo ang link dito. Kailangan ng isang nayon upang panatilihing nasa tamang landas ang mga developer ng AI at AI at hadlangan ang may layunin o di-sinasadyang mga pagsisikap na maaaring makabawas sa lipunan.

Ipagsasama-sama ko ang AI Ethics at AI Law na nauugnay na mga pagsasaalang-alang sa talakayang ito.

Mga Batayan Ng Generative AI

Ang pinakakilalang instance ng generative AI ay kinakatawan ng AI app na pinangalanang ChatGPT. Ang ChatGPT ay umusbong sa kamalayan ng publiko noong Nobyembre nang ilabas ito ng AI research firm na OpenAI. Mula nang ang ChatGPT ay nakakuha ng napakalaking mga headline at nakakagulat na lumampas sa inilaan nitong labinlimang minuto ng katanyagan.

Sa palagay ko marahil ay narinig mo na ang ChatGPT o marahil ay may kakilala ka na gumamit nito.

Ang ChatGPT ay itinuturing na isang generative AI application dahil ito ay tumatagal bilang input ng ilang text mula sa isang user at pagkatapos bumubuo o gumagawa ng output na binubuo ng isang sanaysay. Ang AI ay isang text-to-text generator, bagama't inilalarawan ko ang AI bilang isang text-to-essay generator dahil mas madaling nililinaw nito kung para saan ito karaniwang ginagamit. Maaari mong gamitin ang generative AI upang bumuo ng mahahabang komposisyon o maaari mo itong ibigay upang magbigay ng mga maiikling komento. Ang lahat ay nasa iyong pag-bid.

Ang kailangan mo lang gawin ay maglagay ng prompt at bubuo ang AI app para sa iyo ng isang sanaysay na sumusubok na tumugon sa iyong prompt. Ang nabuong teksto ay tila ang sanaysay ay isinulat ng kamay at isip ng tao. Kung maglalagay ka ng prompt na nagsasabing "Sabihin mo sa akin ang tungkol kay Abraham Lincoln" ang generative AI ay magbibigay sa iyo ng isang sanaysay tungkol kay Lincoln. Mayroong iba pang mga mode ng generative AI, tulad ng text-to-art at text-to-video. Dito ako magtutuon ng pansin sa pagkakaiba-iba ng text-to-text.

Ang iyong unang naisip ay maaaring ang kakayahang makabuo ng kakayahang ito ay hindi mukhang napakalaking bagay sa mga tuntunin ng paggawa ng mga sanaysay. Madali kang makakagawa ng online na paghahanap sa Internet at madaling makahanap ng tonelada at toneladang sanaysay tungkol kay Pangulong Lincoln. Ang kicker sa kaso ng generative AI ay ang nabuong sanaysay ay medyo kakaiba at nagbibigay ng orihinal na komposisyon sa halip na isang copycat. Kung susubukan mong hanapin ang sanaysay na ginawa ng AI online sa isang lugar, malamang na hindi mo ito matuklasan.

Ang Generative AI ay pre-trained at gumagamit ng isang kumplikadong mathematical at computational formulation na na-set up sa pamamagitan ng pagsusuri ng mga pattern sa mga nakasulat na salita at kwento sa buong web. Bilang resulta ng pagsusuri sa libu-libo at milyon-milyong nakasulat na mga sipi, ang AI ay maaaring maglabas ng mga bagong sanaysay at kuwento na isang mishmash ng kung ano ang natagpuan. Sa pamamagitan ng pagdaragdag sa iba't ibang probabilistic functionality, ang resultang text ay medyo kakaiba kumpara sa kung ano ang ginamit sa training set.

Maraming alalahanin tungkol sa generative AI.

Ang isang mahalagang downside ay ang mga sanaysay na ginawa ng isang generative-based na AI app ay maaaring magkaroon ng iba't ibang mga kasinungalingan na naka-embed, kabilang ang mga halatang hindi totoong katotohanan, mga katotohanan na mapanlinlang na inilalarawan, at maliwanag na mga katotohanan na ganap na gawa-gawa. Ang mga gawa-gawang aspeto ay madalas na tinutukoy bilang isang anyo ng Mga guni-guni ng AI, isang catchphrase na hindi ko pinapaboran ngunit nalulungkot na tila nakakakuha pa rin ng sikat na traksyon (para sa aking detalyadong paliwanag kung bakit ito ay pangit at hindi angkop na terminolohiya, tingnan ang aking saklaw sa ang link dito).

Ang isa pang alalahanin ay ang mga tao ay madaling kumuha ng kredito para sa isang generative na sanaysay na ginawa ng AI, sa kabila ng hindi sila mismo ang gumawa ng sanaysay. Maaaring narinig mo na ang mga guro at paaralan ay lubos na nag-aalala tungkol sa paglitaw ng mga generative AI app. Maaaring gumamit ang mga mag-aaral ng generative AI upang isulat ang kanilang mga nakatalagang sanaysay. Kung ang isang mag-aaral ay nag-aangkin na ang isang sanaysay ay isinulat sa pamamagitan ng kanilang sariling mga kamay, may maliit na pagkakataon ng guro na matukoy kung ito ay sa halip ay peke ng generative AI. Para sa aking pagsusuri sa bahaging ito ng estudyante at guro na nakakalito, tingnan ang aking saklaw sa ang link dito at ang link dito.

Nagkaroon ng ilang mga kalokohan outsized claim sa social media tungkol sa Generative AI iginiit na ang pinakabagong bersyon ng AI ay sa katunayan nararamdaman AI (hindi, mali sila!). Ang mga nasa AI Ethics at AI Law ay kapansin-pansing nag-aalala tungkol sa umuusbong na trend na ito ng mga nakalahad na claim. Maaari mong magalang na sabihin na ang ilang mga tao ay labis na nagsasaad kung ano ang aktwal na magagawa ng AI ngayon. Ipinapalagay nila na ang AI ay may mga kakayahan na hindi pa natin nakakamit. Nakakalungkot naman. Ang mas masahol pa, maaari nilang payagan ang kanilang sarili at ang iba na mapunta sa mga mahihirap na sitwasyon dahil sa isang pagpapalagay na ang AI ay magiging sensitibo o tulad ng tao sa kakayahang kumilos.

Huwag i-anthropomorphize ang AI.

Ang paggawa nito ay madadala sa iyo sa isang malagkit at nakakapagod na reliance trap ng pag-asa na gagawin ng AI ang mga bagay na hindi nito kayang gawin. Dahil dito, ang pinakabago sa generative AI ay medyo kahanga-hanga para sa kung ano ang magagawa nito. Magkaroon ng kamalayan kahit na may mga makabuluhang limitasyon na dapat mong patuloy na tandaan kapag gumagamit ng anumang generative AI app.

Isang huling paunang babala sa ngayon.

Anuman ang nakikita o nabasa mo sa isang generative na tugon ng AI tila upang maiparating bilang pulos makatotohanan (mga petsa, lugar, tao, atbp.), siguraduhing manatiling may pag-aalinlangan at handang suriing muli ang iyong nakikita.

Oo, ang mga petsa ay maaaring ihanda, ang mga lugar ay maaaring gawin, at ang mga elemento na karaniwan nating inaasahan na walang kapintasan ay lahat napapailalim sa mga hinala. Huwag paniwalaan ang iyong binabasa at panatilihin ang isang may pag-aalinlangan kapag sinusuri ang anumang generative na sanaysay o output ng AI. Kung sasabihin sa iyo ng isang generative AI app na si Abraham Lincoln ay lumipad sa buong bansa gamit ang kanyang pribadong jet, walang alinlangang malalaman mo na ito ay malarky. Sa kasamaang-palad, maaaring hindi napagtanto ng ilang tao na ang mga jet ay wala sa kanyang panahon, o maaaring alam nila ngunit hindi nila napapansin na ang sanaysay ay gumagawa ng bastos at labis na maling pahayag.

Ang isang malakas na dosis ng malusog na pag-aalinlangan at isang paulit-ulit na pag-iisip ng kawalang-paniwala ang iyong magiging pinakamahusay na asset kapag gumagamit ng generative AI.

Handa na kaming lumipat sa susunod na yugto ng pagpapaliwanag na ito.

Ang Internet At Generative AI ay Kasama Dito

Ngayong mayroon ka nang pagkakahawig kung ano ang generative AI, maaari nating tuklasin ang nakakainis na tanong kung patas o hindi patas ang generative AI, o sasabihin ng ilan. lantaran pagsasamantala nilalaman sa internet.

Narito ang aking apat na mahahalagang paksa na may kinalaman sa bagay na ito:

1) Dobleng Problema: Plagiarism At Paglabag sa Copyright
2) Susubukang Patunayan ang Plagiarism O Paglabag sa Copyright
3) Paggawa ng Kaso Para sa Plagiarism O Paglabag sa Copyright
4) Naghihintay ang mga Legal na Landmine

Sasaklawin ko ang bawat isa sa mahahalagang paksang ito at mag-aalok ng mga makabuluhang pagsasaalang-alang na dapat nating pag-isipang mabuti. Ang bawat isa sa mga paksang ito ay isang mahalagang bahagi ng isang mas malaking palaisipan. Hindi ka maaaring tumingin sa isang piraso lamang. Hindi ka rin maaaring tumingin sa anumang piraso sa paghihiwalay mula sa iba pang mga piraso.

Ito ay isang masalimuot na mosaic at ang buong palaisipan ay kailangang bigyan ng tamang maayos na pagsasaalang-alang.

Dobleng Problema: Plagiarism At Paglabag sa Copyright

Ang dobleng problemang kinakaharap ng mga gumagawa at nag-field generative AI ay ang kanilang mga paninda ay maaaring gumagawa ng dalawang masamang bagay:

1) Plagiarism. Ang generative AI ay maaaring ipakahulugan bilang nagpapahamak nilalaman na umiiral sa Internet ayon sa pag-scan sa Internet na naganap sa panahon ng pagsasanay sa data ng AI.
2) Paglabag sa Copyright. Ang generative AI ay maaaring i-claim bilang pagsasagawa paglabag sa copyright nauugnay sa nilalaman ng Internet na na-scan sa panahon ng pagsasanay sa data.

Upang linawin, mayroong mas maraming nilalaman sa Internet kaysa sa aktwal na na-scan para sa pagsasanay ng data ng generative AI. Maliit na bahagi lamang ng Internet ang karaniwang ginagamit. Kaya, maaari nating ipalagay na ang anumang nilalaman na hindi na-scan sa panahon ng pagsasanay sa data ay walang partikular na karne ng baka na may generative AI.

Ito ay medyo mapagtatalunan kahit na dahil maaari kang gumuhit ng isang linya na nag-uugnay sa iba pang nilalaman na na-scan sa nilalaman na hindi na-scan. Gayundin, ang isa pang mahalagang proviso ay na kahit na may content na hindi na-scan, maaari pa rin itong pagtalunan bilang plagiarized at/o copyright infringed kung ang mga output ng generative AI ay makikita sa parehong verbiage. Ang punto ko ay mayroong maraming squishiness sa lahat ng ito.

Bottom line: Ang Generative AI ay puno ng potensyal na AI Ethical at AI Law legal conundrums pagdating sa plagiarism at paglabag sa copyright pinagbabatayan ang umiiral na mga kasanayan sa pagsasanay ng data.

Sa ngayon, ang mga gumagawa ng AI at mga mananaliksik ng AI ay nag-skate sa medyo scot-free na ito, sa kabila ng nagbabadyang at tiyak na nakabitin na espada na nakasabit sa itaas nila. Iilan lamang sa mga demanda ang inilunsad sa kasalukuyan laban sa mga kasanayang ito. Maaaring nakarinig o nakakita ka ng mga artikulo ng balita tungkol sa mga naturang legal na aksyon. Ang isa, halimbawa, ay nagsasangkot ng text-to-image na mga kumpanya ng Midjourney at Stability AI para sa paglabag sa artistikong nilalaman na nai-post sa Internet. Ang isa pa ay nangangailangan ng text-to-code na paglabag laban sa GitHub, Microsoft, at OpenAI dahil sa Copilot software na gumagawa ng AI apps. Nilalayon din ng Getty Images na sundan ang Stability AI para sa text-to-image na paglabag.

Maaari mong asahan na mas maraming mga naturang kaso ang isasampa.

Sa ngayon, ito ay medyo pagkakataon upang ilunsad ang mga demanda dahil ang kinalabasan ay medyo hindi alam. Ang hukuman ba ay papanig sa mga gumagawa ng AI o ang mga naniniwala na ang kanilang nilalaman ay hindi patas na pinagsamantalahan ang mga mananalo? Ang isang mamahaling legal na labanan ay palaging isang seryosong bagay. Ang paggasta sa malakihang mga legal na gastos ay kailangang timbangin laban sa mga pagkakataong manalo o matalo.

Ang mga gumagawa ng AI ay tila halos walang pagpipilian kundi ang makipaglaban. Kung susuko sila, kahit na kaunti, malamang na ang isang torrent ng karagdagang mga demanda ay magreresulta (sa totoo lang, pagbubukas ng pinto sa mas mataas na pagkakataon na ang iba ay mananaig din). Kapag may legal na dugo sa tubig, ang mga natitirang legal na pating ay dadaloy sa itinuturing na "madaling puntos" at tiyak na magaganap ang isang pambubugbog at pambubugbog sa pera.

Naniniwala ang ilan na dapat tayong magpasa ng mga bagong batas ng AI na magpoprotekta sa mga gumagawa ng AI. Maaaring maging retroactive ang proteksyon. Ang batayan para dito ay kung gusto nating makakita ng mga generative na pagsulong ng AI, kailangan nating bigyan ang mga gumagawa ng AI ng ilang ligtas na landas na landas. Sa sandaling magsimulang makakuha ng mga panalo ang mga demanda laban sa mga gumagawa ng AI, kung mangyari iyon (hindi pa namin alam), ang pag-aalala ay ang generative AI ay mawawala dahil walang sinuman ang handang magbigay ng anumang suporta sa mga kumpanya ng AI.

Tulad ng mahusay na itinuro sa isang kamakailang piraso ng Bloomberg Law na pinamagatang "ChatGPT: IP, Cybersecurity & Other Legal Risks of Generative AI" ni Dr. Ilia Kolochenko at Gordon Platt, Bloomberg Law, Pebrero 2023, narito ang dalawang mahahalagang sipi na sumasalamin sa mga pananaw na ito:

“Isang mainit na debate ang nangyayari ngayon sa mga legal na iskolar ng US at mga propesor sa batas ng IP tungkol sa kung ang hindi awtorisadong pag-scrape at kasunod na paggamit ng naka-copyright na data ay katumbas ng isang paglabag sa copyright. Kung mananaig ang pananaw ng mga legal practitioner na nakakakita ng mga paglabag sa copyright sa naturang kasanayan, ang mga user ng naturang AI system ay maaari ding managot para sa pangalawang paglabag at posibleng humarap sa mga legal na epekto."
"Upang komprehensibong matugunan ang hamon, dapat isaalang-alang ng mga mambabatas hindi lamang ang paggawa ng makabago sa umiiral na batas sa copyright, kundi pati na rin ang pagpapatupad ng isang hanay ng mga batas at regulasyong partikular sa AI."

Alalahanin na bilang isang lipunan ay naglagay tayo ng mga legal na proteksyon para sa paglawak ng Internet, na nasaksihan ngayon ng Korte Suprema na nagsusuri sa sikat o kasumpa-sumpa na Seksyon 230. Kaya, tila nasa loob ng katwiran at pamarisan na maaaring handa tayong gumawa ng ilang katulad na proteksyon para sa pagsulong ng generative AI. Marahil ay maaaring pansamantalang i-set up ang mga proteksyon, mag-expire pagkatapos maabot ng generative AI ang ilang paunang natukoy na antas ng kasanayan. Maaaring gumawa ng iba pang mga probisyon sa pag-iingat.

Malapit na akong mag-post ng aking pagsusuri kung paano maaaring makaapekto ang pagtatasa ng Korte Suprema at ang pinakahuling desisyon sa Seksyon 230 sa pagdating ng generative AI. Abangan ang paparating na pag-post na iyon!

Bumalik sa mahigpit na binibigkas na opinyon na dapat nating bigyan ng pagkakataon para sa societal na kahanga-hangang teknolohikal na pagbabago na kilala bilang generative AI. Ang ilan ay magsasabi na kahit na ang inaangkin na paglabag sa copyright ay mayroon o nangyayari, ang lipunan sa kabuuan ay dapat maging handa na payagan ito para sa mga partikular na layunin ng pagsulong ng generative AI.

Ang pag-asa ay ang mga bagong batas ng AI ay maingat na gagawin at iayon sa mga detalyeng nauugnay sa pagsasanay ng data para sa generative AI.

Maraming kontraargumento sa ideyang ito ng pagbuo ng mga bagong batas ng AI para sa layuning ito. Ang isang alalahanin ay ang anumang naturang bagong batas ng AI ay magbubukas ng mga pintuan para sa lahat ng paraan ng paglabag sa copyright. Masisisi namin ang araw na pinahintulutan namin ang mga bagong batas ng AI na mapunta sa mga aklat. Gaano mo man subukang i-confine ito sa AI data training lang, ang iba ay palihim o matalinong makakahanap ng mga butas na aabot sa walang pigil at talamak na paglabag sa copyright.

Paikot-ikot ang mga argumento.

Ang isang argumento na hindi partikular na nagtataglay ng tubig ay may kinalaman sa pagsisikap na idemanda ang AI mismo. Pansinin na tinutukoy ko ang gumagawa ng AI o ang mga mananaliksik ng AI bilang mga may kasalanang stakeholder. Ito ay mga tao at kumpanya. Iminumungkahi ng ilan na dapat nating i-target ang AI bilang partidong ihahabol. Tinalakay ko nang mahaba sa aking kolum na hindi pa natin naa-attribute ang legal na katauhan sa AI, kita n'yo ang link dito halimbawa, at sa gayon ay maituturing na walang kabuluhan ang mga naturang demanda na naglalayon sa AI sa ngayon.

Bilang karagdagan sa tanong kung sino o ano ang dapat idemanda, ito ay nagdadala ng isa pang makatas na paksa.

Ipagpalagay na ang isang partikular na generative AI app ay ginawa ng ilang AI maker na tatawagin namin na Widget Company. Ang Kumpanya ng Widget ay medyo maliit sa laki at walang gaanong kita, o hindi gaanong sa paraan ng mga asset. Ang pagdemanda sa kanila ay malamang na hindi makakakuha ng malaking kayamanan na maaaring hinahanap ng isa. Sa karamihan, magkakaroon ka lamang ng kasiyahan sa pagwawasto sa kung ano ang nakikita mong mali.

Gusto mong sundan ang malalaking isda.

Narito kung paano iyon lalabas. Pinipili ng isang gumagawa ng AI na gawing available ang kanilang generative AI sa Big Time Company, isang malaking conglomerate na may toneladang kuwarta at toneladang asset. Ang isang demanda na pinangalanan ang Kumpanya ng Widget ay magkakaroon na ngayon ng isang mas mahusay na target na nakikita, katulad din sa pamamagitan ng pagbibigay ng pangalan sa Big Time Company. Isa itong laban nina David at Goliath na ikatutuwa ng mga abogado. Siyempre, ang Big Time Company ay walang alinlangan na susubukan na kumawala sa kawit ng pangingisda. Kung magagawa ba nila ito ay isang ligal na tanong na hindi sigurado, at maaari silang walang pag-asa na malubog sa putik.

Bago tayo makakuha ng higit pa tungkol dito, gusto kong makakuha ng isang bagay na mahalaga sa talahanayan tungkol sa mga pinagtatalunang pagsalakay ng generative AI dahil sa pagsasanay sa data. Sigurado ako na intuitive mong napagtanto na ang plagiarism at paglabag sa copyright ay dalawang medyo magkaibang hayop. Marami silang pagkakatulad, kahit na malaki rin ang pagkakaiba nila.

Narito ang isang madaling maiksing paglalarawan mula sa Duke University na nagpapaliwanag sa dalawa:

“Plagiarism ay pinakamahusay na tinukoy bilang ang hindi kinikilalang paggamit ng gawa ng ibang tao. Isa itong isyung etikal na kinasasangkutan ng claim ng kredito para sa trabaho na hindi ginawa ng naghahabol. Maaaring i-plagiarize ng isang tao ang gawa ng ibang tao anuman ang status ng copyright ng gawang iyon. Halimbawa, gayunpaman ay plagiarism ang pagkopya mula sa isang libro o artikulo na masyadong luma para nasa ilalim pa rin ng copyright. Plagiarism din ang paggamit ng data na kinuha mula sa isang hindi kilalang pinagmulan, kahit na ang makatotohanang materyal tulad ng data ay maaaring hindi protektado ng copyright. Ang plagiarism, gayunpaman, ay madaling gamutin - wastong pagsipi sa orihinal na pinagmulan ng materyal."
“Ang paglabag sa copyright, sa kabilang banda, ay ang hindi awtorisadong paggamit ng gawa ng iba. Ito ay isang legal na isyu na nakadepende sa kung ang gawa ay protektado ng copyright sa simula pa lang, pati na rin sa mga detalye tulad ng kung gaano karami ang ginagamit at ang layunin ng paggamit. Kung ang isang tao ay kumopya nang labis ng isang protektadong gawa, o kumopya para sa isang hindi awtorisadong layunin, ang simpleng pagkilala sa orihinal na pinagmulan ay hindi malulutas ang problema. Sa pamamagitan lamang ng paghingi ng paunang pahintulot mula sa may-ari ng copyright maiiwasan ng isa ang panganib ng isang singil sa paglabag."

Itinuturo ko ang kahalagahan ng dalawang alalahaning ito upang mapagtanto mo na ang mga remedyo ay maaaring magkaiba nang naaayon. Gayundin, pareho silang napapaloob sa mga pagsasaalang-alang na tumatagos sa AI Ethics at AI Law, na ginagawa silang pantay na sulit na suriin.

Tuklasin natin ang isang inaangkin na remedyo o solusyon. Makikita mo na maaaring makatulong ito sa isa sa mga dobleng isyu sa problema, ngunit hindi sa isa pa.

Iginiit ng ilan na ang kailangan lang gawin ng mga gumagawa ng AI ay banggitin ang kanilang mga mapagkukunan. Kapag ang generative AI ay gumagawa ng isang sanaysay, isama lamang ang mga partikular na pagsipi para sa anumang nakasaad sa sanaysay. Magbigay ng iba't ibang mga URL at iba pang mga indikasyon kung aling nilalaman ng Internet ang ginamit. Ito ay tila magpapalaya sa kanila ng mga pagkabalisa tungkol sa plagiarism. Ang output na sanaysay ay malamang na malinaw na matukoy kung anong mga mapagkukunan ang ginamit para sa mga salita na ginawa.

Mayroong ilang mga quibbles sa na-claim na solusyon, ngunit sa isang 30,000-foot na antas sabihin natin na nagsisilbing isang medyo kasiya-siyang lunas para sa plagiarism dilemma. Gaya ng nakasaad sa itaas sa paliwanag ng paglabag sa copyright, ang pagbanggit sa pinagmumulan ng materyal ay hindi nangangahulugang makapagpapalabas sa iyo sa doghouse. Ipagpalagay na ang nilalaman ay naka-copyright, at depende sa iba pang mga kadahilanan tulad ng kung gaano karami ang materyal na ginamit, ang naghihintay na espada ng paglabag sa copyright ay maaaring bumaba nang husto at may katapusan.

Dobleng problema ang bantayan dito.

Susubukang Patunayan ang Plagiarism O Paglabag sa Copyright

Patunayan mo!

Iyan ang suot na refrain na narinig nating lahat sa iba't ibang panahon sa ating buhay.

Alam mo kung paano ito nangyayari. Maaari mong i-claim na may nangyayari o nangyari na. Maaaring alam mo sa iyong puso ng mga puso na ito ay naganap. Ngunit pagdating sa push-versus-shove, kailangan mong magkaroon ng patunay.

Sa pagsasalita ngayon, kailangan mong ipakita ang mga resibo, gaya ng sinasabi nila.

Ang tanong ko sa iyo ay ito: Paano natin mapapatunayan na ang generative AI ay hindi naaangkop na pinagsamantalahan ang nilalaman ng Internet?

Ipinapalagay ng isa na ang sagot ay dapat na madali. Hihilingin o sabihin mo sa generative AI na gumawa ng outputted essay. Pagkatapos ay kunin mo ang sanaysay at ihambing ito sa kung ano ang makikita sa Internet. Kung nahanap mo ang sanaysay, bam, nakuha mo ang generative AI na ipinako sa salawikain na pader.

Ang buhay ay tila hindi kailanman naging napakadali.

Isipin na makakakuha tayo ng generative AI upang makagawa ng isang sanaysay na naglalaman ng humigit-kumulang 100 salita. Umiikot kami at sinisikap na maabot ang lahat ng sulok at sulok ng Internet, hinahanap ang 100 salita na iyon. Kung nakita namin ang 100 salita, na ipinapakita sa parehong eksaktong pagkakasunud-sunod at isang magkatulad na paraan, tila nahuli namin ang aming sarili na mainit.

Ipagpalagay na kahit na nakita natin sa Internet ang isang tila "maihahambing" na sanaysay kahit na tumutugma lamang ito sa 80 sa 100 salita. Ito ay tila sapat pa, marahil. Ngunit isipin na nakakita lamang kami ng isang halimbawa ng 10 salita ng 100 na tumutugma. Sapat na ba iyon para ipagsigawan na naganap ang plagiarism o naganap ang paglabag sa copyright?

Umiiral ang kulay abo.

Nakakatawa ang text sa ganoong paraan.

Ihambing ito sa text-to-image o text-to-art na mga pangyayari. Kapag nagbibigay ang generative AI ng text-to-image o text-to-art na kakayahan, maglalagay ka ng text prompt at ang AI app ay gagawa ng imaheng medyo nakabatay sa prompt na ibinigay mo. Ang larawan ay maaaring hindi katulad ng anumang larawan na nakita na dito o sa anumang planeta.

Sa kabilang banda, ang imahe ay maaaring nakapagpapaalaala sa iba pang mga larawang umiiral. Maaari nating tingnan ang generative AI-produced na imahe at medyo sa pamamagitan ng gut instinct ay masasabi na ito ay tiyak na kamukha ng ibang larawan na nakita natin dati. Sa pangkalahatan, ang nakikita ang mga aspeto ng paghahambing at kaibahan ay medyo mas madaling gawin. Iyon ay sinabi, mangyaring malaman na ang malalaking legal na debate ay tumitiyak sa kung ano ang bumubuo sa overlap o pagkopya ng isang larawan mula sa isa pa.

Ang isa pang katulad na sitwasyon ay umiiral sa musika. May mga generative AI app na nagbibigay-daan sa iyong magpasok ng text prompt at ang output na ginawa ng AI ay audio music. Ang mga text-to-audio o text-to-music AI na mga kakayahan na ito ay nagsisimula pa lamang na lumabas. Ang isang bagay na maaari mong pagtaya sa iyong pinakamataas na dolyar ay ang musikang ginawa ng generative AI ay lubos na susuriin para sa paglabag. Mukhang alam namin kapag nakarinig kami ng paglabag sa musika, ngunit muli itong isang kumplikadong legal na isyu na hindi lamang nakabatay sa kung ano ang nararamdaman namin tungkol sa nakikitang pagtitiklop.

Hayaan mo ako ng isa pang halimbawa.

Ang text-to-code generative AI ay nagbibigay sa iyo ng kakayahang magpasok ng text prompt at ang AI ay gagawa ng programming code para sa iyo. Maaari mong gamitin ang code na ito para sa paghahanda ng isang computer program. Maaari mong gamitin ang code nang eksakto tulad ng nabuo, o maaari mong piliin na i-edit at ayusin ang code upang umangkop sa iyong mga pangangailangan. Kailangan ding tiyakin na ang code ay apt at workable dahil posibleng magkaroon ng mga error at falsehood sa nabuong code.

Ang iyong unang palagay ay maaaring ang programming code ay hindi naiiba sa text. Text lang ito. Oo naman, ito ay isang teksto na nagbibigay ng isang partikular na layunin, ngunit ito ay teksto pa rin.

Well, hindi eksakto. Karamihan sa mga programming language ay may mahigpit na format at istraktura sa likas na katangian ng mga coding statement ng wikang iyon. Ito sa isang kahulugan ay mas makitid kaysa sa natural na wika. Medyo nakakahon ka sa kung paano nabuo ang mga coding statement. Gayundin, ang pagkakasunud-sunod at paraan kung saan ang mga pahayag ay ginagamit at nakaayos ay medyo nakakahon.

Sa kabuuan, ang posibilidad ng pagpapakita na ang programming code ay plagiarized o nilabag ay halos mas madali kaysa sa natural na wika na sinabi. Kaya, kapag ang isang generative AI ay nagpunta upang i-scan ang programming code sa Internet at sa kalaunan ay bumubuo ng programming code, ang mga pagkakataong magtalo na ang code ay tahasang kinopya ay magiging mas kapani-paniwala. Hindi isang slam dunk, kaya asahan ang mapait na laban na gagawin dito.

Ang aking pangkalahatang punto ay magkakaroon tayo ng parehong mga isyu sa AI Ethics at AI Law na kinakaharap ang lahat ng mga mode ng generative AI.

Magiging problema ang plagiarism at paglabag sa copyright para sa:

Text-to-text o text-to-essay
Text-to-image o text-to-art
Text-to-audio o text-to-music
Text-to-video
Text-to-code
At iba pa

Lahat sila ay napapailalim sa parehong mga alalahanin. Ang ilan ay maaaring medyo mas madaling "patunayan" kaysa sa iba. Lahat sila ay magkakaroon ng sarili nilang iba't ibang bangungot ng AI Ethics at AI Law na saligan.

Paggawa ng Kaso Para sa Plagiarism O Paglabag sa Copyright

Para sa mga layunin ng talakayan, tumuon tayo sa text-to-text o text-to-essay generative AI. Ginagawa ko ito bahagyang dahil sa napakalaking kasikatan ng ChatGPT, na isang text-to-text na uri ng generative AI. Maraming tao ang gumagamit ng ChatGPT, kasama ang marami pang iba na gumagamit ng iba't ibang katulad na text-to-text generative AI apps.

Alam ba ng mga taong iyon na gumagamit ng mga generative AI app na posibleng umasa sila sa plagiarism o paglabag sa copyright?

Mukhang nagdududa na sila.

Maglakas-loob akong sabihin na ang umiiral na palagay ay kung magagamit ang generative AI app, dapat malaman o kumpiyansa ng tagagawa ng AI o kumpanyang naglagay ng AI na walang hindi kanais-nais tungkol sa mga paninda na kanilang iniaalok para magamit. Kung magagamit mo ito, dapat itong nasa itaas.

Balikan natin ang aking naunang komento tungkol sa kung paano natin susubukan at patunayan na ang isang partikular na generative AI ay gumagana sa maling batayan tungkol sa pagsasanay sa data.

Maaari ko ring idagdag na kung mahuli natin ang isang generative AI na gumagawa nito, ang mga pagkakataong mahuli ang iba ay malamang na mapahusay. Hindi ko sinasabi na ang lahat ng mga generative AI app ay nasa parehong bangka. Ngunit makikita nila ang kanilang mga sarili sa medyo malupit na dagat kapag ang isa sa kanila ay naipit sa dingding.

Iyon ang dahilan kung bakit ito rin ay magiging lubhang kapaki-pakinabang upang bantayan ang mga umiiral na demanda. Ang unang mananalo sa inaangkin na paglabag, kung mangyari ito, ay posibleng magbaybay ng kapahamakan at kadiliman para sa iba pang mga generative na AI app, maliban na lang kung ang ilang mga makitid ay makatakas sa mas malawak na mga isyu sa kamay. Ang mga natatalo sa inaangkin na paglabag ay hindi nangangahulugang ang mga nakakalikhang AI app ay maaaring tumunog at magdiwang. Maaaring ang pagkawala ay nauugnay sa iba pang mga salik na hindi gaanong nauugnay sa iba pang mga generative AI app, at iba pa.

Nabanggit ko na kung kukuha kami ng 100-salitang sanaysay at susubukan naming hanapin ang mga eksaktong salitang iyon sa eksaktong parehong pagkakasunud-sunod sa Internet, maaari kaming magkaroon ng medyo solidong kaso para sa plagiarism o paglabag sa copyright, lahat ng iba ay pantay. Ngunit kung ang bilang ng mga salitang tumutugma ay mababa, kami ay tila nasa manipis na yelo.

Gusto kong maghukay ng mas malalim doon.

Ang isang malinaw na aspeto ng paggawa ng paghahambing ay binubuo ng eksaktong parehong mga salita sa eksaktong parehong pagkakasunud-sunod. Maaaring mangyari ito para sa buong mga sipi. Ito ay magiging maginhawa upang makita, halos tulad ng pag-abot sa amin sa isang pilak na pinggan.

Maaari din tayong maghinala kung isang snippet lang ng mga salita ang tumugma. Ang ideya ay upang makita kung ang mga ito ay mga mahahalagang salita o maaaring tagapuno ng mga salita na madali nating alisin o balewalain. Hindi rin namin nais na dayain sa pamamagitan ng paggamit ng mga salita sa kanilang nakaraan o hinaharap na panahunan, o isa pang tomfoolery. Ang mga pagkakaiba-iba sa mga salita ay dapat ding isaalang-alang.

Ang isa pang antas ng paghahambing ay kapag ang mga salita ay hindi partikular na magkaparehong mga salita sa isang malaking lawak, ngunit ang mga salita kahit na sa isang iba't ibang estado ay tila gumagawa pa rin ng parehong mga punto. Halimbawa, ang isang buod ay kadalasang gagamit ng halos magkatulad na mga salita bilang isang orihinal na pinagmulan, ngunit malalaman natin na ang buod ay tila nakabatay sa orihinal na pinagmulan.

Ang pinakamahirap na antas ng paghahambing ay ibabatay sa mga konsepto o ideya. Ipagpalagay na nakakita tayo ng isang sanaysay na walang pareho o magkatulad na mga salita bilang batayan ng paghahambing, ngunit ang diwa o ideya ay pareho. Tayo ay tinatanggap na patungo sa magaspang na teritoryo. Kung kaagad nating sasabihin na ang mga ideya ay malapit na protektado, maglalagay tayo ng takip sa halos lahat ng anyo ng kaalaman at pagpapalawak ng kaalaman.

Maaari tayong muling sumangguni sa isang madaling paliwanag mula sa Duke University:

"Hindi pinoprotektahan ng copyright ang mga ideya, tanging ang tiyak na pagpapahayag ng isang ideya. Halimbawa, nagpasya ang isang hukuman na hindi nilabag ni Dan Brown ang copyright ng isang naunang aklat noong sumulat siya Ang Da Vinci Code dahil ang lahat ng hiniram niya sa naunang gawain ay ang mga pangunahing ideya, hindi ang mga detalye ng balangkas o diyalogo. Dahil ang copyright ay nilayon upang hikayatin ang malikhaing produksyon, ang paggamit ng mga ideya ng ibang tao upang gumawa ng bago at orihinal na gawa ay pinaninindigan ang layunin ng copyright, hindi ito lumalabag dito. Kung ang isa ay kumopya ng expression ng iba nang walang pahintulot ay maaaring lumabag sa copyright.”
"Para maiwasan ang plagiarism, sa kabilang banda, dapat kilalanin ang pinagmulan kahit na ang mga ideya na hiniram sa iba, hindi alintana kung ang pagpapahayag ng mga ideyang iyon ay hiniram sa kanila. Kaya, ang isang paraphrase ay nangangailangan ng pagsipi, kahit na bihira itong magdulot ng anumang problema sa copyright."

Pakitandaan bilang naunang natukoy ang mga pagkakaiba sa pagitan ng double trouble facet.

Ngayon, kung gayon, ang pagsasabuhay ng mga diskarte sa paghahambing ay isang bagay na nagaganap sa loob ng maraming taon. Isipin ito sa ganitong paraan. Ang mga mag-aaral na nagsusulat ng mga sanaysay para sa kanilang mga gawain sa paaralan ay maaaring matuksong kumuha ng nilalaman mula sa Internet at magpanggap na sila ang may-akda ng A-grade Pulitzer Prize-winning na mga salita.

Matagal nang ginagamit ng mga guro ang mga programa sa pagsusuri sa plagiarism upang harapin ito. Kinukuha ng isang guro ang sanaysay ng isang mag-aaral at ipinapasok ito sa plagiarism checker. Sa ilang mga kaso, ang isang buong paaralan ay magbibigay ng lisensya sa paggamit ng isang plagiarism-checking program. Sa tuwing gagawa ng sanaysay ang mga mag-aaral, kailangan muna nilang ipadala ang sanaysay sa programa sa pagsusuri ng plagiarism. Ang guro ay alam kung ano ang iniulat ng programa.

Sa kasamaang palad, kailangan mong maging lubhang maingat tungkol sa kung ano ang sasabihin ng mga programang ito sa pagsusuri ng plagiarism. Mahalagang maingat na suriin kung wasto ang mga naiulat na indikasyon. Gaya ng nabanggit na, ang kakayahan ng pagtiyak kung ang isang akda ay kinopya ay maaaring malabo. Kung hindi mo pinag-iisipan ang resulta ng checking program, maaari mong maling akusahan ang isang mag-aaral na nangongopya kapag hindi nila ito ginawa. Ito ay maaaring nakakadurog ng kaluluwa.

Sa pagpapatuloy, maaari naming subukang gumamit ng mga programa sa pagsusuri ng plagiarism sa larangan ng pagsubok ng mga generative na output ng AI. Tratuhin ang mga na-output na sanaysay mula sa isang generative AI app na parang isinulat ito ng isang mag-aaral. Pagkatapos ay sinusukat namin kung ano ang sinasabi ng plagiarism checker. Ginagawa ito sa isang butil ng asin.

Mayroong kamakailang pag-aaral sa pananaliksik na nagtangkang gamitin ang mga ganitong uri ng paghahambing sa konteksto ng generative AI sa ganitong paraan. Gusto kong talakayin ang ilang kawili-wiling natuklasan kasama ka.

Una, kailangan ang ilang karagdagang background. Ang Generative AI ay minsang tinutukoy bilang mga LLM (malalaking modelo ng wika) o simpleng LM (mga modelo ng wika). Pangalawa, ang ChatGPT ay batay sa isang bersyon ng isa pang OpenAI generative AI package na tinatawag na GPT-3.5. Bago ang GPT-3.5, mayroong GPT-3, at bago iyon ay GPT-2. Sa ngayon, ang GPT-2 ay itinuturing na medyo primitive kumpara sa susunod na serye, at lahat tayo ay sabik na naghihintay sa paparating na pag-unveil ng GPT-4, tingnan ang aking talakayan sa ang link dito.

Ang pananaliksik na pag-aaral na nais kong maikling tuklasin ay binubuo ng pagsusuri sa GPT-2. Mahalagang matanto iyon dahil lampas na tayo ngayon sa mga kakayahan ng GPT-2. Huwag gumawa ng anumang padalus-dalos na konklusyon tungkol sa mga resulta ng pagsusuring ito ng GPT-2. Gayunpaman, marami tayong matututuhan mula sa pagtatasa ng GPT-2. Ang pag-aaral ay pinamagatang "Plagiarize ba ang mga Modelo ng Wika?" ni Jooyoung Lee, Thai Le, Jinghui Chen, at Dongwon Lee, na lumalabas sa ACM WWW '23, Mayo 1–5, 2023, Austin, TX, USA.

Ito ang kanilang pangunahing tanong sa pananaliksik:

"Hanggang saan (hindi limitado sa pagsasaulo) ginagamit ng mga LM ang mga parirala o pangungusap mula sa kanilang mga sample ng pagsasanay?"

Ginamit nila ang tatlong antas o kategorya ng potensyal na plagiarism:

"Verbatim plagiarism: Mga eksaktong kopya ng mga salita o parirala na walang pagbabago."
“Paraphrase plagiarism: Kasingkahulugan na pagpapalit, muling pagsasaayos ng salita, at/o pabalik na pagsasalin.”
"Plagiarism ng ideya: Representasyon ng pangunahing nilalaman sa isang pinahabang anyo."

Ang GPT-2 ay talagang sinanay sa data ng Internet at sa gayon ay isang angkop na kandidato para sa ganitong uri ng pagsusuri:

“Ang GPT-2 ay pre-trained sa WebText, na naglalaman ng higit sa 8 milyong mga dokumento na nakuha mula sa 45 milyong mga link sa Reddit. Dahil hindi inilabas ng OpenAI sa publiko ang WebText, ginagamit namin ang OpenWebText na isang open-source na libangan ng WebText corpus. Mapagkakatiwalaan itong ginamit ng mga naunang literatura.”

Ang mga napiling pangunahing natuklasan na sipi mula sa pag-aaral ay binubuo ng:

"Natuklasan namin na ang mga pre-trained na pamilya ng GPT-2 ay nangongopya mula sa OpenWebText."
"Ang aming mga natuklasan ay nagpapakita na ang fine-tuning ay makabuluhang binabawasan ang mga kaso ng verbatim plagiarism mula sa OpenWebText."
"Naaayon kay Carlini et al. at Carlini et al., nalaman namin na ang mas malalaking modelo ng GPT-2 (malaki at xl) sa pangkalahatan ay bumubuo ng mga plagiarized na pagkakasunud-sunod nang mas madalas kaysa sa mas maliliit."
"Gayunpaman, ang iba't ibang LM ay maaaring magpakita ng iba't ibang mga pattern ng plagiarism, at sa gayon ang aming mga resulta ay maaaring hindi direktang i-generalize sa iba pang mga LM, kabilang ang mga mas kamakailang LM tulad ng GPT-3 o BLOOM."
"Sa karagdagan, ang mga awtomatikong plagiarism detector ay kilala na mayroong maraming mga mode ng pagkabigo (kapwa sa mga maling negatibo at maling positibo).
"Dahil ang karamihan sa data ng pagsasanay ng mga LM ay na-scrap mula sa Web nang hindi ipinapaalam sa mga may-ari ng nilalaman, ang kanilang pag-uulit ng mga salita, parirala, at maging ang mga pangunahing ideya mula sa mga set ng pagsasanay sa mga nabuong teksto ay may mga etikal na implikasyon."

Tiyak na kailangan natin ng mas maraming pag-aaral ng ganitong uri.

Kung gusto mong malaman kung paano inihahambing ang GPT-2 sa GPT-3 tungkol sa pagsasanay sa data, mayroong isang kapansin-pansing kaibahan.

Ayon sa mga naiulat na indikasyon, ang pagsasanay sa data para sa GPT-3 ay mas malawak:

"Ang modelo ay sinanay gamit ang mga database ng teksto mula sa internet. Kasama rito ang napakaraming 570GB ng data na nakuha mula sa mga aklat, mga teksto sa web, Wikipedia, mga artikulo, at iba pang piraso ng pagsulat sa internet. Upang maging mas tumpak, 300 bilyong salita ang ipinasok sa system” (BBC Science Focus magazine, “ChatGPT: Lahat ng kailangan mong malaman tungkol sa GPT-3 tool ng OpenAI” ni Alex Hughes, Pebrero 2023).

Para sa iyo na interesado sa mas malalim na paglalarawan ng data training para sa GPT-3, narito ang isang sipi mula sa opisyal na GPT-3 Model Card na nai-post sa GitHub (huling na-update na petsa na nakalista noong Setyembre 2020):

“Ang set ng pagsasanay sa GPT-3 ay binubuo ng tekstong nai-post sa internet, o ng tekstong na-upload sa internet (hal., mga aklat). Ang data sa internet kung saan ito sinanay at sinusuri hanggang sa kasalukuyan ay kinabibilangan ng: (1) isang bersyon ng CommonCrawl dataset, na-filter batay sa pagkakatulad sa mataas na kalidad na reference corpora, (2) isang pinalawak na bersyon ng Webtext dataset, (3 ) dalawang internet-based book corpora, at (4) English-language Wikipedia.”
“Dahil sa data ng pagsasanay nito, ang mga output at performance ng GPT-3 ay higit na kinatawan ng mga populasyon na nakakonekta sa internet kaysa sa mga puno ng verbal, non-digital na kultura. Ang populasyong nakakonekta sa internet ay higit na kinatawan ng mga mauunlad na bansa, mayaman, mas bata, at mga pananaw ng lalaki, at karamihan ay nakasentro sa US. Ang mga mayayamang bansa at populasyon sa mga mauunlad na bansa ay nagpapakita ng mas mataas na internet penetration. Ang digital gender divide ay nagpapakita rin ng mas kaunting kababaihang kinakatawan online sa buong mundo. Bukod pa rito, dahil ang iba't ibang bahagi ng mundo ay may iba't ibang antas ng internet penetration at access, ang dataset ay hindi kumakatawan sa mga komunidad na hindi gaanong konektado."

Ang isang takeaway mula sa indikasyon sa itaas tungkol sa GPT-3 ay ang isang tuntunin ng thumb sa mga gumagawa ng generative AI ay ang mas maraming data sa Internet na maaari mong i-scan, ang posibilidad ng pagpapabuti o pagsulong ng generative AI ay tumataas.

Maaari mong tingnan ito sa alinman sa dalawang paraan.

1) Pinagbuting AI. Magkakaroon tayo ng generative AI na gumagapang sa halos lahat ng Internet hangga't maaari. Ang kapana-panabik na resulta ay ang generative AI ay magiging mas mahusay kaysa sa dati. Iyan ay isang bagay na inaasahan.
2) Pagkopya sa Potensyal na Sami. Ang pagpapalawak na ito ng pag-scan sa Internet ay kasuklam-suklam at nakakaakit na ginagawang potensyal na mas malaki at mas malaki ang plagiarism at problema sa paglabag sa copyright. Bagama't dati ay hindi gaanong naapektuhan ang mga tagalikha ng nilalaman, ang laki ay mamumulaklak. Kung ikaw ay isang abogado sa panig ng mga tagalikha ng nilalaman, ito ay nagdudulot ng mga luha sa iyong mga mata (marahil ay luha ng pagkadismaya, o luha ng kagalakan sa kung ano ang mga prospect na idudulot nito sa mga tuntunin ng mga demanda).

Ang baso ba ay kalahating puno o kalahating laman?

Nagpasya ka.

Naghihintay ang mga Legal na Landmine

Ang isang tanong na maaari mong pag-isipan ay kung ang iyong nai-post na nilalaman sa Internet ay itinuturing na patas na laro para sa pag-scan. Kung ang iyong content ay nasa likod ng isang paywall, malamang na hindi ito target para ma-scan dahil hindi ito madaling maabot, depende sa lakas ng paywall.

Gusto kong hulaan na karamihan sa mga pang-araw-araw na tao ay hindi nakatago ang kanilang nilalaman sa likod ng isang paywall. Gusto nilang maging available sa publiko ang kanilang content. Ipinapalagay nila na titingnan ito ng mga tao.

Ang pagkakaroon ba ng iyong content na available sa publiko ay nangangahulugan din ng axiomatically na inaprubahan mo itong ma-scan para magamit ng generative AI na sinasanay sa data?

Siguro oo siguro hindi.

Ito ay isa sa mga roll-yes-eyes legal na usapin.

Pagbabalik sa naunang binanggit Batas ng Bloomberg artikulo, binanggit ng mga may-akda ang kahalagahan ng Mga Tuntunin at Kundisyon (T&C) na nauugnay sa maraming website:

“Ang legal na landmine—na lubos na binabalewala ng hindi sinasadyang mga kumpanya ng AI na nagpapatakbo ng mga online na bot para sa pag-scrape ng data—ay nakatago sa Mga Tuntunin at Kundisyon na karaniwang available sa mga pampublikong website ng lahat ng uri. Sa kaibahan sa kasalukuyang hindi naaayos na batas ng IP at sa problema sa paglabag sa copyright, ang Mga Tuntunin at Kundisyon ng isang website ay sinusuportahan ng mahusay na itinatag na batas ng kontrata at kadalasan ay maaaring ipatupad sa korte na umaasa sa sapat na bilang ng mga nauna.”

Isinasaad nila na kung ipagpalagay na ang iyong website ay may page na nauugnay sa paglilisensya, malamang na kung gumamit ka ng standardized na modernong-araw na template, maaaring naglalaman ito ng mahalagang sugnay:

“Dahil dito, karamihan sa boilerplate Mga Tuntunin at Kundisyon para sa mga website—maraming magagamit sa libreng pag-access—ay naglalaman ng sugnay na nagbabawal sa awtomatikong pag-scrape ng data. Kabalintunaan, ang mga malayang magagamit na template ay posibleng ginamit para sa pagsasanay sa ChatGPT. Samakatuwid, maaaring naisin ng mga may-ari ng nilalaman na suriin ang kanilang Mga Tuntunin at Kundisyon at maglagay ng hiwalay na sugnay na malinaw na nagbabawal sa lahat ng paggamit ng anumang nilalaman mula sa mga website para sa pagsasanay sa AI o anumang nauugnay na layunin, manu-mano man o awtomatiko, nang walang nakasulat na pahintulot ng may-ari ng website. .”

Ang isang idinagdag na kicker ay kasama sa kanilang pagsusuri ng mga potensyal na aksyon para sa mga tagalikha ng nilalaman na gawin tungkol sa kanilang mga website:

“Samakatuwid, ang pagpasok ng isang maipapatupad na probisyon ng mga naliquidate na pinsala para sa bawat paglabag sa no-scraping clause, na pinahusay ng isang probisyon ng injunction-without-bond, ay maaaring maging isang matibay na solusyon para sa mga may-akda ng malikhaing nilalaman na hindi gustong magbigay ng mga bunga ng kanilang intelektwal na paggawa para sa mga layunin ng pagsasanay sa AI nang hindi binabayaran para dito o, hindi bababa sa, binigyan ng tamang kredito para sa kanilang trabaho."

Baka gusto mong kumonsulta sa iyong abogado tungkol dito.

Sinasabi ng ilan na ito ay isang mahalagang paraan upang subukan at sabihin sa mga gumagawa ng AI na ang mga tagalikha ng nilalaman ay labis na seryoso sa pagprotekta sa kanilang nilalaman. Ang pagtitiyak na ang iyong paglilisensya ay may wastong mga salita, ay tila nagbibigay ng abiso sa mga gumagawa ng AI.

Ang iba naman ay medyo downbeat. Malungkot nilang sinabi na maaari kang magpatuloy upang ilagay ang pinakamasakit at pinakanakamamatay na legal na wika sa iyong website, ngunit sa huli, i-scan ito ng mga gumagawa ng AI. Hindi mo malalaman na ginawa nila iyon. Magkakaroon ka ng isang diyablo ng oras na nagpapatunay na ginawa nila. Hindi mo malamang na matuklasan na ang kanilang mga output ay nagpapakita ng iyong nilalaman. Ito ay isang mahirap na labanan na hindi mo mapanalunan.

Ang counterargument ay sumusuko ka na sa labanan bago pa man ito isagawa. Kung wala ka man lang sapat na legal na wika, at kung mahuli mo man sila, kikilos sila at gagawa ng paraan upang makatakas sa anumang responsibilidad. Lahat dahil hindi ka nag-post ng tamang uri ng legal na lingo.

Samantala, ang isa pang diskarte na naglalayong makakuha ng traksyon ay binubuo ng pagmamarka ang iyong website na may isang bagay na nagsasabing ang site ay hindi dapat i-scan ng generative AI. Ang ideya ay ang isang standardized marker ay gagawin. Maaaring idagdag ng mga website ang marker sa kanilang site. Sasabihin sa mga gumagawa ng AI na dapat nilang baguhin ang kanilang pag-scan ng data upang laktawan ang mga minarkahang website.

Maaari bang maging matagumpay ang isang marker approach? Kasama sa mga alalahanin ang mga gastos sa pagkuha at pag-post ng mga marker. Kasama ng kung ang mga gumagawa ng AI ay susunod sa mga marker at matiyak na maiiwasan nila ang pag-scan sa mga minarkahang site. Ang isa pang pananaw ay na kahit na ang mga gumagawa ng AI ay hindi sumabay sa mga marka, nagbibigay ito ng isa pang palatandaan para sa pagpunta sa korte at pangangatwiran na ang tagalikha ng nilalaman ay nagpunta sa huling milya upang subukan at bigyan ng babala ang pag-scan ng AI.

Ay, nakakapagpaikot ang ulo mo.

Konklusyon

Ilang huling pangungusap sa mahirap na paksang ito.

Handa ka na ba para sa isang makabagong pananaw sa buong AI na ito bilang isang plagiarizer at copyright infringer dilemma?

Karamihan sa mga palagay tungkol sa "paghuli" ng generative AI sa akto ng plagiarism o paglabag sa copyright ay nakasalalay sa pagtuklas ng mga output na lubos na kahawig naunang mga gawa tulad ng nilalaman sa Internet na posibleng na-scan sa panahon ng pagsasanay sa data.

Ipagpalagay na ang isang divide-and-conquer ploy ay naglalaro dito.

Narito ang ibig kong sabihin.

Kung ang generative AI ay humiram ng kaunti mula dito at kaunti mula doon, sa huli ay pinagsasama-sama ang mga ito sa paggawa ng anumang partikular na output, ang mga pagkakataong magkaroon ng gotcha moment ay lubhang nababawasan. Ang anumang output ay tila hindi tataas sa isang sapat na threshold na maaari mong sabihin nang tiyak na ito ay na-copped mula sa isang partikular na source item. Ang magreresultang sanaysay o iba pang mga mode ng output ay fractional lamang na maitugma. At sa pamamagitan ng karaniwang paraan ng pagsisikap na makipagtalo na nangyari ang plagiarism o paglabag sa copyright, karaniwan mong kailangang magpakita ng higit pa kaysa sa ilang maliit na maliit na piraso ay naglalaro, lalo na kung ang subo ay hindi kapansin-pansin at malawak na matatagpuan sa Internet (undercutting anumang sapat na pasanin ng patunay ng maling paggamit).

Maaari mo pa rin bang ipahayag na ang pagsasanay ng data sa pamamagitan ng generative AI ay na-rip off ang mga website at tagalikha ng nilalaman kahit na ang iminungkahing patunay ay isang tila hindi materyal na proporsyon?

Isipin mo yan.

Kung nahaharap kami sa potensyal na plagiarism sa laki at paglabag sa copyright sa laki, maaaring kailanganin naming baguhin ang aming diskarte sa pagtukoy kung ano ang bumubuo sa plagiarism at/o paglabag sa copyright. Marahil ay may kasong gagawin para sa plagiarism o paglabag sa copyright sa pangunahin o sa pangkalahatan. Ang isang mosaic na binubuo ng libu-libo o milyon-milyong maliliit na snippet ay maaaring ituring na gumagawa ng mga naturang paglabag. Ang maliwanag na problema bagaman ay maaari itong gumawa ng lahat ng uri ng nilalaman na biglang dumating sa ilalim ng isang payong ng mga paglabag. Maaaring ito ay isang madulas na dalisdis.

Mabibigat na iniisip.

Sa pagsasalita tungkol sa mabibigat na kaisipan, si Leo Tolstoy, ang maalamat na manunulat, ay tanyag na nagsabi: "Ang tanging kahulugan ng buhay ay ang pagsilbihan ang sangkatauhan."

Kung ang iyong website at ang mga website ng iba ay ini-scan para sa pagpapabuti ng AI, at kahit na hindi ka nakakakuha ng kahit isang sentimo para dito, maaari ka bang magkaroon ng mataimtim na kaaliwan sa masigasig na paniniwala na ikaw ay nag-aambag sa kinabukasan ng sangkatauhan? Mukhang maliit na halaga ang babayaran.

Buweno, maliban kung ang AI ay lumabas na ang kinatatakutang eksistensyal na panganib na pumawi sa lahat ng tao mula sa pag-iral. Hindi ka dapat kumuha ng kredito para diyan. Ipinapalagay ko na hindi ka makakapag-ambag sa napakasamang resulta. Isinasantabi ang nakapipinsalang hula na iyon, maaaring iniisip mo na kung kumikita ang mga gumagawa ng AI mula sa kanilang generative AI, at mukhang natutuwa sila sa profiteering, dapat ay nakakakuha ka rin ng isang piraso ng pie. Ibahagi at ibahagi pareho. Ang mga gumagawa ng AI ay dapat humingi ng pahintulot na i-scan ang anumang website at pagkatapos ay makipag-ayos din sa isang presyo na babayaran para sa pagpayag na magsagawa ng pag-scan.

Magbigay ng kredito kung saan dapat bayaran ang kredito.

Ibigay natin kay Sir Walter Scott ang huling salita sa ngayon: “ Naku, gusot-gusot ang hinabi natin. Noong una tayong nagsasanay na manlinlang.”

Maaaring naaangkop ito kung naniniwala kang nangyayari ang panlilinlang, o marahil ay hindi nalalapat kung sa tingin mo ay maayos at ganap na tapat at lehitimo ang lahat. Mangyaring bigyan ng mapagbigay na kredito ang iyong sarili para sa pag-iisip nito. Nararapat sa iyo iyan.

Pinagmulan: https://www.forbes.com/sites/lanceeliot/2023/02/26/legal-doomsday-for-generative-ai-chatgpt-if-caught-plagiarizing-or-infringing-warns-ai-ethics- and-ai-law/