Projet intéressant, et qui va dans le sens de ce que permet les images en CC ou libres de droits/domaine public.
Mais je m'interroge sur plusieurs éceuils de ce projet là :
*Compréhension incertaine des licences CC : ils donnent en exemple une licence CC BY-SA-NC-ND qui n'existe pas sous ce nom là (mais la CC BY-NC-ND est équivalente, je crois)
*De même, je n'ai pas vu de prise en compte de la viralité -SA (partage aux conditions identiques)
For our purposes, we are primarily looking to use the Public Domain, BY and BY-SA licences. These licences grant us the ability to modify the images and use them for commercial purposes, aligning with our use case.
*Ils sont conscients d'un biais entre l'affichage d'une licence CC générale dans le footer d'un blog mais pensent que c'ets spécifique aux blogs de poésie (?!?), alors qu'il est très fréquent que les illustrations aient une licence/des droits différents de ceux des textes des blogs/sites et que cela soit indiqué à côté des images.
Our approach consists of selectively retrieving images that are accompanied by Creative Commons (CC) licences on the respective web pages. By filtering the dataset based on this criterion, we should end up with images that can be used for training an AI image generation model similar to Stable Diffusion without infringing upon anyone’s intellectual property.
To achieve this, we examine specific sections of the web page, namely footers, aside tags, or sidebar tags. The licences located within the aside and sidebar sections are only collected if the licence is nested within an HTML tag no more than five times. This allows us to capture pertinent details related to the licence. Gathering all the image URLs present on the web page enables us to create a comprehensive dataset of image-licence pairs.
We notice that most of the CC licences are located in the footer of the webpage. The local licence refers to an image which is within the body (main content/middle) of a web page. This licence usually only refers to 1 specific image on the web page. There can also be different licences on the same web page each referring to a different image.
Our initial approach was to establish a direct link between CC licences and individual images. However, this proved to be exceedingly challenging due to the diverse range of methods used for image referencing. Furthermore, the licences did not always refer to images.
De leur aveux, cela prendrait trop de temps de vérifier les licences individuelles des images, et donc ils se contentent de la licence du footer !!!
Je suis très étonné de leur conclusion :
Because of those limitations, we decided to focus on identifying web pages where the entire content falls under a single licence. We examined the percentage of correctly interpreted CC licences and achieved a 96.32% accuracy with our first draft of our algorithm if we only take footers, asides, and sidebars into account.
Certes, ils disent qu'il faut être vigilant car leur échantillon se base seulement sur 1000 sites, mais je ne crois pas avoir jamais vu de site qui répondent à ce critère...
Bref, ça e semble la bonne solution, mais ils restent au milieu du gué ce qui risque de compromettre la réalité de leur projet quant aux droits d'auteurs (taux d'erreur des licences, absence de prises en compte/distinction des licences en SA).