دیتاست ها
در این بخش هم دیتاست های(dataset) مختلفی که در زمینه یادگیری عمیق(deep learning) میتونید استفاده کنید رو میبینید.
دیتاست هایی که بولد (توپر- پررنگ)! کردم از دیتاست های خیلی مهم و کاربردی هستن که مشخصا تو حوزه کامپیوتر ویژن (بینایی کامیپوتر) ازشون استفاده میشه .من تو بقیه زمینه ها کار نکردم ولی دیتاست های مختلف رو قرار میدم .تو زمینه هایی که کار کردم یا اطلاعات دارم سعی میکنم بیشتر توضیح بدم (اونایی که بولد شدن رو بعدا انشاالله بصورت اختصاصی توضیح میدم.)
قبل از هر چیزی این پست در مورد بهشت دیتاست ها رو حتما بخونید
دیتاستها
مخزن های بزرگ
دیتاست تصاویر طبیعی
- MNIST: دیتاست ارقام دست نویس انگلیسی (خیلی معروف و پرکاربرد)
- دیتاست هدا: دیتاست ارقام دست نویس فارسی (۶۰ هزار تصویر)
- NIST: مثل MNIST اما بزرگتر.
- Perturbed NIST: دیتاستی که در کلاس Yoshua ایجاد شد (همون دیتاست NISTهست به اضافه مقدار زیادی deformation یا تغییر شکل (یعنی تصاویر همون دیتاست رو با تغییرات مختلف ذخیره کرده و دیتاست بزرگتری رو ایجاد کرد)
- CIFAR10 / CIFAR100: این دوتا دیتاست در اصل یکی هستند و تفاوت اونها در تعداد دسته های اونهاست. این دیتاست شامل تصاویر رنگی با اندازه ۳۲*۳۲ هست و شامل ۶۰ هزار تصویر میشه.
- Caltech 101: دیتاستی شامل تصاویری از اشیاء در ۱۰۰ دسته مختلف ()
- Caltech 256: این دیتاست هم شامل تصاویری از اشیاء مختلف در ۲۵۶ دسته هست
- Caltech Silhouettes: این دیتاست همونطو رکه از اسمش مشخصه حاوی تصاویر دودویی شده دیتاست Caltech 101 با اندازه ۲۸*۲۸ هست
- STL-10 :این دیتاست هم مثل CIFAR10 برای استفاده در زمینه های unsupervised feature learning,deep learning, self taught learning مورد استفاده قرار میگیره ,فرقش با CIFAR10در اینه که تغییرات (modification های) بیشتری داره.)
- The Street View House Numbers (SVHN) Dataset: این دیتاست هم شماره پلاک خونه ها هست.
- NORB: تصاویر گرفته شده با دوربین از اسباب بازیها تحت حالتها و شدت نورهای مختلف .( منظورم اینجور تصاویر هست کلیک کنید تا یه نمونه رو ببینید)
- Imagenet: ایمیج نت در اصل اسم یک رقابت تو حوزه تشخیص تصاویر هست که دیتاست های مختلفی داره . هر سال هم برگزار میشه و در اصل تو رقابت سال ۲۰۱۲ اون بود که الکس کریژوسکی و جف هینتون تونستن با دیپ لرنینگ و استفاده از شبکه کانولوشن مقام اول رو بدست بیارن و دیپ لرنینگ اینطور متولد بشه !.در حال حاضر معروف ترین و پر استفاده ترین دیتاست تصاویر طبیعی که بیش از یک میلیون تصویر در ۱۰۰۰ دسته داره و اندازه تصاویر ۲۲۷ در ۲۲۷ شروع میشه مربوط به دیتاست سال ۲۰۱۲ اون هست. انواع مختلفی از دیتاستهاهست که از نظر حجمی و تعداد و… متفاوت هستند. حجم این دیتاست (سال ۲۰۱۲ ) بیش از ۱۵۰ گیگابایت هست. ورژن ۲۰۱۵ اون هم با احتساب همه زمینه ها بیش از ۱ ترابایت هست.(بعدا در این مورد بیشتر توضیح میدم)
- Pascal VOC: این هم مثل ایمیج نت یه رقابت تو حوزه کامپیوتر ویژن هست که دیتاست های مختلفی داره.
- Labelme: یه دیتاست بزرگ از تصاویر حاشیه نویسی شده (اصطلاحا میگن annotated images که خیلی کاربردی هست(توضیحات بعدا!))
- COIL 20: اشیاء مختلف در ۲۰ دسته که در تمامی زوایا۳۶۰ درجه عکس برداری شده ازشون
- COIL100: مثل بالایی با این تفاوت که اینجا ۱۰۰ دسته وجود داره
- Arcade Universe – یه جنریتور (تولید کننده ) دیتاست مصنوعی هست که با استفاده از تصاویر شامل spriteهای بازی هایی مثل تتریس پنتومینو و تترومینو تصویر جدید تولید میکنه. این جنریتور بر اساس نمونه ایجاد شده توسط o.Breleux بنام bugland ایجاد شده.
- در زیر هم مجموعه ای از دیتاست هایی که با ایده از BabyAISchool ایجاد شدند میبینید :
- BabyAIShapesDatasets : تمایز بین سه شکل ساده
- BabyAIImageAndQuestionDatasets :یه دیتاست سوال-تصویر-جواب
- (DeepVsShallowComparisonICML2007) : دیتاست هایی که منحصرا برای ارزیابی معماری های عمیق ایجاد شدند:
- MnistVariations : این دیتاست شامل تغییرات کنترل شده در دیتاستMNIST هست
- RectanglesData : تمایز بین مستطیل های عریض و بلند
- ConvexNonConvex :تمایز بین اشکال convex و غیر convex ( همون اشکال کاسه شکل(محدب) و غیر کاسه شکل(غیرمحدب!)!)
- BackgroundCorrelation : دیتاست شامل درجه کنترل شده ارتباط (correlation)در پس زمینه های نویزی MNIST هست.
دیتاست های تصاویر صورت
- Labelled Faces in the Wild: یکی از دیتاست های پرکاربرد که شامل ۱۳ هزار تصویر از افراد مختلف هست که از اینترنت (وب) جمع آوری شده و با نام هر فرد برچسب گذاری شده
- Toronto Face Dataset :دیتاست تصاویر صورت دانشگاه تورونتو
- Olivetti: تعدادی تصویر از افراد مختلف
- Multi-Pie: دیتابیس صورت مالتی پای یا The CMU Multi-PIE Face Database
- Face-in-Action
- JACFEE: تصاویر صورت افراد ژاپنی و قفقازی به همراه حالات مختلف احساسی
- FERET: دیتابیس فناوری تشخیص صورت یا همون The Facial Recognition Technology Database
- mmifacedb: دیتابیس حالات صورت MMI یا همون MMI Facial Expression Database
- IndianFaceDatabase: دیتابیس از تصاویر صورت افراد هندی !
- Yale Face Database و Yale Face Database B
متن
- ۲۰ newsgroups: عمل دسته بندی, نگاشت تکرر کلمات به شناسه newsgroup
- Reuters (RCV*) Corpuses: پیش بینی متن/موضوع یا text/topic prediction
- Penn Treebank : برای پیش بینی کلمه یا کاراکتر بعدی مورد استفاده قرار میگیره.
- Broadcast News:یه دیتاست بزرگ متنی که بطور کلاسیک برای پیش بینی کلمه بعدی مورد استفاده قرار میگیرفت.
- دیتاست ویکی پیدیا!
- Multidomain sentiment analysis dataset:دیتاست تحلیل نیت چند دامنه ای
صدا
- TIMIT Speech Corpus: دسته بندی واج ها (اصوات) یا همون phoneme classification
- Aurora : تیممیت (Timit) به همراه نویز و اطلاعات اضافی
Symbolic Music Datasets
- Piano-midi.de: قطعات کلاسیک پیانو
- Nottingham : بیش از هزار فولک تون
- MuseData: کتابخانه الکترونیکی از امتیازات موسیقی کلاسیک
- JSB Chorales: مجموعه ای از کورالزهای ۴ بخشی هارمونیک
- MovieLens:دتا دیتاست از اینجا قابل دریافت هست. اولین دیتاست شامل ۱۰۰ هزار رتبه بندی برای ۱۶۸۲ فیلم توسط ۹۴۳ کاربر هست . که به ۵ بخش مختلف تقسیم شده. دومین دیتاست حدود ۱ میلیون رتبه بندی (ریتینگ) برای ۳۹۰۰ فیلم هست که توسط ۶۰۴۰ کاربر داده شده .
- Jester: این دیتاست شامل ۴٫۱ میلیون رتبه بندی پیوسته (از -۱۰٫۰۰ تا +۱۰٫۰۰ ) از ۱۰۰تا جوک هست که توسط ۷۳۴۲۱ کاربر داده شده .
- Netflix Prize: نت فلیکس یک ورژن از دیتاست رتبه بندی فیلمهاش رو ارايه کرده که شامل ۱۰۰ میلیون رتبه بندی هست که توسط ۴۸۰ هزار کاربر انجام شده که بین ۱ تا تمام ۱۷۷۷۰ فیلم را رتبه بندی کردند.
- Book-Crossing dataset: این دیتاست از انجمن Book-Crossing هست که شامل ۲۷۸۸۵۸ کاربره که ۱۱۴۹۷۸۰ امتیاز رو در مورد ۲۷۱۳۷۹ کتاب دادند .
متفرقه
- دیتاست Musk
- CMU دیتابیس Motion capture هست !
- Brodatz dataset: یه دیتاست برای texture modeling هست!
- Million Song dataset: یک دیتاست شامل ۱ میلیون آهنگ!
- Merck Molecular Activity رقابت فعالیت مولکولی مرک!
- دیتاست های مختلف در زمینه Sentiment analysis
دیتاست های پزشکی
نکته : اگر دیتاستی رو اینجا پیدا نکردید ازمخازن دیتاست که در بالا لینکشون قرار داده شده استفاده کنید.
- Pulmonary hypertension Datasets : این سایت دارای دسته های مختلف برای انواع مختلفی از سرطان هاست (هم انسان و هم حیوان و…) و دیتاست بسیار بزرگی رو شامل میشه (بیش از هزاران نمونه )
- Visual Concept Extraction Challenge in Radiology ا(VISCERAL) :تصاویر رادیولوژی از ساختارهای آناتومیکال (مثل ششها ،کلیه ها و… ) به فرمتهای مختلف (CT یا MR ) که بصورت دستی حاشیه نویسی شده اند.
- The Cancer Imaging Archive: دیتاست های مختلف از انواع سرطان ها (سرطان شش ، myeloma، carcinoma و…) با فرمت های مختلف
- Grand Challenges in Biomedical Image Analysis: مجموعه ای از رقابتهای بیومدیکال که به منظور تسهیل قیاس بین راه حل ها و روشهای موجود و جدید ایجاد شده . در حال حاضر (زمان نگارش این مطلب) ۹۲ رقابت وجود دراه . هر رقابت دارای دیتاست خاص خود میباشد.
- The Lung Image Database Consortium : مجموعه تصاویر (LIDC-IDRI )که . یک مجموعه از تصاویر سی تی اسکن از سرطان شش با ضایعات (lesions)حاشیه نویسی شده
- Kaggle diabetic retinopathy. تصاویر شبکیه چشم (retinal ) با کیفیت بالا که به منظور تشخیص retinopathy دیابتی مورد استفاده قرار میگیرند و از مقیاس شدت ۰ تا ۴ توسط تکنسین ها حاشیه نویسی شده اند.
- International Symposium on Biomedical Imaging :ا(۲۰۱۵) رقابت بزرگ بین المللی که دارای دیتاست های خاص خود هستند.
- Multiple sclerosis lesion segmentation : مجموعه ای از تصاویر MRI مغز برای تشخیص ضایعات مربوط به بیماری ام اس (MS lesions ).
- Multimodal Brain Tumor Segmentation Challenge: ا (BRATS)دیتاست بزرگی از اسکنهای رزونانس مغناطیسی تومور مغزی ( brain tumor magnetic resonance scan) این دیتاست از سال ۲۰۱۲ در حال گسترش هست (هر ساله!)
- Coding4Cancer: تصاویر ماموگرافی دیجیتا و تشخیص سرطان شش
دیتاست های متفرقه (بدون ترتیب )
مجموعه ای از آدرس سایت های دیتابیس و دیتاست :(از گروه تلگرام دیپ لرنینگ (لینک در بخش منابع یادگیری اومده))
- انواع DataSet ها
- دیتاست مربوط به یوتیوب :
- دیتاست مربوط به داده های شبکه
- مجموعه داده های طبقه بندی شده در دیتاپول در موضوعات مختلف
- دیتاست مربوط به تشخیص چهره
دیتاست مربوط به دسته بندی حملات شبکه - دیتاست مربوط به وام های داده شده ، دیر کرد و غیره به مشتریان است
- دیتاست مربوط به تصادفات جاده ای
- دیتاست مربوط به گربه ها
- دیتاست مربوط به حراجی آنلاین ebay :
- دیتاست مربوط به موسیقی و صدا
- دیتاست مربوط به انواع شبکه های موجود و وب سایت ها – دانشگاه استنفورد
- دیتاست های مربوط به یادگیری ماشین
- گروه داده کاوی دانشگاه تگزاس
- وب سایت های مجموعه داده:
- اطلاعات مجموعه سایت های استک اورفلو (StackExchange)
- http://stackoverflow.com/questions/381806/large-public-datasets
- https://networkdata.ics.uci.edu/resources.php
- https://www.kaggle.com
- http://www.kdnuggets.com/datasets/index.html
- http://socialcomputing.asu.edu/pages/datasets
- http://nodexlgraphgallery.org/Pages/Default.aspx
- http://konect.uni-koblenz.de/networks
بخش دوم (نا مرتب)
- Google House Numbers from street view
- CIFAR-10 and CIFAR-100
- IMAGENET
- Tiny Images 80 Million tiny images6.
- Flickr Data 100 Million Yahoo dataset
- Berkeley Segmentation Dataset 500
- UC Irvine Machine Learning Repository
- Flickr 8k
- Flickr 30k
- Microsoft COCO
- VQA
- Image QA
- AT&T Laboratories Cambridge face database
- AVHRR Pathfinder
- Air Freight – The Air Freight data set is a ray-traced image sequence along with ground truth segmentation based on textural characteristics. (455 images + GT, each 160×120 pixels). (Formats: PNG)
- Amsterdam Library of Object Images – ALOI is a color image collection of one-thousand small objects, recorded for scientific purposes. In order to capture the sensory variation in object recordings, we systematically varied viewing angle, illumination angle, and illumination color for each object, and additionally captured wide-baseline stereo images. We recorded over a hundred images of each object, yielding a total of 110,250 images for the collection. (Formats: png)
- Annotated face, hand, cardiac & meat images – Most images & annotations are supplemented by various ASM/AAM analyses using the AAM-API. (Formats: bmp,asf)
- Image Analysis and Computer Graphics
- Brown University Stimuli – A variety of datasets including geons, objects, and “greebles”. Good for testing recognition algorithms. (Formats: pict)
- CAVIAR video sequences of mall and public space behavior – 90K video frames in 90 sequences of various human activities, with XML ground truth of detection and behavior classification (Formats: MPEG2 & JPEG)
- Machine Vision Unit
- CCITT Fax standard images – 8 images (Formats: gif)
- CMU CIL’s Stereo Data with Ground Truth – 3 sets of 11 images, including color tiff images with spectroradiometry (Formats: gif, tiff)
- CMU PIE Database – A database of 41,368 face images of 68 people captured under 13 poses, 43 illuminations conditions, and with 4 different expressions.
- CMU VASC Image Database – Images, sequences, stereo pairs (thousands of images) (Formats: Sun Rasterimage)
- Caltech Image Database – about 20 images – mostly top-down views of small objects and toys. (Formats: GIF)
- Columbia-Utrecht Reflectance and Texture Database – Texture and reflectance measurements for over 60 samples of 3D texture, observed with over 200 different combinations of viewing and illumination directions. (Formats: bmp)
- Computational Colour Constancy Data – A dataset oriented towards computational color constancy, but useful for computer vision in general. It includes synthetic data, camera sensor data, and over 700 images. (Formats: tiff)
- Computational Vision Lab
- Content-based image retrieval database – 11 sets of color images for testing algorithms for content-based retrieval. Most sets have a description file with names of objects in each image. (Formats: jpg)
- Efficient Content-based Retrieval Group
- Densely Sampled View Spheres – Densely sampled view spheres – upper half of the view sphere of two toy objects with 2500 images each. (Formats: tiff)
- Computer Science VII (Graphical Systems)
- Digital Embryos – Digital embryos are novel objects which may be used to develop and test object recognition systems. They have an organic appearance. (Formats: various formats are available on request)
- Univerity of Minnesota Vision Lab
- El Salvador Atlas of Gastrointestinal VideoEndoscopy – Images and Videos of his-res of studies taken from Gastrointestinal Video endoscopy. (Formats: jpg, mpg, gif)
- FG-NET Facial Aging Database – Database contains 1002 face images showing subjects at different ages. (Formats: jpg)
- FVC2000 Fingerprint Databases – FVC2000 is the First International Competition for Fingerprint Verification Algorithms. Four fingerprint databases constitute the FVC2000 benchmark (3520 fingerprints in all).
- Biometric Systems Lab – University of Bologna
- Face and Gesture images and image sequences – Several image datasets of faces and gestures that are ground truth annotated for benchmarking
- German Fingerspelling Database – The database contains 35 gestures and consists of 1400 image sequences that contain gestures of 20 different persons recorded under non-uniform daylight lighting conditions. (Formats: mpg,jpg)
- Language Processing and Pattern Recognition
- Groningen Natural Image Database – 4000+ 1536×1024 (16 bit) calibrated outdoor images (Formats: homebrew)
- ICG Testhouse sequence – 2 turntable sequences from ifferent viewing heights, 36 images each, resolution 1000×750, color (Formats: PPM)
- Institute of Computer Graphics and Vision
- IEN Image Library – 1000+ images, mostly outdoor sequences (Formats: raw, ppm)
- INRIA’s Syntim images database – 15 color image of simple objects (Formats: gif)
- INRIA
- INRIA’s Syntim stereo databases – 34 calibrated color stereo pairs (Formats: gif)
- Image Analysis Laboratory – Images obtained from a variety of imaging modalities — raw CFA images, range images and a host of “medical images”. (Formats: homebrew)
- Image Analysis Laboratory
- Image Database – An image database including some textures
- JAFFE Facial Expression Image Database – The JAFFE database consists of 213 images of Japanese female subjects posing 6 basic facial expressions as well as a neutral pose. Ratings on emotion adjectives are also available, free of charge, for research purposes. (Formats: TIFF Grayscale images.)
- ATR Research, Kyoto, Japan
- JISCT Stereo Evaluation – 44 image pairs. These data have been used in an evaluation of stereo analysis, as described in the April 1993 ARPA Image Understanding Workshop paper
The JISCT Stereo Evaluation” by R.C.Bolles, H.H.Baker, and M.J.Hannah, 263–274 (Formats: SSI)
- MIT Vision Texture – Image archive (100+ images) (Formats: ppm)
- MIT face images and more – hundreds of images (Formats: homebrew)
- Machine Vision – Images from the textbook by Jain, Kasturi, Schunck (20+ images) (Formats: GIF TIFF)
- Mammography Image Databases – 100 or more images of mammograms with ground truth. Additional images available by request, and links to several other mammography databases are provided. (Formats: homebrew)
- ftp://ftp.cps.msu.edu/pub/prip – many images (Formats: unknown)
- Middlebury Stereo Data Sets with Ground Truth – Six multi-frame stereo data sets of scenes containing planar regions. Each data set contains 9 color images and subpixel-accuracy ground-truth data. (Formats: ppm)
- Middlebury Stereo Vision Research Page – Middlebury College
- Modis Airborne simulator, Gallery and data set – High Altitude Imagery from around the world for environmental modeling in support of NASA EOS program (Formats: JPG and HDF)
- NIST Fingerprint and handwriting – datasets – thousands of images (Formats: unknown)
- NIST Fingerprint data – compressed multipart uuencoded tar file
- NLM HyperDoc Visible Human Project – Color, CAT and MRI image samples – over 30 images (Formats: jpeg)
- National Design Repository – Over 55,000 3D CAD and solid models of (mostly) mechanical/machined engineerign designs. (Formats: gif,vrml,wrl,stp,sat)
- Geometric & Intelligent Computing Laboratory
- OSU (MSU) 3D Object Model Database – several sets of 3D object models collected over several years to use in object recognition research (Formats: homebrew, vrml)
- OSU (MSU/WSU) Range Image Database – Hundreds of real and synthetic images (Formats: gif, homebrew)
- OSU/SAMPL Database: Range Images, 3D Models, Stills, Motion Sequences – Over 1000 range images, 3D object models, still images and motion sequences (Formats: gif, ppm, vrml, homebrew)
- Signal Analysis and Machine Perception Laboratory
- Otago Optical Flow Evaluation Sequences – Synthetic and real sequences with machine-readable ground truth optical flow fields, plus tools to generate ground truth for new sequences. (Formats: ppm,tif,homebrew)
- Vision Research Group
- ftp://ftp.limsi.fr/pub/quenot/opflow/testdata/piv/ – Real and synthetic image sequences used for testing a Particle Image Velocimetry application. These images may be used for the test of optical flow and image matching algorithms. (Formats: pgm (raw))
- LIMSI-CNRS/CHM/IMM/vision
- LIMSI-CNRS
- Photometric 3D Surface Texture Database – This is the first 3D texture database which provides both full real surface rotations and registered photometric stereo data (30 textures, 1680 images). (Formats: TIFF)
- SEQUENCES FOR OPTICAL FLOW ANALYSIS (SOFA) – 9 synthetic sequences designed for testing motion analysis applications, including full ground truth of motion and camera parameters. (Formats: gif)
- Computer Vision Group
- Sequences for Flow Based Reconstruction – synthetic sequence for testing structure from motion algorithms (Formats: pgm)
- Stereo Images with Ground Truth Disparity and Occlusion – a small set of synthetic images of a hallway with varying amounts of noise added. Use these images to benchmark your stereo algorithm. (Formats: raw, viff (khoros), or tiff)
- Stuttgart Range Image Database – A collection of synthetic range images taken from high-resolution polygonal models available on the web (Formats: homebrew)
- Department Image Understanding
- The AR Face Database – Contains over 4,000 color images corresponding to 126 people’s faces (70 men and 56 women). Frontal views with variations in facial expressions, illumination, and occlusions. (Formats: RAW (RGB 24-bit))
- Purdue Robot Vision Lab
- The MIT-CSAIL Database of Objects and Scenes – Database for testing multiclass object detection and scene recognition algorithms. Over 72,000 images with 2873 annotated frames. More than 50 annotated object classes. (Formats: jpg)
- The RVL SPEC-DB (SPECularity DataBase) – A collection of over 300 real images of 100 objects taken under three different illuminaiton conditions (Diffuse/Ambient/Directed). — Use these images to test algorithms for detecting and compensating specular highlights in color images. (Formats: TIFF )
- Robot Vision Laboratory
- The Xm2vts database – The XM2VTSDB contains four digital recordings of 295 people taken over a period of four months. This database contains both image and video data of faces.
- Centre for Vision, Speech and Signal Processing
- Traffic Image Sequences and ‘Marbled Block’ Sequence – thousands of frames of digitized traffic image sequences as well as the ‘Marbled Block’ sequence (grayscale images) (Formats: GIF)
- IAKS/KOGS
- U Bern Face images – hundreds of images (Formats: Sun rasterfile)
- U Michigan textures (Formats: compressed raw)
- U Oulu wood and knots database – Includes classifications – 1000+ color images (Formats: ppm)
- UCID – an Uncompressed Colour Image Database – a benchmark database for image retrieval with predefined ground truth. (Formats: tiff)
- UMass Vision Image Archive – Large image database with aerial, space, stereo, medical images and more. (Formats: homebrew)
- UNC’s 3D image database – many images (Formats: GIF)
- USF Range Image Data with Segmentation Ground Truth – 80 image sets (Formats: Sun rasterimage)
- University of Oulu Physics-based Face Database – contains color images of faces under different illuminants and camera calibration conditions as well as skin spectral reflectance measurements of each person.
- Machine Vision and Media Processing Unit
- University of Oulu Texture Database – Database of 320 surface textures, each captured under three illuminants, six spatial resolutions and nine rotation angles. A set of test suites is also provided so that texture segmentation, classification, and retrieval algorithms can be tested in a standard manner. (Formats: bmp, ras, xv)
- Machine Vision Group
- Usenix face database – Thousands of face images from many different sites (circa 994)
- View Sphere Database – Images of 8 objects seen from many different view points. The view sphere is sampled using a geodesic with 172 images/sphere. Two sets for training and testing are available. (Formats: ppm)
- PRIMA, GRAVIR
- Vision-list Imagery Archive – Many images, many formats
- Wiry Object Recognition Database – Thousands of images of a cart, ladder, stool, bicycle, chairs, and cluttered scenes with ground truth labelings of edges and regions. (Formats: jpg)
- ۳D Vision Group
- Yale Face Database – 165 images (15 individuals) with different lighting, expression, and occlusion configurations.
- Yale Face Database B – 5760 single light source images of 10 subjects each seen under 576 viewing conditions (9 poses x 64 illumination conditions). (Formats: PGM)
- Center for Computational Vision and Control
- DeepMind QA Corpus – Textual QA corpus from CNN and DailyMail. More than 300K documents in total. Paper for reference.
منبع و برای چک بروزآوری های بعدی
با گوگل کردن هم میتونید به دیتاست های مختلفی برسید اما پیشنهاد میکنم اگه برای مقاله و… قصد تحقیق دارید اول سرچ کنید و دیتاست های مطرح حوزه خودتون رو پیدا کنید و روی اونها کار کنید.خصوصا اون پست بهشت دیتاستها روببنید. من هر زمان که فرصت پیدا کنم و به نکته جدیدی برسم این بخش رو بروز میکنم . شما هم اگر اطلاعاتی دارید که فکر میکنید اینجا میتونه برای دیگران مفید باشه لطفا اون رو در اختیار من قرار بدید تا با ذکر اسم خودتون اینجا قرار بگیره .
اگر هم مشکلی /اشتباهی در موارد بالا دیدید خوشحال میشم اشاره کنید تا رفع بشه.
با تشکر
سید حسین حسن پور
آخرین آپدیت شنبه ۱۸ اردیبهشت ۱۳۹۸
داداش خعلی گلی
سپاس
استفاده کردم
با سلام
اگر امکانش هست دیتاست AR که در ارتباط با تشخیص چهره هست هم اینجا قرار دهید.
باسلام
ممنونم.بسیار مفید بود
اگر امکان داره در مورد دیتاست پزشکیBRATS توضیحاتی بر روی سایت قرار دهید
سلام
لطفا اینجا رو چک کنید : http://braintumorsegmentation.org/
از لطف شما ممنونم
دیتاست یاهو انسر هم به کار پژوهشهای یادگیری عمیق میخوره؟
سلام خود من تو حوزه متن وارد نشدم نمیدونم الزاماتش چیه اما اگر دیتاست نسبتا جامعیه بله
پیشنهاد میکنم در سایت پرسش و پاسخ بپرسید که دوستانی که با متن کار کردن و حوزه پردازش زبان طبیعی راهنمایی کنن
سلام
دیتا ست از شبکه های اجتماعی خصوصاً تلگرام برای تحلیل انتخابات. اگه امکانش بود ممنون میشم
سلام
من نیاز به تصاویر پشه سفید و آفات گیاهی دارم ولی دیتا ست مشخصی نداره
ممنون میشم کمکم کنید
سلام
اولین قدم شما باید چک کردن مقالات حوزه خودتون باشه (اگر چیزی باشه) و بعد از طریق رفرنس به دیتاست اونها دسترسی پیدا کنید یا درخواست بدید بهشون که در اختیارتون بزارن
اگر موارد بالا نیست خودتون یا باید از طریق گوگل و… دیتاست بسازید یا اینکه خودتون دستی برید و از افات و… تصاویر یا دیتای مورد نیاز رو تهیه کنید.
ممنون
سلام وقتتون بخیر
پروژه من تشخیص عابر بایادگیری عمیق ولی دقیقا نمیدونم از کدوم دیتا ست استفاده کنم اول میخواستم از inria استفاده کنم ولی داده های برچسب گذاری شده نداره اگه امکانش هست منو راهنمایی کنید ممنون
سلام
میتونید از Caltech Pedestrian detection استفاده کنیدکه معروف تره . همینطور میتونید از دیتاست eth و Diamlerهم استفاده کنید
http://www.vision.ee.ethz.ch/en/datasets/
از پاسکال وک و ms coco هم استفاده میشه .
راحت ترین کار معمولا دیدن مقالات مربتط با کارتون هست اینطور بخوبی میتونید دیتاست مطرح حوزه خودتون رو مشخص کنید.
سلام روزتون بخیر
پروژه من تشخیص کشتی در تصاویر SAR هست مقالات از دیتاست های مختلفی استفاده کردن،آیا جایی هست که بتونم دیتاست ها رو ازش دانلود کنم ، چطور میتونم خودم در متلب یک دیتاست بسازم؟
سلام.
برای دانلود دیتاست که مشاهده میکنید لینکهای بالا هست. علاوه بر اون بهشت دیتاست ها رو هم چک کنید.
دیتاست نکته خاصی نداره ساختنش. یکسری تصاویر باید تهیه کنید و برای ترینینگ و تست ( و یا ولیدیشن ) کنار بزارید . برچسب تولید کنید برای هرکدوم و بعد ترینینگ رو استارت بزنید.
سلام. لطف می کنید آموزش اینکه چه طوری دیتا ست بسازیم ولیبل گذاری کنیم ولود کردنش رو هم بگید
سلام.
این کار در فریم ورکهای مختلف بصورت های مختلفی انجام میشه. برای همین شما باید بر اساس همون فریم ورکی که قراره ازش استفاده کنید پیش برید.
همه اونها آموزشی برای اینکار دارند. (فریم ورکهای قدیمی مثل کفی و برخی از روشهای ابتدایی تنسورفلو البته در بخش پرسش و پاسخ قبلا بهشون پرداخته شده هرچند بسیار پیشنهاد میکنم برای نسخه های جدید فریم ورکهایی مثل تنسورفلو
حتما از مستندات فعلی اون استفاده کنید)
سلام
دیتاست Caltech Pedestrian detection را نمیتونم دانلود کنم. با چند تا فیلترشکن مختلفم امتحان کردم. میشه بگین چجوری دانلودش کنم؟
سلام
لینکهای دانلود هیچ مشکلی ندارن تست کردم خودم. از این لینک دانلود کنید
سلام دیتاست R6A – Yahoo! Front Page Today Module User Click Log Dataset, version 1.0 (1.1 GB) را نیاز دارم اما با درخواستم موافقت نشده با اینکه ایمیل دانشگاهی دارم .
حالا چطور میتونم به دیتاست برسم برام خیلی مهمه
ممنون
سلام
یا باید از اعضای هییت علمی یا دانشجوی یه دانشگاه معتبر باشید یا یه شرکت معتبر
از استادتون بخوایید براتون درخواست بدن و دیتاست رو براتون فراهم کنن
با سلام و خسته نباشید.
ببخشید منم با کتابخانه تنسور و برنامه نویسی پایتون دارم کار می کنم .
میخوام از دیتاست استفاده کنم اما بلد نیستم چطوری باید دیتا ست خودم درست کنم .
من رکورد هامو دارم و ویژگی هایی هم که نیاز دارم در آوردم ولی نمیدونم چطوری باید فرمتش بنویسم که داخل محیط برنامه نویسی به صورت صحیح بشناسش .
هرجا سرچ زدم چیزی در مورد درست کردن دیتا ست نبود همش دیتا ست آماده بودند .
ممنون میشم راهنمایی کنید.
اگر لینک آموزشی معرفی کنید که مرحله به مرحله توضیح بده ممنون میشم.
رکورد من از مشتریان شرکت اینترنتی هست.
مرسی
سلام .شیوه اینکار که تو سایت رسمی تنسورفلو هم اومده. اگر فارسی هم سرچ کرده باشید باید موارد زیر رو دیده باشید اگر نه این موارد رو چک کنید :
http://qa.deeplearning.ir/1681/مراحل-لیبل-زدن-دیتاست-در-تنسورفلو
http://qa.deeplearning.ir/3285/شیوه-ارائه-دیتاست-در-فریم-ورک-تنسورفلو-و-کراس
http://qa.deeplearning.ir/1508/نحوه-خواندن-دیتاست-در-تنسورفلو
این لینکها هم میتونه مناسب باشه براتون :
https://towardsdatascience.com/how-to-use-dataset-in-tensorflow-c758ef9e4428
http://adventuresinmachinelearning.com/tensorflow-dataset-tutorial/
https://www.dlology.com/blog/an-easy-guide-to-build-new-tensorflow-datasets-and-estimator-with-keras-model/
https://www.youtube.com/watch?v=bqeUmLCgsVw
بسیار ممنون . با این موضوع جستجو نکرده بودم .
خیلی لطف کردید.
برای دستهبندی تصویر به اینکه عدد دستنویس هست یا خیر، دیتاستی وجود داره؟ (دیتاستی متشکل از اعداد دستنویس و چیزهای مختلف دیگه)
سلام . دیتاست mnist و فارسیش که قکر میکنم هدی باشه میتنید استفاده کنید
سلام ممنون از توضیحات خوبتون
اگر دسته بندب دیتاست ها بر اساس کاربردشون مثلا در رگرسیون و … راهم یک پست مختصر هم توضیح بدهید بسیار مفید خواهد بود
با تشکر
سلام.
متوجه منظورشما نشدم کمی بیشتر توضیح بدید لطفا.
سلام
من دیتاست روند بهبودی بیماری های سرطانی رو میخوام میشه کمکم کنید لطفا
سلام اینجا رو چک کنید
سلام من دنبال دیتاست روند بهبودی بیماران سرطانی رو میخوام میشه کمکم کنید
دارم روی پایانامه کار میکنم
سلام
ببخشید دیتاست در مورد پلاک خودروهای ایرانی و دیتاست در مورد میخوام. لطفا جواب بدین
سلام.
من متاسفانه نمونه ای ندارم. باید در گروه یادگیری عمیق (سایت پرسش و پاسخ و یا گروه تلگرام ) بپرسید راهنماییتون کنند.
با سلام
شما دیتاست همشهری(Hamshahri Dataset) رو دارین؟ برای دانشگاه تهرانه
سلام خیر متاسفانه
سلام جناب حسن پور
ممنون از سایت خوبتون و اطلاعات مفیدی که در اختیار علاقمندان قرار میدید
اگه میشه بنده رو راهنمایی بفرمایید
من می خوام دیتاست BIDMC به آدرس https://www.physionet.org/physiobank/database/chfdb/ رو در گوگل کولب import کنم. توی اون آدرس فایل های زیادی هست کدوم فایل ها رو باید import کنم بعد چجوری اونها رو load کنم و ازشون استفاده کنم یعنی بخش های train و test رو چجوری تعریف کنم؟
ممنون از پاسخ شما
سلام
من متاسفانه اطلاعی ندارم در رابطه با اون دیتاست باید داکیومنتهای مرتبط رو بخونید ببینید چی هستن و با چه فرمتی ذخیره شدن و چطور باید باهاشون کار کرد. اما برای بحث انتقال دیتاست با همه فایلهاش یکی از راحت ترین راه ها اینه اون فایلها رو منتقل کنید به یه repository github بعد تو گوگل کولب خیلی راحت git clone کنید . بعد هر کاری خواستید میتونید انجام بدید تفکیک کنید ویرایش کنید و…
سلام ظاهرا دیتا ست brats به سادگی در دسرتس عموم نیست ، کی میتونه کمکم کنه ؟
سلام . من دیتاستی میخواهم که فقط شامل اعداد باینری باشد . لطفا راهنمایی میکنید ؟
سلام .
منظورتون چیه ؟
دیتا ست برای تصاویر هوایی هم موجود هست ؟
ممنون
سلام
بله. دنبال چه تصویری هستید؟ سرچ کردید خودتون؟
سلام . لطفا دیتاست مربوط به تشخیص اشیا به کمک شبکه عصبی عمیق را قرار می دهید. با تشکر از زحمات شما
سلام
دیتاست های زیادن. باید ببینید چه رسته ای برای موضوع شما مناسب هست.
باسلام . من دیتاست سیگنال EEG برای بیماران پارکینسون رو میخواستم اما تو هیچ سایتی پیدا نمیکنم.
برای پارکینسون میتونید از اینجا استفاده کنید : https://archive.ics.uci.edu/ml/datasets/parkinsons
سلام
آیا از طریق یادگیری عمیق بازار بورس و بازارهای مالی قابل پیش بینی هست؟
آیا معاملات الگوریتمی با شبکه عصبی ارتباطی داره؟
چطور میتونم به دیتاست بازارهای مالی دسترسی داشته باشم؟
ممنون از پاسخگوییتون
سلام
بله
متوجه نشدم
دیتاستهای مختلفی هست اگر بر مبنای مقالات کار میکنید باید با توجه به رفرنس داده شده پیش برید. در غیر اینصورت بخش دیتاست ها (مخازن ) رو چک کنید
سلام وقتتون بخیر. ممنون از آموزشتون.
من به دنبال یک دیتاست تصویر خوب برتی بیماری های دهان و دندان هستم، اما تا حالا نتونستم دیتاست خوبی پیدا کنم. ممنون میشم راهنمایی کنید
سلام
یه نگاهی به مخزن دیتاستهای یادگیری ماشین دانشگاه UCI بندازید (ابتدای همین بخش رو ببینید)
سلام من دنبال یک دیتاست خوب برای دسته بندی ترافیک شبکه میگردم که با یادگیری عمیق انجامش بدم.
سلام. سه تا لینک مرجع برای سرچ دیتاست همون ابتدای من قرار دادم که تقریبا میشه گفت هرچیزی لازم داشته باشید از طریق اینها میتونید پیدا کنید. لطفا از همونها استفاده کنید.
بطور خاص لینک اول (گوگل دیتاست سرچ ) و سوم رو چک کنید نسبت به دوم احتمال بیشتری هست که به چیزی که میخوایید برسید.
سلام خسته نباشید
من تازه این ترم پایان نامه دارم و استادم میگه حتما باید ی دیتا ست باید پیدا کنی اول
منم نمیدونم چ دیتا ستی از کجا پیدا کنم با چ موضوعی که راحت انجام بشه بره خوبم باشه
لطفا راهنماییم کنین، اگه میشه با ایمیل در تماس باشیم با تشکر
سلام.
قبل از دیتاست باید حوزه کاری خودتون رو مشخص کنید . یعنی در چه حوزه ای دوست دارید کار کنید . بینایی کامپیوتر یا پردازش زبان طبیعی و…
بعد از اون باید ببینید کدوم زیرحوزه یا کاربرد از این حوزه انتخابی برای شما جذابه مثلا بینایی کامپیوتر رو اگر انتخاب کنید چه زیربخشی میخوایید فعالیت کنید کلسیفیکیشن دیتکشن سگمنتیشن یا ….
بعد یک یا چندتا رو که انتخاب کردید حالا با نگاه به پیش نیازهاش و اینکه وضعیت شما چطوره یکی رو انتخاب میکنید اونوقت میرید کارهای مرتبط رو میخونید ببینید شیوه ارزیابی چیه از چه دیتاست یا دیتاست هایی استفاده میکنن و بعد برید سراغ دیتاست .
برای ایمیل میتونید از بخش تماس با من پیامتون رو ارسال کنید و من جواب میدم خدمتتون.
با سلام و احترام
من مطالب سایت را در زمینه word embedding مطالعه کردم و بسیار استفاده کرد.
میخواستم درخواست کنم دیتاست هایی از توییتر را اگر ممکن هست به اشتراک بگذارید.
با احترام
با سلام و خسته نباشید…
من در زمینه ی شناسایی اسکناس فعالیت میکنم خواستم بدونم در این زمینه دیتاستی موجود هست؟؟؟
سلام. من شخصا چیزی ندیدم اما قبلش به منابعی که در بالا دادم مراجعه کنید و اونجا سرچ کنید.
اگر چیزی نبود ایجاد دیتاستی که مد نظرتونه کار سختی نباید باشه و باید بتونید خودتون انجام بدید.
سلام خسته نباشید
دیتاست (Sunnybrook of left ventricle (LV، رو اگه امکانش هست می خواستم.
ممنون
سلام وقت بخیر
ممنون از سایت فوق العادتون، موضوع پایان نامه ارشد من مرتبط با یادگیری عمیقه و من تا الان خیلی از سایت شما استفاده کردم مخصوصا مقالات مربوط به شبکه های RNN. بی نهایت از مطالب فوق العاده مفیدی که گذاشتید ممنونم خدا خیرتون بده.
فقط سوالی که داشتم این بود که من به دنبال دیتاست سیگنال های EEG خواب هستم. تو بهشت دیتاست ها گشتم و چیزی نبود، تو سایت های دیگه هم حقیقتش چیز خاصی پیدا نکردم
میخواستم ببینم شما میتونید راهنمایی دقیق تری بکنید که من یه دیتاست کامل برای سیگنال های EEG خواب بدست بیارم؟
با تشکر
سلام
تو بخش دیتاست ابتدای بخش من سه تا مرجع برای دیتاست معرفی کردم حتما میتونید چیزی که میخوایید رو اونجا پیدا کنید.
یکی دیتاست گوگل هست (بخش جدیدی که گوگل راه اندازی کرده برای همین کار) و دیگری هم مخزن دیتاست دانشگاه ایروین کالیفرنیاست
تعداد زیادی دیگه هم میبینید که لیست شدن بالا اگه اینجا پیدا نکردید به منبعی که لینک شدند دیتاست های مشابه مراجعه کنید یا رجوع کنید به مقاله مرجعتون .
سلام
ببخشید برای ارزیابی یک مدل تو سایت مربوطه مثلا ایمیج نت چه چیزی رو اپلود میکنن؟
و ممنون میشم اگر کمی در این مورد توضیح بدین
سلام سابقا یه اسکریپت ارائه میشد و افراد میتونستن روی تست ست نتایج رو کسب کنن و بعد ارسال کنن.
دقت های بعدی روی ولیدیشن ست گزارش شده و میشه یعنی ملاک مقالاتی که نتایج روی ایمیج نت رو مطرح میکنن دقت کسب شده روی ولیدیشن ست هست
سلام نه منظورم تست و ولیدیشن ست نبود
وقتی یک مدل طراحی میشه برای ارزیابی دقیق مدل میشه یه چیزی رو داخل سایتهای چالش مربوط به اون پایگاه داده، آپلود کرد تا مثلا دقیقا بگن دقت چند درصد هست
حالا اون چیه که اپلود میکنن؟
سلام.
من هم عرض کردم هر چلنجی یک مسیر برای سابمیت امتیاز داره. بسته به چلنج شما باید چند مورد رو سابمیت کنید من جمله مدلتون رو هم(بستگی به چلنج داره)
در ایمیج نت یک Development kitیی وجود داشت که برای سابمیت امتیاز ازش استفاده میشد و صرفا پیش بینی ها به سرور ارسال میشد.
اگه development kit رو دانلود کنید در خودش توضیحات کافی در مورد چگونگی ثبت امتیاز هست.
تشکر
سلام
وقتتون بخیر
دیتاست مربوط به تصاویر مدرک جواز دارید؟
ممنونم
سلام
متوجه فرمایشتون نشدم
لطفا کمی دقیق تر بفرمایید تا ببینم کمکی از دست بنده بر میاد یا خیر
سلام وقت بخیر
من دارم روی تصاویر ماهواره ای کار میکنم ولی هرچقدر سرچ میزنم کدی رو نمیتونم پیدا کنم که یادگیری عمیق بر روی این تصاویر باشه و کدش رو گذاشته باشن و اجرا بشه
ممنون میشم اگه کد در این رابطه دارید برای ایمیل بنده ارسال کنید، چون نمیدونم فرایند دیتا دادن و اموزش بر روی این تصاویر چجوریه و شما هم تو سایتتون در مورد این تصاویر صحبتی نداشتید
ممنونم
سلام کلیت کار با سایر موارد فرقی نداره و اتفاقا کد هم زیاده
شما باید بر اساس فریم ورک سرچ کنید . مثلا لینکهای زیر چند نمونه از این موارد برای کراس/تنسورفلو هست . برای پای تورچ هم به همین شکل هست :
https://github.com/zia207/Deep-Neural-Network-with-keras-Python-Satellite-Image-Classification
https://github.com/xAbhidhar/Keras-Tensorflow-Satellite-Images-classification
https://machinelearningmastery.com/how-to-develop-a-convolutional-neural-network-to-classify-satellite-photos-of-the-amazon-rainforest/
سلام وقتتون بخیر.من قرار هست روی دیتاست camvid با شبکه cnn کار کنم.جایی کدی پیدا نکردم.میشه راهنمایی بفرمایید
سلام
داداش اگه میشه راهنماییم کنید،در مورد یه پروژه.نیاز به دیتا ست دارم اینجا و توی وب پیداش نکردم.ایمیل روهم گذاشتم.
سلام
چه دیتاستی نیاز دارید؟
چه پروژه ای دارید؟
سایتهایی که بالا مشخص کردم چک کردید؟
سلام، من دیتاست نمرات دانشجویان با یک سری ویژگی(سال ورود، ترم ورود، سال تولد…) میخام. هر چه این ویژگی ها بیشتر بهتر….
سلام. در مورد تشخیص ساختار کریستالی مواد دیتاست دارین ؟
سلام از مخازن بالا جستجو کنید
سلام، ممنون از وب سایت خوبتون
من دارم روی تشخیص آنوریسم مغزی کار میکنم اما هرچه گشتم دیتاست مربوط رو پیدا نکرم
لطفا اگه امکانش هست راهنمایی کنید
ممنون
سلام دوستان
من هم تصاویرآنوریسم مغزی جهت آموزش شبکه عصبی ایحتیاج داشتم
سلام خدمت شما
MovieLens:دتا دیتاست از اینجا قابل دریافت هست. اولین دیتاست شامل ۱۰۰ هزار رتبه بندی برای ۱۶۸۲ فیلم توسط ۹۴۳ کاربر هست . که به ۵ بخش مختلف تقسیم شده. دومین دیتاست حدود ۱ میلیون رتبه بندی (ریتینگ) برای ۳۹۰۰ فیلم هست که توسط ۶۰۴۰ کاربر داده شده .
چه جوری دانلود کنم از سایتش
سلام باید از این لینک فرم رو بگیرید پر کنید و ارسال کنید.
سلام خسته نباشید
من میخوام طبقه بندی تومور های مغزی با استفاده از یادگیری عمیق انجام بدم ممنون میشم یک سایتی معرفی کنید برای دیتا.تصاویر ام ار ای مغزی
اولین قدم انتخاب یکسری مقاله مرجع برای کارتون هست و بعد دریافت دیتاست هایی که اونها استفاده کردن. البته اگر پابلیک باشن. اگر چیزی پابلیک نبود اونوقت از سایتهایی که بالا معرفی کردم میتونید استفاده کنید.
علاوه بر اینها سایتهایی مثل ردیت و امثالهم هم هستن که برای پرسش و دریافت این قبیل موارد خیلی مناسب هستن (خصوصا ساب ردیت هایی مثل دیپ لرنینگ و دیتاست و…)
سلام وقت بخیر
من برای پایان نامم به تعدادی تصاویر rs-fMRI نیاز دارم(تعدادی مربوط به افراد سالم و تعدادی برای بیماران مبتلا به اختلال دو قطبی).که متاسفانه این دیتا ست ها عموما از مقالات خارجی قابل دسترس نیست(جز یه مورد که فرمت دیتا JSON هست و به فرمت تصویر تبدیل نمیشه). آزمایشگاه ملی نقشه برداری مغز ایران هم فقط تصاویر سالم در اختیار داره. نمیدونم چطور میتونم به این دیتاست ها دسترسی پیدا کنم.
از گروه تلگرام پیگیری کردید ؟
در ساب ردیت dataset چک کردید یا مطرحش کردید؟ اگر نه این کارو بکنید.
سلام وقت بخیر
من یه دیتاست میخوام از کلمات یا جملات مجزا به اضافه صوت آنها مخصوص زبان فارسی یا انگلیسی،
احیانا چیزی پینهاد میکنید؟
سلام
دیکشنری میتونید پیدا کنید هم لغات و عبارات هست و هم معمولا فایل صوتی
سلام وقت بخیر، من میخوام خطای ظاهری تو قطعات پرینت شده ۳ بعدی رو با استفاده از یک دوربین روی پرینتر انجام بدمم راهنمایی بفرماید دیتا ست از انواع خطاها تا به حال تهیه شده و اگر شده از کدوم مورد استفاده کنم.با تشکر
سلام.
من اطلاعی در این باره ندارم و نمیدونم چنین دیتاستی هست یا نه (بصورت مستقیم مربوط به حوزه کاری ما نمیشه)
منتها تو ساختش نباید مشکلی داشته باشید. حداقلش اینه که بر اساس موتورهای جستجو قطعات و یا انواع خرابی مورد نظرتون رو سرچ کنید و دیتاست رو اینطور تهیه کنید
یا خودتون بصورت مستقیم به ایجاد این دیتاست بپردازید.
سلام. دیتاست همشهری ۲ رو من ندیدم و نمیدونم از کجا و چطور دانلود کنم. ممنون میشم راهنمایی کنید
سلام
من میخام در حوزه پیش بینی فروش ازش استفاده کنم چطور میتونم یک دیتاست درمورد آمار فروش یک محصول مثل لبنیات یا ماده غذایی پیدا کنم؟توی کگل و … پیدا نشد. و سوال بعد اینکه من نمیدونم یادگیری ماشین از کجا شروع کنم؟ممنون میشم راهنمایی بفرمایید
سلام.
اتفاقا در کگل یک دیتاست برای محصولات لبنی بود مثل این https://www.kaggle.com/datasets/sohier/weekly-dairy-product-prices
اینجا هم میتونید لینک اصلی رو ببینید : https://mpr.datamart.ams.usda.gov/menu.do?path=Products\Dairy\All%20Dairy
برای یادگیری ماشین پیشنهاد میکنم از یک آموزش یادگیری ماشین شروع کنید و بعد در کنارش با تهیه کتاب و مطالعه بیشتر مطالب رو تعمیق کنید اینطور هم سریعتر براه میوفتید و هم خروجی سریعتری میتونید داشته باشید.
برای شروع آموزش یادگیری ماشین اندرو ان جی مربوط به ۲۰۱۰ که مبانی اولیه و بعضی روشهای کلاسیک رو اموزش میده میتونه خوب باشه.
اگر روشهای جدیدتر رو میخوایید میتونید آموزش یادگیری عمیق اندرو ان جی که تو ۵ فصل ارائه کرده از کورسیرا رو ببینید لینکش باید تو سایتهای فارسی باشه.
علاوه بر اون آموزش یادگیری عمیق Udacity (پایتورچ و یا تنسورفلو) هم هست که با جهت یادگیری عمیق شروع میشه و مبانی اولیه یادگیری ماشین رو هم ارائه میکنه.
یک کورس دیگه هم اختصاصی ماشین لرنینگ در Udacity هست که فکر میکنم مربوط به ۲۰۱۲ یا ۲۰۱۵ باشه اونم میتونه خوب باشه .
سلام ممنون از اطلاعات مفیدتان
تفاوت این دو تا دیتاست چیه یکی cbsd68 و یکی bsd68
من چجوری دیتاست bsd68 را پیدا کنم و دانلودش کنم.؟
ممنون
سلام
متاسفانه آشنایی با این دیتاست ها ندارم.
سلام
از زحمات شما سپاسگزارم دوست عزیز
من دیتاست از سیگنالهای راداری نیاز دارم. میخوام از روشهای یادگیری عمیق تحلیل و شناسایی کنم. ممنونم
سلام.
باید حوزه رو دقیقتر مشخص کنید. عموما با پیگیری پیپرهای مرتبط براحتی باید بتونید به دیتاست مورد نظرتون دست پیدا کنید
سایت https://data.world/datasets/radar رو بررسی کنید علاوه بر گوگل (چون موارد مختلفی هست)
سلام من دیتا ست تشخیص میوه رو نیاز دارم لطفا راهنمایی کنید
سلام.
یک سرچ ساده در گوگل بزنید موارد زیادی پیدا باید بکنید. علاوه بر اون براحتی خودتون هم باید بتونید یک دیتاست بسازید.
به هر حال این یک نمونه از گاگل هست https://www.kaggle.com/datasets/moltean/fruits
سلام وقت بخیر . من به دنبال دیتاست درمان بیماری گیاهی هستم. آیا شما سراغ دارید؟
سلام.
نه متاسفانه. اما یک نگاهی به کاگل بندازید احتمال اینکه موردی مشابه پیدا کنید احتمالا هست.
سلام
دست شما درد نکنه
درست بهترین زمان ممکن با سایت شما آشنا شدم
ممنون
با سلام خدمت جناب حسن پور
دیتا ست سه بعدی دندان از کجا میتونم گیر بیارم ممنون میشم راهنمایی کنید.دیتا ست در زمینه سگمنت دندان و سه بعدی سازی دندان میخواستم.ممنون میشم کمکم کنید
سلام. اولین قدم شما باید بررسی پیپرهای مرتبط با این حوزه باشه تا ببینید از چه دیتاستی استفاده کردن و بعد اونو تهیه کنید. مثل این پیپر:https://arxiv.org/abs/2206.08778
به غیر از اون با همون کی وردهای مورد نظرتون باید به مواردی از قبیل https://darwin.v7labs.com/v7-campaigns/panoramic-dental برسید .
دیتاست برای شبکه های نظیر به نظیر از کجا می تونم گیر بیارم؟
در حوزه Video Streaming کار میکنم
سلام
اولین جایی که باید بگردید paperswithcode هست و مقالات مرتبط با کارتون. از رفرنس اونها میتونید براحتی دیتاست های حوزه کاریتون رو مشخص کنید
سلام وقت شما بخیر .من دنبال یک دیتاستی برای پردازش زبان طبیعی میگردم که شامل کامنت های افراد در رسانه های اجتماعی باشه که هر هشت حس چرخه پلاچیک رو شامل باشه .میشه راهنمایی بفرمایید از کجا پیداش کنم
من دنبال یه دیتا ست برای پردازش زبان طبیعی میگردم که داخلش حس های هشتگانه مانند ترس خوشحالی تعجب و … رو داشته باشه ممنون میشم کامنت منو جواب بدید دفعه قبل هم کامنتم حذف شد
سلام وقت شما بخیر
نظرات شما پاک نمیشن. نظرات همه باید تایید بشن (برای جلوگیری از اسپم ها مجبورم نظرات رو بصورت دستی تایید کنم و چون دیر به دیر به سایت سر میزنم این متاسفانه زمانبر شده.)
(بعضی اوقاتم البته سایت بک آپش ریستور میشه که خارج از اختیار منه و متاسفانه بخاطر دست گلهای هاست منه)
برای جواب سوالتون هم من این چندتا دیتاستی که بهشون برخوردم رو خدمتتون عرض میکنم که با یه سرچ ساده میتونید اطلاعات بیشتر برای دانلود و… رو بدست بیارید(تو کاگل و هاگینگفیس باید بتونید راحت اینارو پیدا و دانلودکنید)
Emoticons: دیتاست مال گوگل هست و حدود ۵۸ هزار جمله با ۲۷ حس مختلف رو داره.
CrowdFlower: هم یه دیتاست حاوی توییتهایی با احساس های مختلف هست (ترس و…)
Sentiment140: این دیتاست هم از ۱.۶ میلیون توییت با احساس های مختلف تشکیل شده.
SemEval-2018: توییتهایی با ۱۱ حس مختلف؛ برای شناسایی چند حس تو یه جمله خوبه.
Affective Text: مخصوص حسهای پایه مثل شادی، غم، ترس و خشم.
EmoReact: هم شامل ویدیو و متن هست واسه وقتی که میخواید احساس تو حالت چهره و متن رو با هم تشخیص بدید.